當前位置：主頁 > 空氣能 > 維修資訊 >

毫末的Drive GPT是什么？蹭熱點還是真有料？

發布日期：2023-04-11 22:50:59 瀏覽：

前段時間毫末搞了個DriveGPT，蹭熱點蹭得讓業內一頓噴。

今天他們正式做了個發布，給解釋了下。

一起來看下。（雖然我沒有太理解。）

現在自動駕駛的技術難點在于層出不窮的長尾難題（Corner case）。

背后原因是，目前系統在認知各類駕駛場景時，主要靠的還是人工寫規則。

有多少特殊場景，就用多少規則來約束，但始終無法窮其盡。

為了解決這個問題，業內一直在探索“實現端到端的自動駕駛”——感知數據輸入、規劃決策數據輸出，靠神經網絡來解決。

而毫末覺得ChatGPT里的GPT，就能為解決問題提供幫助。

什么是GPT？

2018年，OpenAI這家公司基于Transformer提出了GPT。

GPT的全稱是生成式預訓練Transformer模型，本質上是在求解下一個詞出現的概率，這是它的數學原理，每一次調用都是從概率分布中抽樣并生成一個詞，這樣不斷地循環，就能生成一連串的字符，用于各種下游任務。

現在被大家所熟知的ChatGPT就是在這樣一個模型上進化而來的。但其實在ChatGPT大火之前，GPT就已經用在了其他領域。

比如2021年7月的CodeX，也就是CodeGPT，可以用于代碼生成，提升寫代碼的效率，還有2021年12月發布的WebGPT，可以讓GPT利用搜索引擎，主動搜索結果并匯總整理出答案，也就是近期微軟發布的New Bing搜索。

所以，在毫末的定義里，GPT本身是一種非常通用的建模范式，能應用的領域非常之多。

特別是在自動駕駛領域，由于在公開的互聯網上相關數據幾乎沒有，所有就會形成一個稀有的垂類GPT。

毫末就把他們這個自動駕駛的GPT叫做：DriveGPT雪湖·海若。

參考的是GPT的建模范式。

本質上Drive GPT定義是自動駕駛領域的生成式預訓練Transformer大模型，也是在求解下一個Token的概率，每一次調用都相當于根據前序Token序列生成一個Token，這些Token就相當于自然語言處理中的一個詞語，只不過這里的Token是用來描述駕駛場景的。

一連串的Token拼在一塊就是一個完整的駕駛場景時間序列，包括了未來某個時刻整個交通環境的狀態以及自車的狀態。

毫末認為DriveGPT可以這么用：

?可以按概率生成很多個這樣的場景序列，每個場景都是一個全局的場景，每個場景序列都是未來有可能發生的一種實際情況。

?在所有場景序列都產生的情況下，能把場景中最關注的自車行為軌跡給量化出來，也就是生成場景的同時，便會產生自車未來的軌跡信息。

?有了這段軌跡之后，毫末希望這條軌跡是可解釋的，而GPT模型最擅長的領域便是對話和推理，DriveGPT在生成場景序列、軌跡的同時，也會把整個決策邏輯鏈給輸出。

這樣一來，在一個統一的生成式框架下，DriveGPT就可以做到將規劃、決策與推理等多個任務全部完成。

思路有了，但具體怎么執行呢？

毫末先講了講火山引擎的算力支持。

（這一部分我選擇略過）

DriveGPT雪湖·海若的一個關鍵設計，就是場景的Token化表達，毫末管這種方式叫做Drive Language。

自然語言中的Token很好理解，就是單字或單詞，中文的Token詞表有5萬個左右。

把Token輸入到模型，輸出則是下一個字詞的概率，這種概率分布隱藏了語言中的知識和邏輯，例如：根據一部偵探小說復雜線索，推理出兇手是誰。

Drive Language基于毫末的CSS場景庫理論，將駕駛空間進行離散化處理，每一個Token都表征場景的一小部分，目前毫末Token的詞表空間是50w個左右。

如果輸入一連串過去已經發生的場景Token序列，那模型就可以根據歷史，去生成未來所有可能的場景，DriveGPT雪湖·海若就像一部推理機器，你告訴它過去發生了什么，它按概率推理出未來多個可能。

（聽起來像是一個自動駕駛場景庫的標簽管理系統，給很多場景打上了標簽？）

DriveGPT的具體訓練過程毫末講得很簡單：

?首先根據駕駛數據以及之前定義的駕駛嘗試CSS做一個大規模的預訓練。

?然后，通過一些在使用過程中接管或者不接管的場景，對預訓練的結果進行打分和排序，再用強化學習的思路，把反饋模型認為好的結果排上來，差的結果排下去，最后把參數更新到一個備份模型（Active Model）中。

?整個迭代流程中利用了大量的接管或者不接管的數據，這些數據中隱藏了不同場景下錯誤的自動駕駛開法與正確的人類開法。

預訓練是怎么搞的？

在預訓練模型上，毫末從encoder+decoder的結構，調整為Decode-only結構的GPT模型，其中每一個Token就是剛才提到的Drive Language，用于描述某時刻的場景狀態，包括障礙物的狀態、自車狀態、車道線情況等等。

預訓練模型使用了1200億個參數的大模型（是個感知模型？），使用4000萬量產車駕駛數據訓練（這些數據都有哪些維度？）。

模型本身能夠對各種場景做生成式任務，但這些生成結果還需要按照人類偏好去調優，在安全、高效、舒適等維度上做出取舍。

（從下面實驗結果的圖片來看，生成的是規劃路徑？）

強化學習又是怎么搞的？

接下來毫末用部分經過篩選的人類接管數據，大概5萬個Clips去做反饋模型的訓練。

（在毫末的定義里，clip就是一個個場景）

反饋模型的樣本使用了這部分實車的接管數據，這些數據經過預訓練模型后，可以生成出多種結果，假設是A、B、C、D四個結果，這四種結果都是機器生成的，可以用人駕接管數據去做一個Grading打分模塊，用這個模塊對四個結果做評分，這樣就能產生一組帶有偏序關系的Pair樣本對，即C>A、C>B、D>A、D>B。

（對規劃路徑做打分？）

有了偏序對之后，就可以用LTR（Learning To Rank）的思路去訓練反饋模型（Reward Model）。

毫末說，這樣相當于是把影子模式從車端轉到云端，規模更大，效果更強。

如何保證可解釋性？