近日,上海人工智能實驗室(上海AI實驗室)聯合香港科技大學、德國圖賓根大學、香港大學推出首個大規模自動駕駛視頻生成模型GenAD,通過預測和模擬真實世界場景,為自動駕駛技術的研究和應用提供支撐。
自動駕駛是汽車行業“下半場”競爭的核心,隨著科技的飛速發展,智能駕駛技術已經成為汽車行業的熱門話題。從最初的輔助駕駛系統到如今的自動駕駛技術,智能駕駛正在逐步改變我們的出行方式。但自動駕駛是一個高度復雜的技術體系,不僅需要多個學科領域的知識和技能,包括傳感器硬件、機器學習、多模態融合等內容,還需要適應不同國家與地區的道路規則和交通文化,與車輛及行人進行良好的交互,以實現高度的可靠性和安全性。
近年來,上海AI實驗室自動駕駛團隊不斷突破創新,挑戰各項自動駕駛研究任務,在多模態、時空融合、端到端、多任務等方面提出了新思路、新模式。
先是在通用智能大模型“書生”(INTERN)的支持下,研究人員首次將感知、預測和規劃等三大類主任務、六小類子任務(目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃)整合到統一的基于Transformer的端到端網絡框架下,實現了全棧關鍵任務駕駛通用模型。在nuScenes真實場景數據集下,UniAD的所有任務均達到領域最佳性能(State-of-the-art),尤其是預測和規劃效果遠超之前的最佳方案。其中,多目標跟蹤準確率超越SOTA20%,車道線預測準確率提升30%,預測運動位移和規劃的誤差則分別降低了38%和28%,打造出了業界首個感知決策一體化的自動駕駛大模型UniAD。
隨后為應對“語言+自動駕駛”具體研究方向數據短缺的現狀,聯合團隊構建了首個含圖結構的“語言+自動駕駛”全棧開源數據集DriveLM,以覆蓋自動駕駛系統中的感知(Perception)、預測(Prediction)、規劃(Planning)等模塊。
經由人工進行復雜標注和嚴格的質量檢查,DriveLM包含了高質量標準、信息量豐富、邏輯關聯充分的駕駛相關文本數據,將助力自動駕駛系統在復雜多變的交通環境中使用語言模態應對復雜任務。
此次聯合團隊將開源模型(SDXL)置于駕駛視頻數據集OpenDV-2K進行訓練,使之獲得了第一人稱駕駛視角圖像的生成能力。隨后,設計并引入了因果時序模塊,包括為駕駛視頻生成特別設計的解耦空間注意力、因果時序注意力和長時序交互機制,并在OpenDV-2K上進行視頻預測訓練,以此構建起GenAD模型。
自動駕駛是一個高度復雜的技術體系,不僅需要多個學科領域的知識和技能,包括傳感器硬件、機器學習、多模態融合等內容,還需要適應不同國家與地區的道路規則和交通文化,與車輛及行人進行良好的交互,以實現高度的可靠性和安全性。
上海AI實驗室表示,聯合團隊構建了駕駛視頻數據集OpenDV-2K。經過視覺語言模型(VLM)篩選、人工質檢等工序,數據集收錄了2059小時第一人稱視角駕駛視頻,覆蓋超過244個城市場景,規模為當前之最。目前該數據集已用于GenAD預訓練,同時向全社會開源。
同時上海AI實驗室也認為,“世界模型”被視為通向通用人工智能(AGI)的重要路徑,其可在不實際執行的情況下對未來結果進行預測,從而使模型作出更有效的決策。在自動駕駛領域,特斯拉、Wayve等機構紛紛嘗試通過世界模型的研究提升自動駕駛的安全性。
得益于其強大的預測和可泛化能力,涵蓋大規模駕駛場景的GenAD為自動駕駛大模型向世界模型邁進提供了重要技術潛力。未來,聯合團隊將進一步擴展駕駛視頻數據集的規模,并持續研究以預測未來能力為核心的基礎模型,推動理解復雜世界、三維空間和抽象概念性能提升。
近年來上海在自動駕駛領域持續發力,并取得了較好的成績。2018年以來,上海分階段、分批次開放自動駕駛測試道路,打造了嘉定、臨港、奉賢、金橋四個各具特色的示范區。2023年3月22日,《上海市浦東新區促進無駕駛人智能網聯汽車創新應用規定實施細則》(以下簡稱《實施細則》)正式發布,該規定是我國首部針對無駕駛人智能網聯汽車創新應用的地方性法規。獲得牌照的企業可以在浦東新區行政區域內劃定的路段、區域開展車內全無人的智能網聯汽車道路測試。
就在3月19日,浦東新區第二批自動駕駛開放測試道路新增了金橋經濟技術開發區全域及浦東申江路、滬南公路、兩港公路等“南北科創走廊通道”道路開放為自動駕駛測試道路。本次開放測試道路共205公里,這是繼2022年開放首批12條、29.3公里自動駕駛測試道路后,浦東新區開放的第二批自動駕駛測試道路。至此,上海已累計開放測試道路達1003條,總里程突破2000公里。
截至目前,已有32家企業、794輛車獲得道路測試、示范應用、示范運營牌照,累計測試里程約2290萬公里,測試總時長約122萬小時,企業參與度、測試道路里程數和場景豐富度位居全國前列。