7月26日,2025世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2025)在上海開幕。商湯絕影攜全新升級的“絕影開悟”世界模型亮相WAIC 2025,搭建AI通往真實世界交互的橋梁。
作為最專注汽車行業的AI公司,商湯絕影展示了行業首個已量產、可交互的“絕影開悟”世界模型,正式亮相輔助駕駛領域首個生成式世界模型產品平臺,并發布業內最大規模的生成式駕駛數據集“WorldSim-Drive”,持續賦能輔助駕駛行業。同時,在商湯絕影展臺,觀眾還能現場與世界模型進行實時交互,體驗行業領先的數據生成能力。
不僅如此,商湯絕影在輔助駕駛領域打造的虛實融合的數據范式,將會賦能具身智能領域,以人、物體、場景三者為核心,通過行業領先的大模型技術能力,生成時空一致的第一視角和第三視角數據,為具身智能的構建全新的4D真實世界。
商湯絕影CEO,商湯科技聯合創始人、執行董事、CTO王曉剛表示,“商湯的世界模型正在將AI的創造力轉化為生產力,既為輔助駕駛生成千萬級場景數據、打造實時交互訓練場,同時也打造具身智能的數據引擎,搭建AI從數字世界通往真實物理世界的橋梁,邁向具身智能的新未來。”
“絕影開悟”秀出量產實力,商湯絕影發布世界模型產品平臺與業內最大生成式駕駛數據集亮相
在2025世界人工智能大會上,商湯絕影全面展示了“絕影開悟”世界模型的量產實力。7月26日,上海自動駕駛實訓場建設成果發布,商湯絕影深度參與其中,以“絕影開悟”世界模型行業領先的數據生成和仿真測試能力賦能自動駕駛實訓場建設。
目前,商湯絕影正在與上汽集團旗下的智己汽車進行深度合作,已順利打通Cut-in、碰撞等場景的數據生成鏈路。未來,絕影將攜手上汽智己等各方伙伴共同打造數據工廠,一同加速安全可靠的輔助駕駛系統的落地和普及。
在世界模型的產品化方面,商湯絕影正式發布了輔助駕駛領域首個生成式世界模型產品平臺,面向B/C端用戶開放試用。產品平臺基于行業領先的“絕影開悟”世界模型構建,具備強大的物理規律理解與場景控制生成能力,是切實解決輔助駕駛數據瓶頸的創新工具。
輔助駕駛領域首個生成式世界模型產品平臺
一方面,產品平臺可靈活定制場景視頻,支持多種視角、各類天氣、道路類型等多元素場景的編輯和泛化,即根據不同需求,修改和調整場景中的各種要素,豐富訓練場景的多樣性。另一方面,絕影的生成式世界模型產品平臺能夠基于提示詞一鍵生成多種場景,十分簡單易用。
不止如此,商湯絕影還發布業內最大規模的生成式駕駛數據集“WorldSim-Drive”。借助“開悟”世界模型,絕影已生產超100萬clips面向量產的生成式數據,場景類型覆蓋全面,包括50多類天氣和光照條件、200類交通標牌和300類道路連接場景等。而且絕影的生成式駕駛數據能實現多視角時空一致、時長可達分鐘級、分辨率達1080P品質媲美真實數據。
生成式駕駛數據集“WorldSim-Drive”
“絕影開悟”是業內首個應用于真值訓練數據生產的世界模型,而且生產效率很高,基于一張A100的GPU,“絕影開悟”每天生成的數據,相當于10臺真實車或者是100臺路測車的數據采集能力,比得上500臺量產車。目前,商湯絕影20%的數據是通過世界模型生產。
除此之外,在今年WAIC 2025的商湯絕影展臺上,觀眾能夠體驗行業生成式世界模型產品平臺,基于簡潔易懂的交互界面,通過輸入生成文本或點選場景圖片,即可在高效生成的對應場景視頻中體驗行業領先的輔助駕駛數據集性能。
商湯絕影打造可體驗的4D實時交互訓練場
商湯絕影將3DGS重建技術與世界模型生成技術完美融合,為高階輔助駕駛的研發打造大尺度、高保真、可實時交互的4D虛擬訓練場,為模型強化學習、閉環仿真測試與訓練再添新動力。
首先,“絕影開悟”具備超大尺度4D空間重建能力,能夠進行最高可達1km²的真實世界高精度重建,將更多真實空間視角提供給車端模型。同時,“絕影開悟”世界模型能夠構建復雜多元的場景。基于場景需求,通過文本描述及layout定制定制前景交通參與者與交互行為,實現“輸入需求→生成場景→微調優化”的場景生成閉環,滿足仿真復雜、長尾場景需求,為后續智能體交互提供扎實的場景基礎。更重要的是,“絕影開悟”能夠實現策略模型與環境模型1:1實時交互,滿足閉環仿真測試對實時性的需求,提升測試結果可信度。
基于“絕影開悟”打造的4D實時交互訓練場
目前,“絕影開悟”生成的數據已經覆蓋了萬千長尾場景,賦能閉環仿真測試。商湯絕影與智己汽車也在閉環仿真測試領域開展合作,構建起占道急剎、環島繞行等場景的豐富測試場景數據。未來,雙方計劃攜手打造千萬級生成場景庫,構筑全面測試樣例,覆蓋所有駕駛可能性,進一步保證駕駛安全。
在本屆WAIC的絕影展臺上,觀眾還能在現場與世界模型進行實時交互,體驗世界模型生成的環境中“開車”的感覺。
搭建AI通往真實世界交互的橋梁,邁向具身世界模型新未來
智能汽車可以看成是最簡單的“具身智能”,而機器人等具身智能硬件需要更進一步理解復雜、多變、充滿不確定性的真實物理世界,并且與之進行自然流暢、安全可靠的交互,同時機器人的造型更加多元,傳感器配置、移動方式等等更加復雜,對于數據種類、數量和質量的要求都更高,正在面臨真實場景數據采集“維度爆炸”困境。
另一方面,在輔助駕駛領域,數據采集相對容易,人就可以開車采集真實數據,具身智能則需要人類遠程操控進行采集工作,這樣的數據采集方式難度更大,成本更高,效率低。如果采用傳統模擬工具合成數據,還存在Sim2Real的遷移鴻溝。
商湯絕影在輔助駕駛領域打造的虛實融合的數據范式,能夠遷移并賦能具身智能領域,打破當前具身智能的數據瓶頸。商湯絕影世界模型的多傳感器融合與實時處理能力,能夠實現多模態時空對齊;而動態環境建模與預測能力,可生成高保真4D環境;最后,強大的數據合成與閉環驗證體系,能夠助力具身智能進行基于強化學習的閉環仿真交互。
因此,商湯以人、物體、場景三者為核心,通過行業領先的大模型技術能力,構建4D真實世界,打造創新的具身世界模型,搭建AI通往真實世界交互的橋梁。
商湯具身世界模型目前已經擁有10萬個真實3D資產,打造了行業領先的具身3D資產庫。這些3D資產覆蓋家庭、辦公、商業、工業等多20個場景的真實動作,不僅如此,商湯具身世界模型生產的數據不僅有第一視角,即機器人所能看到的世界,還能生成第三視角,就是“上帝視角”,從外部看到的機器人整體動作,觀察和學習如何與環境進行交互。過去的采集和仿真數據大多都只有其中一個視角,難以達到具身智能高質量訓練的要求。
第一視角
第三視角
例如,商湯具身世界模型生成機器人切黃瓜的數據,會有第一視角的視頻,聚焦操作臺上是菜刀如何上下左右移動來切斷黃瓜,也會有第三視角則會整體呈現在4D世界中機器人與操作臺的距離,整條手臂、骨骼的運動軌跡等。
第一視角
第三視角
生成第一視角和第三視角的視頻只是基礎,商湯具身世界模型還能實現兩者的融合,保持時空一致性,真正能夠應用與具身世界模型的訓練。結合它1:1實時交互的能力,具身智能體能夠與4D真實世界進行實時交互,實現具身閉環仿真,加速具身智能時代的到來。