浮力限制草草影院|日韩无码激情诱惑|国产av无码久久|这里都是精品阿v|中文字幕一区九页|绿色导航一区二区|少妇一区二区在线|亚洲AV导航总站|亚洲天堂1区二区|9999成人网站

當前位置: 首頁 ? 資訊 ? 熱點 ? 正文

極佳科技:打造新一代4D世界模型

作者:李曉秋 來源:財中網(wǎng) 69812/24

2024 年被視作具身智能發(fā)展“元年”,全球科技界紛紛搶灘布局。自艾倫·圖靈 1950 年提出相關概念,經(jīng)多年沉淀,在大模型與生成

標簽:


2024 年被視作具身智能發(fā)展“元年”,全球科技界紛紛搶灘布局。自艾倫·圖靈 1950 年提出相關概念,經(jīng)多年沉淀,在大模型與生成式 AI 助力下,具身智能從理論邁向應用,成為當前全球人工智能領域的前沿熱點和新浪潮。

國際上,科技圈大佬馬斯克、黃仁勛等積極推動,谷歌發(fā)布 RT 系列機器人模型,RT - H 任務成功率顯著提升;英偉達成立 GEAR 實驗室,推出 Project GR00T 及 Jetson Thor 平臺;微軟、OpenAI 也投身浪潮。特斯拉擎天柱機器人更是大顯身手,從日常瑣事到工業(yè)應用,潛力無限。

國內(nèi)同樣呈噴薄之勢,2024 年上半年超 50 家具身智能概念創(chuàng)業(yè)公司涌現(xiàn),融資活躍。其中,如智元機器人、星塵智能、逐際動力等在人形機器人研發(fā)成果斐然。

具身智能之所以備受矚目,在于其擁有更強認知與決策力,能在復雜環(huán)境自如交互、執(zhí)行任務,在不遠的將來,具身智能產(chǎn)品能夠像電腦、手機、汽車等工具一樣,大規(guī)模進入到人們?nèi)粘I钪?,大幅延展人類的感知、認知、行為范圍。更進一步,具身智能能夠突破人類的限制,作為人類探索世界新的方式,幫助人類更深刻的理解世界。

由此,具身智能將數(shù)字世界與物理世界相連,未來必將深刻重塑各行各業(yè),開啟一個充滿無限可能的全新智能時代。據(jù)36氪研究院測算,我國具身智能的市場規(guī)模已從2018年的2923億元增長至2023年的7487億元,年復合增長率高達20.7%,并且有望在2026年突破萬億。


數(shù)據(jù)瓶頸:制約具身智能發(fā)展的枷鎖


然而,在這一片欣欣向榮的背后,具身智能行業(yè)的發(fā)展之路卻并非坦途。當前,行業(yè)面臨著諸多棘手的痛點,尤其是在數(shù)據(jù)訓練與仿真這一關鍵環(huán)節(jié),存在著嚴重的不足。

在具身智能領域,當前主流的較為成熟的實現(xiàn)方案停留在模仿學習,而在研的技術路徑包括強化學習、VLA、大腦+小腦雙層架構、通用具身智能基石模型等。而無論采用哪種技術路徑,行業(yè)共同面對的問題卻是相同的:1、缺少高質(zhì)量的訓練數(shù)據(jù);2、缺少高真實性的閉環(huán)仿真器。

由于具身智能算法的特殊性,其對于訓練數(shù)據(jù)的要求非常高。以Manipulation場景來說,可用來作為訓練的數(shù)據(jù)需求一般為:1、需要基于特定的視角;2、需要更高的數(shù)據(jù)維度(空間視頻、力反饋數(shù)據(jù));3、對于特定task的多樣化視頻。這使得海量的互聯(lián)網(wǎng)數(shù)據(jù)幾乎完全無法使用,只能使用價格昂貴的遙操采集設備,昂貴的人力成本,在真實世界中進行數(shù)據(jù)采集。

另外具身智能應用場景的緣故,其對閉環(huán)仿真也有特殊要求。以Manipulation場景來說,1、對于仿真器對于多物體之間,基于物理特性的交互特征的仿真真實性要求極高。而“物理特性”真實性是當前仿真器實現(xiàn)上的難點。2、由于Manipulation操作發(fā)生在距離較近距離的物體上,因此仿真需要對近處物體有非常準確和足夠真實性的展現(xiàn)。而當前大家常用的仿真器往往在Physics和Appearance上都存在程度不一的sim2real gap。導致在具體使用時,或者需要花費大量的成本進行仿真與現(xiàn)實的標定,或者得到不置信的仿真結論。

因此,建立仿真平臺對于具身智能至關重要,因為它們提供了成本效益高的實驗方式,確保了通過模擬潛在的危險場景的安全性,為測試在各種環(huán)境中提供了可擴展性,快速原型設計的能力,對更廣泛的研究社區(qū)的可訪問性,精確研究的受控環(huán)境,用于訓練和評估的數(shù)據(jù)生成,以及用于算法比較的標準基準。

世界模型:解決數(shù)據(jù)瓶頸問題的全新思路

對于制約具身智能發(fā)展的數(shù)據(jù)瓶頸,2024 年,AI 教母李飛飛發(fā)布的空間智能及相關大世界模型,猶如一顆重磅炸彈,在自動駕駛及更廣泛的具身智能應用場景中展現(xiàn)出了巨大的發(fā)展與應用潛力,為解決數(shù)據(jù)瓶頸問題提供了全新的思路。

與生成式 AI 工具生成的 2D 內(nèi)容不同,李飛飛的世界模型開啟了從數(shù)字世界向物理世界的跨越征程,實現(xiàn)了從一維數(shù)字智能向三維空間智能的重大轉(zhuǎn)變。按照李飛飛的闡釋,空間智能意味著 AI 能夠在三維空間與時間維度中,以立體的視角進行感知、推理以及行動,并切實地與現(xiàn)實世界產(chǎn)生互動交流。

因此,基于空間智能技術,天然可以構成高質(zhì)量的通用仿真器。更進一步,基于空間智能對于空間的理解和推理,可以大規(guī)模的生成高質(zhì)量的遙操數(shù)據(jù),這樣就從根本上的解決了數(shù)據(jù)瓶頸。禁錮在算法之上的兩大瓶頸得以接觸,具身智能將會大大加速進化。

世界模型在具身智能的潛在應用范圍極為廣泛。以自動駕駛為例,世界模型可以實時精準地把握道路狀況,并對其變化趨勢進行精確預測,重點聚焦于對環(huán)境的瞬時感知以及復雜變化趨勢的預估判斷。

在人形機器人領域,世界模型對于導航、物體識別檢測以及任務規(guī)劃等關鍵任務起著不可或缺的作用,可以精準地解析外部動態(tài)環(huán)境,并構建具有交互性和實體體驗感的環(huán)境場景。而在虛擬社會系統(tǒng)模擬方面,世界模型可以敏銳地捕捉并預測更為抽象的行為動態(tài),諸如社會交往互動以及人類決策制定等過程。


極佳科技:打造新一代4D世界模型


由于地緣政治影響,國內(nèi)率先布局世界模型和空間智能方向的先鋒企業(yè),可對標李飛飛World Labs,進行國產(chǎn)替代的的極佳科技引發(fā)廣大關注度。該公司聚焦于視頻生成與 4D 世界模型在空間智能領域的探索與拓展,并已在商業(yè)層面均收獲顯著成果,收獲了知名度與口碑。

極佳基于空間智能技術,打造了新一代4D世界模型產(chǎn)品。具體來說,4D世界模型能夠?qū)⒌唾|(zhì)量的數(shù)據(jù)(圖片、單目視頻……),基于約束條件(文本prompt、圖片、結構化信息),可控的生成高質(zhì)量“可交互的4D場景”?;凇翱山换サ?D場景”,既可以經(jīng)過簡單變換、泛化,轉(zhuǎn)換為海量的高質(zhì)量訓練數(shù)據(jù)(質(zhì)量等價于遙操數(shù)據(jù))。同時,“可交互的4D場景”天然也是高精度的仿真環(huán)境,可以作為強化學習、模仿學習等多種算法訓練/評測所使用。

極佳視界的4D模型產(chǎn)品率先在智能駕駛場景下完成了落地。近日,極佳科技聯(lián)合北京大學、理想汽車及中國科學院自動化研究所聯(lián)合推出了DriveDreamer4D的下一代產(chǎn)品ReconDreamer,實現(xiàn)了自動駕駛場景自由視角重建+生成。正如同李飛飛及其團隊在「空間智能」模型中展現(xiàn)的革新一樣,ReconDreamer 僅需要單視角輸入視頻,即可通過同時重建+生成構建逼真的 4D 世界,第一次實現(xiàn)了平移 6 米范圍的高精度渲染,推動這一領域從靜態(tài)跨越至動態(tài),從單點擴展到全域通用。


憑借4D世界模型技術領先優(yōu)勢,極佳科技與地平線、億咖通等十余家頭部主機廠企業(yè)締結商業(yè)合作。極佳科技在國內(nèi)是唯一一家以世界模型產(chǎn)品完成商業(yè)化落地的公司。在近期現(xiàn)代汽車集團創(chuàng)新計劃頒獎典禮上,極佳視界憑借 4D 世界模型與視頻生成領域的創(chuàng)新成果,榮膺“燈塔”創(chuàng)新開放計劃“創(chuàng)新企業(yè)獎”。


具身智能:有望在世界模型的賦能下蓬勃發(fā)展


自動駕駛是「具身智能」重要落地場景之一。具身智能機器人「大腦」在一定程度上和自動駕駛相似,在開放場景和路徑規(guī)劃上具有一定的遷移性。同時,具身智能機器人和自動駕駛的技術在算法層面也是相通的。

鑒于自動駕駛和具身智能在大腦構造、開放場景與路徑規(guī)劃以及算法層面的高度相似性與關聯(lián)性,在自動駕駛領域成功構建并驗證世界模型且獲頭部廠商認可的極佳科技,無疑在具身智能這片廣袤藍海中擁有發(fā)展的無限潛力與廣闊前景,有望成為推動具身智能行業(yè)蓬勃發(fā)展的重要引擎與加速器。

基于在智駕場景下的技術沉淀,在具身智能領域,極佳科技更進一步,在“呈現(xiàn)重建”的能力之上,引入了可微物理引擎核函數(shù),并將可微渲染能力、可微物理能力融入到統(tǒng)一生成模型中,創(chuàng)建更接近真實世界的虛擬訓練環(huán)境。具體結構如下:

具體而言,大致分成3步:

1.基于“重建+生成”的循環(huán)迭代過程,完成“4D場景呈現(xiàn)”工作。

2.在“4D場景呈現(xiàn)”基礎上,查詢/渲染得到初始材質(zhì)場。將物理特性與呈現(xiàn)進行關聯(lián)對齊。之后,基于真實數(shù)據(jù)fine-tune,確定整個場景中精確的材質(zhì)場參數(shù)。

3.統(tǒng)一生成模型內(nèi)嵌了物理引擎核函數(shù),其中對于場景中的物體為雙表征。生成模型基于物理引擎核函數(shù)進行未來Gaussian的參數(shù)變化預測,經(jīng)過視頻生成模塊,最終完成進行多物體融合呈現(xiàn)。

可微渲染與可微物理的融合,構成了真正意義的learn-based仿真器。這也是創(chuàng)造性的,基于生成模型進行可解釋的、符合物理規(guī)律的空間推理。

展望未來,極佳科技致力于將視頻生成提升到 4D 世界模型,賦予 AI 大模型對于 4D 空間的理解、生成、常識和推理的能力,實現(xiàn) 4D 空間中的交互和行動。極佳科技的4D世界模型會繼續(xù)朝更加通用泛化、更加高效的方向持續(xù)進化。一方面適應具身智能更多樣化、更復雜的業(yè)務場景,另一方面加速推進世界模型提升到端側進一步與具身智能本體進行融合。極佳科技的4D世界模型有望成為弱人工智能向通用人工智能演進的關鍵基礎,扮演著至關重要的角色。


文 / 財中網(wǎng)  李曉秋


免責聲明:本網(wǎng)轉(zhuǎn)載合作媒體、機構或其他網(wǎng)站的公開信息,并不意味著贊同其觀點或證實其內(nèi)容的真實性,信息僅供參考,不作為交易和服務的根據(jù)。轉(zhuǎn)載文章版權歸原作者所有,如有侵權或其它問題請及時告之,本網(wǎng)將及時修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

熱門推薦

2023年中國經(jīng)濟面臨巨大挑戰(zhàn),只有知道如何破局,才能縱橫股市

來源:財中網(wǎng) 作者:李曉秋06/14 21:14

財中網(wǎng)合作