日韩人妻av一区二区-精品国产综合区久久久久久蜜臀-色女激情五月激情五月-99热国产这里只有的精品

機(jī)器人斷網(wǎng)也能干活!谷歌推出離線VLA模型,這些國內(nèi)公司有布局→
來源:證券時報網(wǎng)作者:周春媚2025-06-28 20:19

VLA模型,已經(jīng)成為具身智能當(dāng)前最熱的技術(shù)趨勢。

近日,谷歌推出了自身最強(qiáng)大的VLA(Vision-Language-Action,視覺-語言-動作)模型Gemini Robotics On-Device。據(jù)介紹,這款機(jī)器人端側(cè)模型運(yùn)行時無需依賴數(shù)據(jù)網(wǎng)絡(luò),可以完全在機(jī)器人設(shè)備本地離線運(yùn)行,并在多種測試場景中實(shí)現(xiàn)了強(qiáng)大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務(wù)。

具身智能領(lǐng)域的關(guān)鍵新范式,VLA讓機(jī)器人擁有了將語言意圖、視覺感知與物理動作編織成連續(xù)決策流的能力。記者梳理發(fā)現(xiàn),今年以來,不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型,銀河通用、智元機(jī)器人、自變量機(jī)器人等國內(nèi)機(jī)器人公司也已在這一領(lǐng)域有所布局。

“機(jī)器人版安卓”,50次演示即可學(xué)會新動作

今年3月,谷歌DeepMind團(tuán)隊(duì)首次推出了新一代專為機(jī)器人設(shè)計(jì)的AI模型Gemini Robotics,被視為“機(jī)器人版的安卓”。

這一模型基于Gemini 2.0打造,如同機(jī)器人的“大腦”,能夠讓機(jī)器人理解復(fù)雜環(huán)境、執(zhí)行精細(xì)任務(wù)。在谷歌DeepMind展示的演示視頻中,Gemini Robotics借助一臺雙臂機(jī)器人,能夠流暢地折紙、拉拉鏈、把皮帶安裝到齒輪上。

而最新推出的Gemini Robotics On-Device,則是專為在機(jī)器人設(shè)備本地運(yùn)行而優(yōu)化的模型。業(yè)內(nèi)人士分析稱,具身智能的發(fā)展一直以來受限于對云計(jì)算資源的高度依賴,這使得機(jī)器人在網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)的環(huán)境中難以獨(dú)立作業(yè)。同時,模型體積龐大,在機(jī)器人有限的計(jì)算資源上也難以高效運(yùn)行。

Gemini Robotics On-Device的發(fā)布,標(biāo)志著具身智能從依賴云端算力向本地自主運(yùn)行的重大轉(zhuǎn)變,為機(jī)器人產(chǎn)業(yè)的落地應(yīng)用開辟了新的路徑,為機(jī)器人在更多場景中的應(yīng)用提供可能。比如,機(jī)器人在無網(wǎng)絡(luò)的工廠精準(zhǔn)裝配零件、在災(zāi)區(qū)廢墟中自主救援,這些應(yīng)用場景都離不開機(jī)器人端側(cè)模型的部署。

據(jù)介紹,Gemini Robotics On-Device具備三大特點(diǎn):一是專為靈巧操作的快速實(shí)驗(yàn)而設(shè)計(jì);二能通過微調(diào)來適應(yīng)新任務(wù)進(jìn)一步提高性能;三是經(jīng)過優(yōu)化,可在本地運(yùn)行并實(shí)現(xiàn)超低延遲推理。

此外,谷歌還推出Gemini Robotics SDK,幫助開發(fā)者評估Gemini Robotics在設(shè)備上的性能,包括在MuJoCo物理模擬器中進(jìn)行測試。開發(fā)者只需50—100個演示即可完成模型評估,讓機(jī)器人快速學(xué)習(xí)新技能。

VLA成“必爭之地”,這些國內(nèi)機(jī)器人公司也布局了

如果過去十年,機(jī)器人領(lǐng)域的焦點(diǎn)先后經(jīng)歷了“看得見”的視覺感知、“聽得懂”的語言理解,那么在VLA模型出現(xiàn)之后,機(jī)器人開始走向“動得準(zhǔn)”的第三階段。

當(dāng)下,VLA模型已逐漸成為具身智能行業(yè)的共識,被視為連接感知、語言與行為的通用架構(gòu)。今年6月,在2025北京智源大會上,Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman表示,VLA是通往通用智能的重要基石,能夠讓機(jī)器人從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學(xué)習(xí)并轉(zhuǎn)化為具體行動。

記者梳理發(fā)現(xiàn),今年以來,不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型,銀河通用、智元機(jī)器人、自變量機(jī)器人等國內(nèi)機(jī)器人公司也已在這一領(lǐng)域有所布局。

今年6月1日,銀河通用正式推出自主研發(fā)的產(chǎn)品級端到端導(dǎo)航大模型TrackVLA。這是一款具備純視覺環(huán)境感知、語言指令驅(qū)動、可自主推理、具備零樣本泛化能力的具身大模型。而在一周后的2025北京智源大會上,銀河通用又發(fā)布了全球首個面向零售場景的端到端VLA大模型GroceryVLA。

根據(jù)現(xiàn)場展示,在現(xiàn)場搭建的1比1還原真實(shí)商超場景中,當(dāng)銀河通用創(chuàng)始人兼CTO王鶴向搭載了GroceryVLA的機(jī)器人Galbot發(fā)出“我又熱又餓,幫我拿點(diǎn)吃的”這一指令后,Galbot能夠自主精確地移動到準(zhǔn)確位置,在貨架中為顧客選擇餅干和飲料等食物,然后有序地拿取并送到顧客手中,全程無遙控操作,并且無事先采集場景數(shù)據(jù)。

今年3月,智元機(jī)器人發(fā)布了首個通用具身基座模型智元啟元大模型(Genie Operator-1,簡稱GO-1),該模型采用了Vision-Language-Latent-Action (ViLLA) 架構(gòu),由VLM(視覺語言模型)和MoE(混合專家)組成,實(shí)現(xiàn)了可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化。目前,GO-1大模型已成功部署到智元多款機(jī)器人本體之中。

此外,智元機(jī)器人還聯(lián)合香港大學(xué)推出UniVLA系統(tǒng)。據(jù)介紹,UniVLA是一個具備跨機(jī)器人本體、場景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng)。它通過構(gòu)建以任務(wù)為中心的隱式動作空間,利用語言描述與視頻示范進(jìn)行策略學(xué)習(xí),實(shí)現(xiàn)從“看視頻”、“聽指令”到“動手操作”的通用控制。

而作為國內(nèi)唯一一家從創(chuàng)業(yè)第一天就選擇了端到端統(tǒng)一大模型技術(shù)路線的公司,自變量機(jī)器人研發(fā)的WALL-A則是世界上最大規(guī)模的端到端統(tǒng)一具身大模型。這一模型突破了傳統(tǒng)分層架構(gòu)的噪聲傳遞問題,支持從原始傳感器信號到機(jī)器人動作的縱向統(tǒng)一和橫向任務(wù)統(tǒng)一,跨任務(wù)泛化能力出色。

今年5月,自變量機(jī)器人宣布完成數(shù)億元A輪融資,由美團(tuán)戰(zhàn)投領(lǐng)投、美團(tuán)龍珠跟投。公司表示,本輪融資將用于持續(xù)加速全自研端到端通用具身智能大模型與機(jī)器人本體的同步迭代,以及未來多個應(yīng)用場景的智慧化方案合作和落地。成立起不到一年半時間內(nèi),自變量機(jī)器人已完成7輪融資,累計(jì)融資金額超10億元。據(jù)投資人介紹,公司所堅(jiān)持的“大小腦統(tǒng)一的端到端大模型”路線,正是多家投資機(jī)構(gòu)青睞自變量機(jī)器人的核心原因。

校對:廖勝超

責(zé)任編輯: 高蕊琦
聲明:證券時報力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險自擔(dān)
下載“證券時報”官方APP,或關(guān)注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財(cái)富機(jī)會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點(diǎn)視頻
    換一換