平凡的激情屁股交换小说,日韩在线观看一区二区三区四区 ,亚洲av伊人久久综合蜜臀性色

機(jī)器人斷網(wǎng)也能干活！谷歌推出離線VLA模型，這些國內(nèi)公司有布局→

來源：證券時報網(wǎng)作者：周春媚2025-06-28 20:19

VLA模型，已經(jīng)成為具身智能當(dāng)前最熱的技術(shù)趨勢。

近日，谷歌推出了自身最強(qiáng)大的VLA（Vision-Language-Action，視覺-語言-動作）模型Gemini Robotics On-Device。據(jù)介紹，這款機(jī)器人端側(cè)模型運(yùn)行時無需依賴數(shù)據(jù)網(wǎng)絡(luò)，可以完全在機(jī)器人設(shè)備本地離線運(yùn)行，并在多種測試場景中實(shí)現(xiàn)了強(qiáng)大的視覺、語義和行為泛化能力，能理解自然語言指令，并完成拉開拉鏈、折疊衣物等高靈巧度任務(wù)。

具身智能領(lǐng)域的關(guān)鍵新范式，VLA讓機(jī)器人擁有了將語言意圖、視覺感知與物理動作編織成連續(xù)決策流的能力。記者梳理發(fā)現(xiàn)，今年以來，不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型，銀河通用、智元機(jī)器人、自變量機(jī)器人等國內(nèi)機(jī)器人公司也已在這一領(lǐng)域有所布局。

“機(jī)器人版安卓”，50次演示即可學(xué)會新動作

今年3月，谷歌DeepMind團(tuán)隊(duì)首次推出了新一代專為機(jī)器人設(shè)計(jì)的AI模型Gemini Robotics，被視為“機(jī)器人版的安卓”。

這一模型基于Gemini 2.0打造，如同機(jī)器人的“大腦”，能夠讓機(jī)器人理解復(fù)雜環(huán)境、執(zhí)行精細(xì)任務(wù)。在谷歌DeepMind展示的演示視頻中，Gemini Robotics借助一臺雙臂機(jī)器人，能夠流暢地折紙、拉拉鏈、把皮帶安裝到齒輪上。

而最新推出的Gemini Robotics On-Device，則是專為在機(jī)器人設(shè)備本地運(yùn)行而優(yōu)化的模型。業(yè)內(nèi)人士分析稱，具身智能的發(fā)展一直以來受限于對云計(jì)算資源的高度依賴，這使得機(jī)器人在網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)的環(huán)境中難以獨(dú)立作業(yè)。同時，模型體積龐大，在機(jī)器人有限的計(jì)算資源上也難以高效運(yùn)行。

Gemini Robotics On-Device的發(fā)布，標(biāo)志著具身智能從依賴云端算力向本地自主運(yùn)行的重大轉(zhuǎn)變，為機(jī)器人產(chǎn)業(yè)的落地應(yīng)用開辟了新的路徑，為機(jī)器人在更多場景中的應(yīng)用提供可能。比如，機(jī)器人在無網(wǎng)絡(luò)的工廠精準(zhǔn)裝配零件、在災(zāi)區(qū)廢墟中自主救援，這些應(yīng)用場景都離不開機(jī)器人端側(cè)模型的部署。

據(jù)介紹，Gemini Robotics On-Device具備三大特點(diǎn)：一是專為靈巧操作的快速實(shí)驗(yàn)而設(shè)計(jì)；二能通過微調(diào)來適應(yīng)新任務(wù)進(jìn)一步提高性能；三是經(jīng)過優(yōu)化，可在本地運(yùn)行并實(shí)現(xiàn)超低延遲推理。

此外，谷歌還推出Gemini Robotics SDK，幫助開發(fā)者評估Gemini Robotics在設(shè)備上的性能，包括在MuJoCo物理模擬器中進(jìn)行測試。開發(fā)者只需50—100個演示即可完成模型評估，讓機(jī)器人快速學(xué)習(xí)新技能。

VLA成“必爭之地”，這些國內(nèi)機(jī)器人公司也布局了

如果過去十年，機(jī)器人領(lǐng)域的焦點(diǎn)先后經(jīng)歷了“看得見”的視覺感知、“聽得懂”的語言理解，那么在VLA模型出現(xiàn)之后，機(jī)器人開始走向“動得準(zhǔn)”的第三階段。

當(dāng)下，VLA模型已逐漸成為具身智能行業(yè)的共識，被視為連接感知、語言與行為的通用架構(gòu)。今年6月，在2025北京智源大會上，Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman表示，VLA是通往通用智能的重要基石，能夠讓機(jī)器人從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學(xué)習(xí)并轉(zhuǎn)化為具體行動。

記者梳理發(fā)現(xiàn)，今年以來，不僅谷歌、微軟、Figure AI等海外公司相繼發(fā)布了自己的VLA模型，銀河通用、智元機(jī)器人、自變量機(jī)器人等國內(nèi)機(jī)器人公司也已在這一領(lǐng)域有所布局。

今年6月1日，銀河通用正式推出自主研發(fā)的產(chǎn)品級端到端導(dǎo)航大模型TrackVLA。這是一款具備純視覺環(huán)境感知、語言指令驅(qū)動、可自主推理、具備零樣本泛化能力的具身大模型。而在一周后的2025北京智源大會上，銀河通用又發(fā)布了全球首個面向零售場景的端到端VLA大模型GroceryVLA。

根據(jù)現(xiàn)場展示，在現(xiàn)場搭建的1比1還原真實(shí)商超場景中，當(dāng)銀河通用創(chuàng)始人兼CTO王鶴向搭載了GroceryVLA的機(jī)器人Galbot發(fā)出“我又熱又餓，幫我拿點(diǎn)吃的”這一指令后，Galbot能夠自主精確地移動到準(zhǔn)確位置，在貨架中為顧客選擇餅干和飲料等食物，然后有序地拿取并送到顧客手中，全程無遙控操作，并且無事先采集場景數(shù)據(jù)。

今年3月，智元機(jī)器人發(fā)布了首個通用具身基座模型智元啟元大模型（Genie Operator-1，簡稱GO-1），該模型采用了Vision-Language-Latent-Action (ViLLA) 架構(gòu)，由VLM（視覺語言模型）和MoE（混合專家）組成，實(shí)現(xiàn)了可以利用人類視頻學(xué)習(xí)，完成小樣本快速泛化。目前，GO-1大模型已成功部署到智元多款機(jī)器人本體之中。

此外，智元機(jī)器人還聯(lián)合香港大學(xué)推出UniVLA系統(tǒng)。據(jù)介紹，UniVLA是一個具備跨機(jī)器人本體、場景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng)。它通過構(gòu)建以任務(wù)為中心的隱式動作空間，利用語言描述與視頻示范進(jìn)行策略學(xué)習(xí)，實(shí)現(xiàn)從“看視頻”、“聽指令”到“動手操作”的通用控制。

而作為國內(nèi)唯一一家從創(chuàng)業(yè)第一天就選擇了端到端統(tǒng)一大模型技術(shù)路線的公司，自變量機(jī)器人研發(fā)的WALL-A則是世界上最大規(guī)模的端到端統(tǒng)一具身大模型。這一模型突破了傳統(tǒng)分層架構(gòu)的噪聲傳遞問題，支持從原始傳感器信號到機(jī)器人動作的縱向統(tǒng)一和橫向任務(wù)統(tǒng)一，跨任務(wù)泛化能力出色。

今年5月，自變量機(jī)器人宣布完成數(shù)億元A輪融資，由美團(tuán)戰(zhàn)投領(lǐng)投、美團(tuán)龍珠跟投。公司表示，本輪融資將用于持續(xù)加速全自研端到端通用具身智能大模型與機(jī)器人本體的同步迭代，以及未來多個應(yīng)用場景的智慧化方案合作和落地。成立起不到一年半時間內(nèi)，自變量機(jī)器人已完成7輪融資，累計(jì)融資金額超10億元。據(jù)投資人介紹，公司所堅(jiān)持的“大小腦統(tǒng)一的端到端大模型”路線，正是多家投資機(jī)構(gòu)青睞自變量機(jī)器人的核心原因。

校對：廖勝超

責(zé)任編輯：高蕊琦

VLA模型

Gemini Robotics On-Device

具身智能

聲明：證券時報力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險自擔(dān)

下載“證券時報”官方APP，或關(guān)注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財(cái)富機(jī)會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個人看法，并不表明證券時報立場