谷歌市值沖上3萬億美元的同時,旗下的“殺手級”AI應用也超越ChatGPT,成功登頂蘋果應用榜第一名。
最新數(shù)據(jù)顯示,在美區(qū)AppStore中,谷歌旗下大模型應用Gemini的下載量已超過OpenAI的ChatGPT,成為免費榜排名第一的應用。此外,在加拿大、印度、摩洛哥等國家,Gemini同樣實現(xiàn)了登頂,打破了ChatGPT自發(fā)布以來長期的壟斷地位。
這一超越背后,離不開谷歌推出的爆款圖像編輯產(chǎn)品Nano Banana(納米香蕉)。今年8月26日,谷歌DeepMind發(fā)布新一代AI圖像生成與編輯模型Gemini 2.5 Flash Image。這一模型的代號為“Nano Banana”,在圖像質(zhì)量、編輯控制和應用場景上有大幅改進,一推出就受到了用戶的熱烈追捧。9月4日,谷歌實驗室副總裁Josh Woodward透露,自該功能上線以來,已累計完成超2億次圖像編輯,帶動超1000萬新用戶嘗試Gemini應用。
浙商證券研報分析稱,和此前的多模態(tài)模型相比,Nano Banana在以下技術層面有所提升。1)自然語言驅(qū)動圖像編輯:Nano Banana允許用戶通過一句簡單的自然語言指令實現(xiàn)精準編輯,無需傳統(tǒng)圖層或遮罩操作。2)角色一致性與場景融合:模型在連續(xù)編輯中能夠保持人物面貌與特征一致,確保角色在不同場景和動作中保持統(tǒng)一識別度。這一特性在品牌角色創(chuàng)作、情景劇本生成等應用中尤為關鍵。3)多圖融合與世界知識注入:支持將多個圖片在同一畫面中融合,自然過渡;同時,基于Gemini的世界知識,模型能理解復雜場景并執(zhí)行符合現(xiàn)實邏輯的編輯任務。4)降低3D建模門檻:傳統(tǒng)3D建模需專業(yè)技能,而Nano Banana生成的2D設計圖已包含結構、光影、材質(zhì)等關鍵信息,建模師可快速將其轉(zhuǎn)化為3D文件。
記者搜索發(fā)現(xiàn),Nano Banana自上線以來,各大網(wǎng)絡社區(qū)平臺的用戶均分享了許多由其制作的圖片,效果十分驚艷。例如上傳一張圖片,并提示“把我的寵物變成包裝旁邊的塑料玩偶”,即可生成一張高清的3D寵物手辦圖片。
再比如,輸入提示詞“將我手中的物體變成3D透明線條藝術全息圖”,Nano Banana也能準確地理解提示詞的含義。
Nano Banana的火爆出圈,與數(shù)月前GPT-4o推出圖像生成功能并引發(fā)“吉卜力”風格AI圖片創(chuàng)作風潮十分相似。吉卜力風格是指日本吉卜力工作室創(chuàng)作的動畫藝術風格,該工作室由宮崎駿與高畑勛于1985年創(chuàng)立,代表作包括《千與千尋》《龍貓》等。由于過于火爆,OpenAI首席執(zhí)行官山姆·奧特曼當時也火速換上了這一風格的頭像。奧特曼還發(fā)貼稱,ChatGPT一小時就新增了百萬用戶,其活躍用戶、App下載和訂閱收入都在吉卜力效應當周創(chuàng)下了歷史紀錄。
業(yè)內(nèi)人士分析稱,谷歌Nano Banana能夠在全球走紅,源于其在AI生圖領域重構了用戶的體驗范式,實現(xiàn)了從“復雜工具欄”到“一句自然語言”、從“渲染緩慢”到“秒級出圖”、從“效果不穩(wěn)定”到“跨圖一致性”等一系列突破,大幅降低了使用門檻和成本。
值得注意的是,受益于反壟斷裁決結果好于市場預期以及Nano Banana的良好市場表現(xiàn),谷歌股價近期持續(xù)上漲。周一(9月15日)早些時候,花旗集團分析師Ron Josey將谷歌母公司Alphabet目標價從225美元上調(diào)至280美元,理由是“隨著Gemini在廣告與云業(yè)務中的采用加速,正出現(xiàn)更快的產(chǎn)品開發(fā)周期”。
此外,Nano Banana的爆火,無疑再一次點燃了圖像生成視頻賽道的戰(zhàn)火。記者注意到,最近一段時間以來,國內(nèi)大模型廠商也紛紛對標Nano Banana,推出了相應的圖像生成模型。
例如,9月9日,字節(jié)跳動Seed團隊宣布推出豆包圖像創(chuàng)作模型Seedream 4.0。據(jù)介紹,Seedream 4.0可靈活支持文本、圖像的組合輸入,抽取不同圖片元素進行創(chuàng)作,還可一次生成角色連貫、風格統(tǒng)一的組圖,實現(xiàn)表情包、連環(huán)畫等各類創(chuàng)意玩法。同日,AI創(chuàng)業(yè)公司生數(shù)科技正式推出Vidu Q1參考生圖功能,正面對標Nano Banana,支持單次輸入最多7張圖像作為參考,可自由組合人物、背景與道具,生成細節(jié)精準、風格統(tǒng)一的高質(zhì)量圖像。
華泰證券認為,原生多模態(tài)模型架構得到業(yè)界認可,OpenAI和谷歌的原生多模態(tài)模型已經(jīng)在性能、延時、部署上展現(xiàn)出了優(yōu)勢。整體而言,多模態(tài)為主的產(chǎn)品商業(yè)化快于文本產(chǎn)品,從大模型到多模態(tài)已是商業(yè)化的必由之路,多模態(tài)大模型和應用發(fā)展的奇點將至。
就投資層面來看,多模態(tài)有望在算力和應用兩方面帶來相關投資機會。算力側,供給端原生多模態(tài)模型需要比非原生模型更多的算力,需求端視頻的推理算力需求遠大于文字,視頻Agent的落地進一步催生推理算力需求。應用側,供給端國內(nèi)的視頻生成模型領先,需求端廣告、零售、創(chuàng)作、教育等領域均有AI化需求。
校對:祝甜婷