日韩人妻av一区二区-精品国产综合区久久久久久蜜臀-色女激情五月激情五月-99热国产这里只有的精品

高考出分!大模型“考生”,有望沖擊“清北”!
來源:證券時報網作者:周春媚2025-06-26 14:27

6月26日,2025年全國高考志愿填報全面開啟。在多個省份高考分數線揭曉之際,大模型“考生”的成績單也吸引了許多關注。

6月25日晚間,字節(jié)跳動Seed團隊公布了豆包大模型1.6-Thinking版本的“高考成績”:文科總分683分,理科總分648分。這一成績以2025年山東高考試題作為測評基準,其中語數外使用新課標全國新一卷,政史地/物化生則采用山東省自主命題。

最新公布的山東高考分數線顯示,特殊類型招生控制線為521分,普通類一段線為441分。山東省內多位有著多年高三帶班經驗的資深教師判斷,根據山東省公布的2025年夏季高考文化成績一分一段表,豆包大模型1.6-Thinking的科目組合的賦分成績最高能超過690分,排名在前80位左右,穩(wěn)上985,并達到了沖擊“清北”的水平。

值得注意的是,本次測試還引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等國內外多款主流模型作為對比對象。成績顯示,4款大模型文理科成績均大幅超過了普通類一段線,顯示大模型已超越眾多普通考生,達到人類優(yōu)秀考生的水平。

“學霸”誕生:大模型“考生”成績亮眼

據了解,目前全國大部分地區(qū)高考均采用賦分制,山東高考為“3+3”形式,語數英3門主科采用原始分(各150分),考生自選的3門副科(政史地/物化生,各100分)采用賦分制,滿分為750分。其中,選擇題、填空題等封閉題采用機判,開放題則由兩位重點高中、有聯(lián)考判卷經驗的高中老師進行匿名評估,并且后續(xù)引入了多輪質檢。

值得注意的是,在評測所采用的山東卷中,圖像類問題分數為378分,占比高達36%,非??简灤竽P偷亩嗄B(tài)理解和推理能力。豆包大模型基于較為出色的多模態(tài)能力,在評測中占據優(yōu)勢。在同臺競技的4款主流大模型中,由于DeepSeek R1不具備多模態(tài)能力,無法正常解答圖像問題,但通過文本信息的推理也能獲得一部分圖像題分數。

評測結果顯示,文科成績方面,豆包1.6-Thinking總分達683,排名第一,谷歌Gemini 2.5 Pro以651分居于第二;理科成績方面,谷歌Gemini 2.5 Pro以655分奪得第一,豆包則以7分之差排名第二。各個模型在語、數、外等基礎學科的表現(xiàn)基本都比較好,達到了優(yōu)秀考生的水平,而且區(qū)分度已經不大。不過,OpenAI的o3出現(xiàn)了作文跑題的失誤,導致語文單科得分較低,給整體成績拖了后腿。

據山東省內多位有著多年高三帶班經驗的資深教師判斷,3門自選科目的賦分相比原始分會有一定程度的提高,尤其是在化學、物理等難度較大的科目上,預估豆包大模型1.6-Thinking的科目組合的賦分成績最高能超過690分,排名在前80位左右,穩(wěn)上985,并達到了沖擊“清北”的水平。

技術突破:豆包1.6系列模型持續(xù)進化

在大模型“考生”高考出分的同時,記者注意到字節(jié)跳動Seed團隊也公布了Seed1.6 系列模型的詳細技術介紹。支撐高考優(yōu)異成績的,正是豆包大模型1.6系列的重大技術革新。

在6月11日舉行的火山引擎Force原動力大會上,火山引擎正式發(fā)布了豆包1.6系列模型。 作為Seed 團隊推出的最新通用模型系列,豆包1.6系列模型融合了多模態(tài)能力,支持自適應的深度思考、多模態(tài)理解、圖形界面操作,且支持 256K 長上下文的深度推理。

據Seed團隊介紹,Seed1.6沿用Seed1.5在稀疏MoE(混合專家模型)上的探索結果,使用23B激活、230B總參數進行預訓練。據會上披露的多項權威測評成績,在復雜推理、競賽級數學、多輪對話和指令遵循等測試集上,豆包1.6—Thinking的表現(xiàn)已躋身全球前列。

具體來看,在預訓練階段,Seed1.6通過純文本預訓練、多模態(tài)混合持續(xù)訓練、長上下文持續(xù)訓練階段,對模型架構、訓練算法等進行持續(xù)改進,性能在參數量不增加的情況下取得明顯提升。在后訓練階段,Seed1.6-Thinking強化了多模態(tài)融合的思考能力,并提出了“動態(tài)思考能力”,在性能和效果上實現(xiàn)更好的動態(tài)平衡。

群“?!敝鹇梗焊呖汲蔀椤癆I競技場”

如今,高考已經成為了AI大廠們的重要“競技場”,形成了一場激烈的 “大模型高考競賽”。

對于大模型廠商為何熱衷于做高考評測,業(yè)內人士分析指出,高考是大模型非常好的測試場景:一方面,題目全面,文科到理科,從文本到圖像理解,基礎知識都有覆蓋;另一方面,題目也比較新,能夠反映模型的泛化能力。此外,高考作為國內最具權威性和影響力的人才選拔考試,也具備較高的社會關注度和話題討論度。

近年來,隨著大模型技術的不斷迭代,大模型“考生”在高考中取得的成績也有了大幅提升。在去年的媒體評測中,豆包大模型文理科總分分別只有542.5分和466.5分,而今年則“進步神速”,文理科總分分別提高了140.5分和181.5分。此外,其他的幾款主流大模型也取得了優(yōu)異的成績。

不過,大模型也并非只能當“做題家”,在實際應用中,AI大模型的技術優(yōu)勢正在轉化為產業(yè)價值。艾媒咨詢發(fā)布的《2024-2025年中國AI大模型市場現(xiàn)狀及發(fā)展趨勢研究報告》數據顯示,2024年中國AI大模型市場規(guī)模約為294.16億元,預計2026年將突破700億元,中國AI大模型行業(yè)正處于爆發(fā)式發(fā)展階段。

艾媒咨詢分析師認為,AI大模型已初步具有算力高效利用能力、真實世界感知能力、自主學習能力以及創(chuàng)作能力等。中國大部分的國產AI大模型可在文本、圖像等方面賦能,并廣泛滲透到娛樂、電商、工作以及垂直領域等各類應用之中,為中國傳統(tǒng)行業(yè)進行數字化賦能。

以豆包為例,據了解,目前豆包大模型已在汽車、智能終端、互聯(lián)網、金融、教育科研、零售消費等行業(yè)廣泛落地,覆蓋4億終端設備,如小米、OPPO、vivo、榮耀、聯(lián)想、三星等品牌;八成主流車企,如奔馳、寶馬、奧迪等;70%系統(tǒng)重要性銀行和數十家證券基金公司,如招商銀行、華泰證券等。

校對:楊舒欣

責任編輯: 冉超
聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機會。
網友評論
登錄后可以發(fā)言
發(fā)送
網友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換