感謝本站網(wǎng)友 風(fēng)見暉一、軟媒用戶1392612、求其、華南吳彥祖 的線索投遞!
Gemini 2.5 Pro,剛剛深夜上線了!這個「思考」模型專為復(fù)雜任務(wù)打造,推理能力強大,一經(jīng)誕生就橫掃各大榜單、拿下各類 TOP 1,還創(chuàng)下了歷史上最大分數(shù)飛躍紀錄。
Gemini 2.5 Pro 是一個「思考」模型,能夠在回應(yīng)前先進行思考推理,從而提升性能,并改善準確性。
谷歌稱,它是世界上最強大的模型,具備統(tǒng)一的推理能力,以及用戶所喜愛的 Gemini 的所有功能(長上下文、工具等)。
它在多個基準測試中達到了 SOTA 水平,并且以顯著的優(yōu)勢在 LMArena 上排名第一。
現(xiàn)在,Gemini 2.5 Pro 已經(jīng)登頂了 Arena 排行榜的第一位,而且創(chuàng)下了歷史最大分數(shù)飛躍,比 Grok-3 / GPT-4.5 整整高出了 40 分!
在代號「nebula」的測試中,它也橫掃所有類別奪得第一,并且獨攬數(shù)學(xué)、創(chuàng)意寫作、指令遵循、長查詢和多輪對話五大領(lǐng)域的冠軍!
在困難提示詞和編程兩大領(lǐng)域,它與 Grok-3 / GPT-4.5 拿到了并列冠軍,而且在所有其他比拼中都以微弱優(yōu)勢勝出,成功問鼎榜首!
此外,Gemini 2.5 Pro 還成功登頂了視覺競技場(Vision Arena)排行榜榜首!
在網(wǎng)頁開發(fā)領(lǐng)域,它也同樣大放異彩,成功斬獲網(wǎng)頁開發(fā)競技場(WebDev Arena)亞軍寶座!
它是首個實力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的 Gemini 更是實現(xiàn)了質(zhì)的飛躍。
這一次,谷歌的模型又展現(xiàn)出巨大的飛躍,OpenAI、Anthropic、DeepSeek 等競爭對手,在多久時間內(nèi)會趕上?
目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應(yīng)用中,向 Gemini Advanced 用戶開放,并將很快在 Vertex AI 上推出。
而它的定價方案,會在未來幾周內(nèi)公布,用戶可以在更高使用配額下,將模型應(yīng)用于大規(guī)模生產(chǎn)環(huán)境。
網(wǎng)友實測后發(fā)現(xiàn),它果然實力驚人,在所有模型中效果拔群,第一次嘗試就只用幾秒解決了一道難題。
Gemini 2.5 Pro 上線
谷歌表示,在 AI 領(lǐng)域,系統(tǒng)的「推理」能力不僅僅指分類和預(yù)測,而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細微差別,以及做出明智決策的能力。
長期以來,谷歌一直在探索通過強化學(xué)習(xí)和思維鏈提示詞等技術(shù),讓 AI 更智能、更具推理能力的方法。
正是在此基礎(chǔ)上,他們在 2 月推出了第一個思考模型,Gemini 2.0 Flash Thinking。
而今天,通過 Gemini 2.5,他們結(jié)合了顯著增強的基礎(chǔ)模型和改進的后期訓(xùn)練,讓模型達到了新的性能水平。
推理和代碼能力大幅提升
Gemini 2.5 Pro 展現(xiàn)出了強大的推理和代碼能力,在常見的編程、數(shù)學(xué)和科學(xué)基準測試中均處于領(lǐng)先地位。
另外,在各類需要高級推理能力的基準測試中,它都達到了 SOTA 水平。
無需使用測試階段會增加計算成本的技術(shù)(如多數(shù)投票法),2.5 Pro 就能在 GPQA 和 AIME 2025 等數(shù)學(xué)和科學(xué)基準評測中表現(xiàn)卓越。
而且,在不使用任何外部工具的條件下,它就在挑戰(zhàn)人類知識和推理能力的極限前沿「人類最后的考試」中取得了 18.8% 的準確率,達到業(yè)界領(lǐng)先。
在編程能力上,Gemini 2.5 相比 2.0 版本也實現(xiàn)了質(zhì)的飛躍,而這,僅僅是個開始。
2.5 Pro 在創(chuàng)建視覺精美的網(wǎng)頁應(yīng)用和 AI 智能體代碼應(yīng)用方面都表現(xiàn)卓越,在代碼轉(zhuǎn)換和編輯領(lǐng)域中,也同樣實力出色。
在智能體代碼評估的行業(yè)標準測試 SWE-Bench Verified 上,Gemini 2.5 Pro 靠使用自定義智能體配置,就獲得了 63.8% 的優(yōu)異成績。
以下這波 demo,就展示了 Gemini 2.5 Pro 如何運用強大推理,僅通過一行提示詞,就能生成可執(zhí)行代碼,來創(chuàng)建完整的動畫和游戲。
在下面這個 demo 中,僅僅根據(jù)下面這行 prompt,它就生成了一段 p5js 的交互式動畫,展示了「宇宙魚」的場景,并且還顯示了魚們都在想什么。
它還根據(jù)以下 prompt,生成了一個無限的恐龍跑酷游戲。
按照要求,它生成了像素化的恐龍圖像和有趣的游戲背景。
隨后,Gemini 2.5 Pro 還通過編程實現(xiàn)了分形可視化。
它創(chuàng)建出了精細分形圖案的模擬程序,展現(xiàn)出了神奇的曼德布洛特集合。
此外,它還能構(gòu)建一個交互式氣泡圖,直觀展示出了每個大陸的經(jīng)濟與健康指標隨時間的變化。
或者用一段交互式的 Javascript 動畫,展示了旋轉(zhuǎn)六邊形內(nèi)多彩的人工生命群體,并且按要求做成了「超新星星云」的感覺。
另外,它還能開發(fā)粒子系統(tǒng)模擬,給出了一個 HTML 文件,創(chuàng)造出了反射星云的沉浸式交互模擬場景。
原生多模態(tài)和超長上下文
Gemini 2.5 繼承并發(fā)揚了 Gemini 模型的優(yōu)勢 —— 原生多模態(tài)能力和超長上下文長度。
自己發(fā)布之初,2.5 Pro 就支持 100 萬 token 的上下文窗口(而 200 萬 token 也即將推出?。阅茱@著超越了前代模型。
這能讓它理解海量數(shù)據(jù)集,并處理來自多種信息源的復(fù)雜問題,包括文本、音頻、圖像、視頻,甚至完整的代碼倉庫。
最后,既然谷歌已經(jīng)掏出了地表最強模型,接下來,就讓我們坐等 OpenAI 的反應(yīng)了。
參考資料:
//blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/gemini-2-5-thinking
//deepmind.google/technologies/gemini/pro/
//x.com/lmarena_ai/status/1904581128746656099
Copyright 2025 //www.ahlmtdl.com/ 版權(quán)所有 豫ICP備2021037741號-1 網(wǎng)站地圖