智快網 - 新科技與新能源行業網絡媒體

GPT-5.5凌晨發布:編碼科研能力飆升,Anthropic連夜應對競爭壓力

   發布時間:2026-04-25 07:23 作者:沈如風

OpenAI今日宣布推出新一代智能體編程模型GPT-5.5,這款模型被團隊譽為"迄今為止最智能、最直觀易用的系統",標志著人工智能在計算機輔助工作領域邁出關鍵一步。據官方介紹,該模型在代碼編寫、多工具協同、數據分析等復雜任務中展現出顯著優勢,尤其在需要持續推理和自主行動的場景中表現突出。

在編程能力方面,GPT-5.5全面超越Gemini 3.1 Pro,在專業任務處理、計算機視覺應用、工具調用及抽象推理等領域的測試成績均領先于Claude Opus 4.7和Gemini 3.1 Pro。第三方評估機構Artificial Analysis的智能指數顯示,該模型在10項核心評估中綜合排名第一,其中在復雜執行測試Terminal-Bench 2.0中取得82.7%的成績,真實世界問題解決測試SWE-Bench Pro中達到58.6%的準確率。

實際應用案例印證了模型的強大能力。開源項目Claude Engineer創始人Pietro Schirano展示,GPT-5.5在20分鐘內自動完成代碼版本對比、分支創建和沖突合并,還通過USB連接為Flipper Zero硬件設備開發了可運行的應用程序。更令人驚嘆的是,該模型僅用單次提示就生成了操作流暢的3D射擊游戲,所有圖形均通過Three.js從零構建。

AI工程師Peter Gostev的測試表明,模型可穩定執行7小時以上的自主任務流程。在創建倫敦鐵路模擬系統時,GPT-5.5生成的作品在構思規模和邏輯連貫性上較前代有顯著提升,錯誤率降低40%。波蘭數學教授Bartosz Naskr?cki則利用單條提示詞,在11分鐘內構建出可可視化二次曲面交線的代數幾何應用,并擴展了奇點可視化功能。

效率提升是該模型的另一大亮點。在完成相同Codex任務時,GPT-5.5的token使用量較前代減少30%,而輸出質量保持穩定。這種優化使模型在保持響應速度的同時,顯著降低了使用成本。定價策略顯示,標準版輸入token價格為每百萬5美元,輸出為30美元;Pro版則分別達30美元和180美元,雖較前代翻倍,但與Claude Opus 4.7持平。

知識工作場景中,模型展現出強大的上下文理解能力。在未經調優的客服測試中,GPT-5.5取得98%的準確率,能自主完成信息檢索、工具調用和結果驗證的全流程。財務團隊使用該模型處理2.4萬份稅務表格時,通過自動化流程節省了兩周工作時間。模型還支持跨文檔分析,可協助研究人員審閱論文草稿、進行技術論證壓力測試。

科學研究領域同樣取得突破。在遺傳學基準測試GeneBench中,模型展現出處理歧義數據和實現現代統計方法的能力。生物信息學評估BixBench顯示,其性能領先于所有已公布分數的模型。更值得關注的是,研究人員利用該模型發現了拉姆齊數的新證明路徑,展示了AI在數學研究中的潛在價值。

安全防護機制經過全面升級。OpenAI與內外紅隊合作,針對高級網絡安全和生物技術能力進行專項測試,收集了近200個可信合作伙伴的實戰反饋。模型在發布前通過了全套安全評估框架,確保在增強能力的同時保持可控性。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群