智快網 - 新科技與新能源行業網絡媒體

OpenAI發布三款實時語音模型:GPT-Realtime-2推理強,翻譯轉錄也高效

   發布時間:2026-05-09 06:01 作者:顧雨柔

OpenAI 近日推出三款面向實時語音場景的專用模型,通過Realtime API向全球開發者開放調用。這三款模型分別聚焦語音推理、多語言翻譯和低延遲轉錄三大核心需求,旨在破解傳統語音交互中存在的延遲響應、打斷處理困難及跨語言支持不足等痛點,為智能語音助手、實時會議系統等應用提供底層技術支撐。

作為此次發布的旗艦產品,GPT-Realtime-2首次將GPT-5級別的推理能力引入語音交互領域。該模型在保持對話自然流暢的同時,支持實時推理決策、工具調用及用戶打斷處理。例如當用戶中途修正指令時,模型能立即調整響應策略,而非機械執行初始命令。這種能力使得開發者可構建具備復雜任務處理能力的語音助手,如自動訂票系統中同時處理日期修改、座位升級等多步驟操作。

在定價體系方面,GPT-Realtime-2采用Token計費模式:音頻輸入每百萬Token收費32美元(約合人民幣218.1元),輸出收費64美元(約合人民幣436.2元),緩存輸入費用則低至0.4美元。這種差異化定價策略既考慮了計算資源消耗差異,也為高頻使用者提供了成本優化空間。

針對跨國溝通場景,GPT-Realtime-Translate支持70種語言輸入與13種語言輸出的實時互譯。該模型通過動態調整翻譯節奏,確保輸出文本與說話者語速同步,特別適用于國際會議、遠程醫療等需要即時理解的場景。測試數據顯示,其翻譯延遲控制在200毫秒以內,達到人類對話的自然節奏標準。

另一款專業模型GPT-Realtime-Whisper專注于流式轉錄服務,通過優化音頻處理算法實現"邊說邊轉"的零延遲體驗。在會議記錄、實時字幕等場景中,該模型可將轉錄等待時間減少70%,同時保持95%以上的準確率。其按分鐘計費模式(翻譯每分鐘0.034美元,轉錄每分鐘0.017美元)也降低了中小企業的使用門檻。

技術專家指出,這三款模型的發布標志著語音交互進入"實時智能"新階段。通過將大語言模型的推理能力與語音處理技術深度融合,OpenAI正在重新定義人機語音交互的標準,為教育、醫療、客服等行業的數字化轉型提供關鍵基礎設施。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群