OpenAI發布三款實時語音模型：GPT-Realtime-2推理強，翻譯轉錄也高效-汽車-智快網

OpenAI發布三款實時語音模型：GPT-Realtime-2推理強，翻譯轉錄也高效

發布時間：2026-05-09 06:01 來源：快訊作者：顧雨柔

OpenAI 近日推出三款面向實時語音場景的專用模型，通過Realtime API向全球開發者開放調用。這三款模型分別聚焦語音推理、多語言翻譯和低延遲轉錄三大核心需求，旨在破解傳統語音交互中存在的延遲響應、打斷處理困難及跨語言支持不足等痛點，為智能語音助手、實時會議系統等應用提供底層技術支撐。

作為此次發布的旗艦產品，GPT-Realtime-2首次將GPT-5級別的推理能力引入語音交互領域。該模型在保持對話自然流暢的同時，支持實時推理決策、工具調用及用戶打斷處理。例如當用戶中途修正指令時，模型能立即調整響應策略，而非機械執行初始命令。這種能力使得開發者可構建具備復雜任務處理能力的語音助手，如自動訂票系統中同時處理日期修改、座位升級等多步驟操作。

在定價體系方面，GPT-Realtime-2采用Token計費模式：音頻輸入每百萬Token收費32美元（約合人民幣218.1元），輸出收費64美元（約合人民幣436.2元），緩存輸入費用則低至0.4美元。這種差異化定價策略既考慮了計算資源消耗差異，也為高頻使用者提供了成本優化空間。

針對跨國溝通場景，GPT-Realtime-Translate支持70種語言輸入與13種語言輸出的實時互譯。該模型通過動態調整翻譯節奏，確保輸出文本與說話者語速同步，特別適用于國際會議、遠程醫療等需要即時理解的場景。測試數據顯示，其翻譯延遲控制在200毫秒以內，達到人類對話的自然節奏標準。

另一款專業模型GPT-Realtime-Whisper專注于流式轉錄服務，通過優化音頻處理算法實現"邊說邊轉"的零延遲體驗。在會議記錄、實時字幕等場景中，該模型可將轉錄等待時間減少70%，同時保持95%以上的準確率。其按分鐘計費模式（翻譯每分鐘0.034美元，轉錄每分鐘0.017美元）也降低了中小企業的使用門檻。

技術專家指出，這三款模型的發布標志著語音交互進入"實時智能"新階段。通過將大語言模型的推理能力與語音處理技術深度融合，OpenAI正在重新定義人機語音交互的標準，為教育、醫療、客服等行業的數字化轉型提供關鍵基礎設施。

更多>同類內容

OpenAI發布三款實時語音模型：GPT-Realtime-2推理強，翻譯轉錄也高效

OpenAI發布三款實時語音模型：GPT-Realtime-2推理強，翻譯轉錄也高效