智快網 - 新科技與新能源行業網絡媒體

OpenAI發布三款實時語音模型:GPT-Realtime-2領銜,推理翻譯轉錄全升級

   發布時間:2026-05-08 21:31 作者:鐘景軒

OpenAI 近日正式推出三款針對實時語音場景優化的全新模型,通過 Realtime API 向全球開發者開放調用。這三款模型分別聚焦推理交互、多語言翻譯和低延遲轉錄三大核心需求,旨在破解傳統語音技術中存在的延遲響應、打斷處理困難及多語言支持不足等痛點,為智能語音助手、實時會議系統等應用提供底層技術支撐。

作為本次發布的旗艦產品,GPT-Realtime-2 首次將 GPT-5 級別的推理能力引入語音交互領域。該模型在保持對話自然度的同時,支持實時工具調用和復雜邏輯推理,能夠動態處理用戶打斷、修正等突發情況。例如在導航場景中,用戶可隨時更改目的地或調整路線偏好,系統將同步重新規劃路徑并語音反饋。開發者可基于此構建支持多步驟任務執行的智能助手,顯著提升語音交互的復雜度與實用性。

在多語言支持方面,GPT-Realtime-Translate 實現了 70 種輸入語言與 13 種輸出語言的實時互譯,翻譯延遲控制在人類對話節奏范圍內。該模型特別優化了跨國會議場景,支持發言者切換時自動識別語種并同步輸出譯文,確保參會者獲得無感知的翻譯體驗。測試數據顯示,其翻譯準確率在專業術語密集的科技會議場景中達到 92% 以上。

針對實時字幕和會議記錄需求,GPT-Realtime-Whisper 通過流式轉錄技術將音頻處理延遲壓縮至毫秒級。該模型支持邊說邊轉的連續工作模式,轉錄文本可實時顯示在終端設備,特別適用于直播字幕、遠程醫療問診等對時效性要求極高的場景。實測表明,在標準網絡環境下,其轉錄延遲較前代產品降低 67%,錯誤率下降 41%。

商業化層面,OpenAI 采用差異化定價策略:GPT-Realtime-2 按 Token 計費,輸入費用為每百萬 Token 32 美元(約合人民幣 218.1 元),輸出費用 64 美元(約合人民幣 436.2 元),緩存輸入僅需 0.4 美元;翻譯與轉錄模型則按使用時長計費,前者每分鐘 0.034 美元,后者每分鐘 0.017 美元。這種靈活的定價體系為不同規模的開發團隊提供了成本可控的技術接入方案。

 
 
更多>同類內容
全站最新
熱門內容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數碼群