91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

蘋果聯(lián)合特拉維夫大學(xué)推PCG技術(shù):AI語音生成效率質(zhì)量雙提升

   發(fā)布時(shí)間:2026-02-03 16:18 作者:江紫萱

科技領(lǐng)域近日迎來一項(xiàng)重要突破,蘋果公司與特拉維夫大學(xué)聯(lián)合研發(fā)的“原則性粗粒度”(PCG)語音生成技術(shù),為AI文本轉(zhuǎn)語音(TTS)領(lǐng)域帶來了新的解決方案。這項(xiàng)技術(shù)通過優(yōu)化驗(yàn)證機(jī)制,成功突破了傳統(tǒng)模型在生成速度上的瓶頸。

當(dāng)前主流的TTS技術(shù)多采用自回歸模型,其工作原理類似于“逐字拼寫”——系統(tǒng)基于已生成的語音片段預(yù)測下一個(gè)音素。這種模式要求預(yù)測結(jié)果必須與預(yù)設(shè)值完全匹配,導(dǎo)致許多聽覺效果相近但未完全吻合的輸出被系統(tǒng)拒絕。這種嚴(yán)苛的驗(yàn)證標(biāo)準(zhǔn)雖然保證了準(zhǔn)確性,卻顯著降低了整體生成效率。

研究團(tuán)隊(duì)提出的PCG技術(shù)通過引入“聲學(xué)相似組”概念,重構(gòu)了驗(yàn)證邏輯。該技術(shù)不再將每個(gè)語音單元視為獨(dú)立個(gè)體,而是將具有相似聽覺效果的音素歸為同一組別。只要預(yù)測結(jié)果落在正確組別范圍內(nèi),系統(tǒng)即判定為有效輸出。這種“范圍驗(yàn)證”機(jī)制相比傳統(tǒng)的“單點(diǎn)驗(yàn)證”,在保持音質(zhì)的同時(shí)大幅提升了處理速度。

在技術(shù)實(shí)現(xiàn)層面,PCG采用雙模型協(xié)作架構(gòu):輕量級(jí)模型負(fù)責(zé)快速生成候選音素,大型“裁判模型”則負(fù)責(zé)質(zhì)量把控。當(dāng)候選音素屬于正確聲學(xué)組時(shí),系統(tǒng)直接采用該結(jié)果。這種分工模式既保留了小模型的高效特性,又通過大模型確保了輸出質(zhì)量,實(shí)現(xiàn)了效率與準(zhǔn)確性的平衡。

實(shí)驗(yàn)數(shù)據(jù)顯示,應(yīng)用PCG技術(shù)后,語音生成速度提升約40%,而音質(zhì)評(píng)分仍保持在4.09分(滿分5分)的高水平。在極端測試中,研究人員將91.4%的語音單元替換為同組其他音素,結(jié)果僅導(dǎo)致詞錯(cuò)率微增0.007,說話人相似度下降0.027,這些變化幾乎無法被人類聽覺感知。

作為推理階段的優(yōu)化方案,PCG技術(shù)無需重新訓(xùn)練現(xiàn)有模型即可直接部署,僅需約37MB的額外內(nèi)存用于存儲(chǔ)聲學(xué)相似組數(shù)據(jù)。這種輕量化特性使其具備廣泛的適用性,為語音合成技術(shù)的實(shí)際應(yīng)用開辟了新路徑。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群