91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡媒體

卡帕西“大模型議會”新玩法:四大AI匿名互評,誰是最強引熱議

   發(fā)布時間:2025-11-25 21:17 作者:蘇婉清

編程界又迎來一項創(chuàng)新成果——知名技術專家卡帕西推出了一款名為“大模型議會”(LLM Council)的Web應用。這款應用雖然外觀與常見的聊天機器人界面相似,但背后卻藏著獨特的運行機制:當用戶提出問題后,系統(tǒng)會借助OpenRouter同時喚醒多個大模型,讓它們共同參與問題解答。

這款應用的流程設計頗具巧思,主要分為三個步驟。第一步是“群策群力”,系統(tǒng)會同時調(diào)用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多個大模型,讓它們針對同一問題各自生成回答,并將這些回答以標簽視圖的形式呈現(xiàn)給用戶,方便對比查看。第二步是“匿名互評”,所有模型的回答會被匿名處理后分發(fā)給彼此,每個模型需要根據(jù)回答的準確性和洞察力進行評分,并附上詳細的評價理由,避免因模型身份產(chǎn)生偏見。第三步是“主席匯總”,系統(tǒng)會指定一個主席模型,將所有模型的回答和評分進行整合,最終生成一個綜合答案反饋給用戶。

在實際測試中,卡帕西發(fā)現(xiàn)了一些有趣的現(xiàn)象。例如,當多個模型共同評價彼此的回答時,GPT-5.1的答案被一致認為最具洞見,Claude的回答則被認為最弱,Gemini 3和Grok-4的表現(xiàn)處于中間水平。不過,卡帕西個人并不完全認同這一結果:他認為GPT-5.1的回答雖然內(nèi)容豐富,但結構不夠緊湊;Gemini 3的答案更簡潔凝練,信息處理更到位;而Claude的回答雖然簡略,但也有其獨特之處。更令人意外的是,模型們在互評時很少表現(xiàn)出明顯偏見,甚至會主動承認自己的答案不如其他模型。

這一項目在GitHub上公開后,迅速吸引了大量關注,目前已獲得1.8k顆星。有網(wǎng)友認為,這種模型互評的模式或許能成為一種新的“自動基準測試”,為評估大模型性能提供全新思路;暢銷書《Python機器學習》的作者也對該思路表示看好。卡帕西表示,雖然模型自評的結果可能與人類主觀感受存在差異,但這種多模型協(xié)作的方式無疑為大模型的應用開辟了新的可能性,未來或許會成為LLM產(chǎn)品的重要發(fā)展方向。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群