亚洲国产精品一区二区www,国产成人啪精品视频免费视频

卡帕西“大模型議會”新玩法：四大AI匿名互評，誰是最強引熱議

發(fā)布時間：2025-11-25 21:17 來源：快訊作者：蘇婉清

編程界又迎來一項創(chuàng)新成果——知名技術專家卡帕西推出了一款名為“大模型議會”（LLM Council）的Web應用。這款應用雖然外觀與常見的聊天機器人界面相似，但背后卻藏著獨特的運行機制：當用戶提出問題后，系統(tǒng)會借助OpenRouter同時喚醒多個大模型，讓它們共同參與問題解答。

這款應用的流程設計頗具巧思，主要分為三個步驟。第一步是“群策群力”，系統(tǒng)會同時調(diào)用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多個大模型，讓它們針對同一問題各自生成回答，并將這些回答以標簽視圖的形式呈現(xiàn)給用戶，方便對比查看。第二步是“匿名互評”，所有模型的回答會被匿名處理后分發(fā)給彼此，每個模型需要根據(jù)回答的準確性和洞察力進行評分，并附上詳細的評價理由，避免因模型身份產(chǎn)生偏見。第三步是“主席匯總”，系統(tǒng)會指定一個主席模型，將所有模型的回答和評分進行整合，最終生成一個綜合答案反饋給用戶。

在實際測試中，卡帕西發(fā)現(xiàn)了一些有趣的現(xiàn)象。例如，當多個模型共同評價彼此的回答時，GPT-5.1的答案被一致認為最具洞見，Claude的回答則被認為最弱，Gemini 3和Grok-4的表現(xiàn)處于中間水平。不過，卡帕西個人并不完全認同這一結果：他認為GPT-5.1的回答雖然內(nèi)容豐富，但結構不夠緊湊；Gemini 3的答案更簡潔凝練，信息處理更到位；而Claude的回答雖然簡略，但也有其獨特之處。更令人意外的是，模型們在互評時很少表現(xiàn)出明顯偏見，甚至會主動承認自己的答案不如其他模型。

這一項目在GitHub上公開后，迅速吸引了大量關注，目前已獲得1.8k顆星。有網(wǎng)友認為，這種模型互評的模式或許能成為一種新的“自動基準測試”，為評估大模型性能提供全新思路；暢銷書《Python機器學習》的作者也對該思路表示看好。卡帕西表示，雖然模型自評的結果可能與人類主觀感受存在差異，但這種多模型協(xié)作的方式無疑為大模型的應用開辟了新的可能性，未來或許會成為LLM產(chǎn)品的重要發(fā)展方向。

更多>同類內(nèi)容

91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

卡帕西“大模型議會”新玩法：四大AI匿名互評，誰是最強引熱議