谷歌發布FACTS Grounding基準,AI大語言模型“幻覺照妖鏡”
IT之家 12 月 18 日消息,谷歌 DeepMind 團隊于 12 月 17 日發布博文,宣布推出 FACTS Grounding 基準測試,評估大型語言模型(LLMs)根據給定材料是否準確作答,并避免“幻覺”(即捏造信息)的能力,從而提升 LLMs 的事實準確性,增強用戶信任度,并拓展其應用范圍。
數據集在數據集方面,ACTS Grounding 數據集包含 1719 個示例,涵蓋金融、科技、零售、醫療和法律等多個領域,每個示例包含一篇文檔、一條要求 LLM 基于文檔的系統指令和隨附的提示詞。
示例文檔長度不一,最長可達 32000 個 token(約 20000 字)。用戶請求涵蓋摘要、問答生成和改寫等任務,但不包含需要創造力、數學或復雜推理的任務。IT之家附上演示圖片如下:
數據集分為 860 個“公共”示例和 859 個“私有”示例,目前已發布公共數據集供評估使用,私有數據集用于排行榜評分,以防止基準污染和排行榜作弊。
在評估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作為評委,評估答案的充分性、事實準確性和文檔支持性。
評估分為兩個階段:首先評估響應是否符合資格,即是否充分回答了用戶請求;然后評估響應的事實準確性,即是否完全基于所提供的文檔,有沒有出現“幻覺”,然后基于該模型在所有示例上的平均得分,最終計算得出。
在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事實準確的文本生成方面取得了最高分。
IT之家附上參考地址
下一篇:沒有了
- 三星怎么保修(三星保修攻略揭秘)01-06
-
谷歌發布FACTS Grounding基準,AI大語言模型“幻覺照妖鏡”
2024-12-18
-
冀能鍋爐售后電話(如何快速獲取冀能鍋爐的售后服務電話?)
2024-12-18
-
徐州華帝燃氣灶售后維修(怎樣選擇靠譜的維修服務商)。
2024-12-18
-
米貝西冰箱售后電話(如何快速找到米貝西冰箱的售后服務電話?)
2024-12-18
-
SUNSHORE太陽能售后維修(如何快速聯系SUNSHORE太陽能的售后維修服務?)
2024-12-18