可令A(yù)I自我判斷輸出內(nèi)容正確性,谷歌公布模型訓(xùn)練框架ASPIRE
IT之家 1 月 23 日消息,谷歌日前發(fā)布新聞稿,介紹了一款專為大語言模型設(shè)計的 ASPIRE 訓(xùn)練框架,該框架號稱可以增強(qiáng) AI 模型的選擇性預(yù)測能力。
谷歌提到,當(dāng)下大語言模型在自然語言理解和生成內(nèi)容方面發(fā)展迅速,已被用于構(gòu)建各種創(chuàng)新應(yīng)用,但要應(yīng)用于高風(fēng)險決策類場合依然不妥。這是由于模型預(yù)測具有不確定性及“幻覺”可能,因此谷歌開發(fā)了一款 ASPIRE 訓(xùn)練框架,為系列模型引入了“可信度”機(jī)制,即 —— 模型會輸出一系列答案,每個答案都會具有正確概率評分。
在技術(shù)層面,IT之家注意到該訓(xùn)練框架主要分為三階段,分別為“特定任務(wù)調(diào)整”、“答案采樣”和“自我評估學(xué)習(xí)”。
其中“特定任務(wù)調(diào)整”階段是對已接受過基礎(chǔ)訓(xùn)練的大型語言模型進(jìn)行深入訓(xùn)練,專注于強(qiáng)化模型的預(yù)測能力。研究人員主要為模型引入一系列可調(diào)參數(shù),在特定任務(wù)的訓(xùn)練數(shù)據(jù)集上微調(diào)預(yù)訓(xùn)練語言模型,從而提升模型預(yù)測性能,讓模型能夠更好地解決特定問題。
第二階段為“答案采樣”,經(jīng)過特定微調(diào)后,模型可以利用先前學(xué)習(xí)到的可調(diào)參數(shù),為每個訓(xùn)練問題生成不同的答案,并創(chuàng)建用于自我評估學(xué)習(xí)的數(shù)據(jù)集,生成一系列可信度較高的答案。研究人員同時使用 “集束搜索(Beam Search)”方法及 Rouge-L 算法來評估答案的質(zhì)量,并將生成的答案及評分重新輸入給模型開啟第三階段。
而在第三階段“自我評估學(xué)習(xí)”中,研究人員為模型添加一組可調(diào)參數(shù),專門用于提升模型自我評估能力。該階段的目標(biāo)是讓模型學(xué)會“自己判斷輸出的答案準(zhǔn)確性”,從而讓大語言模型在生成答案時,還會附上答案的正確概率評分。
谷歌研究人員使用 CoQA、TriviaQA 和 SQuAD 三個問答數(shù)據(jù)集來驗證 ASPIRE 訓(xùn)練框架的成果,據(jù)稱“經(jīng)過 ASPIRE 調(diào)整的 OPT-2.7B 小模型,表現(xiàn)遠(yuǎn)超更大的 OPT-30B 模型”。而這項實驗結(jié)果也同時表明,只要經(jīng)過適當(dāng)?shù)恼{(diào)整,即使是小語言模型,在部分場景下也可以超越大語言模型。
研究人員總結(jié)稱,ASPIRE 框架訓(xùn)練能夠顯著提升大語言模型輸出準(zhǔn)確率,即使是較小的模型,也可以在經(jīng)過微調(diào)后進(jìn)行“準(zhǔn)確且有自信”的預(yù)測。
- 1海信42k11p怎么折開(海信42K11P:全方位展示超清畫質(zhì))
- 2創(chuàng)維液晶電視的遙控器怎么調(diào)試(創(chuàng)維電視遙控器調(diào)試指南)
- 3林內(nèi)空氣能售后服務(wù)官網(wǎng)熱線(林內(nèi)空氣能售后服務(wù)官網(wǎng)熱線)
- 4朝友精工保險柜24小時售后電話(朝友精工保險柜24小時售后電話 - 完善24小時保
- 5納斯普金保險柜24小時售后電話(如何快速打開保險柜鎖的方法)
- 6冰箱溫控器接錯線(如何正確接線避免損壞)
- 7空調(diào)f8是什么故障(空調(diào)F8故障解析)
- 8福田松下空調(diào)維修電話(如何快速聯(lián)系客服解決問題)
- 9施樂燈架位置故障如何解決(施樂燈架位置故障的解決策略:一步步排查與修復(fù)
- 10TCL空調(diào)廠家售后電話24小時人工電話(TCL空調(diào)24小時客服熱線:全天候為您的空調(diào)