數學能力超過ChatGPT!上海交大計算大模型登開源榜首
克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
國產數學大模型,能力已經超過了ChatGPT!
最新榜單中,上海交大GAIR實驗室出品的Abel專有大模型:
準確率高達83.6%,在開源模型中位列第一。
據團隊介紹,該模型是用挪威數學家尼爾斯·阿貝爾(Niels Abel)的名字命名的,以此向阿貝爾在代數和分析方面的開創性工作致敬。
在GSM8k數據集上,70B參數量的Abel碾壓所有開源模型,還超過了ChatGPT。
甚至在新數據集TALSCQ-EN上,Abel的表現比GPT-4還要強。
而實現這樣效果的Abel,成分可以說是十分“單純”:
- 沒有使用工具
- 沒有使用數學領域的大規模預訓練數據
- 沒有使用獎勵模型
- 沒有使用RLHF
- 僅使用有監督精調(Supervised Fine-tuning,SFT)
那么Abel的效果究竟怎么樣呢?
成績超越開源模型SOTA這里我們選擇同樣是開源的Llama-2來和Abel對比。
首先來看下這個雞兔同籠問題的變體:
Brown由牛和雞一共60只,雞的數量是牛的兩倍,一共有多少條腿?
這道題Llama-2出師不利,而且不是計算錯誤,是邏輯上就有問題:
Abel則成功地解決了這個問題。
再來看下一個問題:
12,21,6,11和30的中位數與平均數的和是多少?
兩個模型都正確理解了所涉及的概念,但Llama還是在計算和排序上出了錯。
而Abel依舊是正確地做出了這道題:
再從測試數據上看看Abel的表現。
首先是OpenAI提出的GSM8k數據集(大概是美國高中難度),這份榜單的前十名,Abel占了三個(不同參數規模)。
開源模型當中,70B規模的Abel打敗了曾經的SOTA——WizardMath。
如果把商業閉源模型算進來,Abel也僅次于GPT-4、Claude-2和PaLM-2-Flan這些最著名的模型。
甚至ChatGPT也不是Abel的對手。
△地球代表開源模型,鎖代表閉源模型
在難度更高的MATH(競賽題目)數據集中,開源模型的前三名被三個規模的Abel包攬,加上閉源也僅次于Google和OpenAI的產品。
研究團隊還使用了新數據集TALSCQ-EN對Abel進行測試,結果超過了GPT-4。
那么,研究團隊是怎么調教出這樣一款高性能模型的呢?
“保姆級”微調訓練策略核心奧義就是高質量的訓練數據。
Abel使用數據是經過精心策劃的,不僅包含問題的答案,還要能告訴模型找到正確答案是的方法。
為此,研究團隊提出了一種叫做家長監督(Parental Oversight)的“保姆級”微調訓練策略。
在家長監督的原則之下,團隊僅通過SFT方式就完成了Abel的訓練。
為了評價Abel的魯棒性,研究團隊還用GPT4對GSM8k中的數字進行了修改,測試Abel是否依然能解出正確的答案。
結果顯示,在調整版GSM8k數據集下,70B參數的Abel魯棒性超過了同等規模的WizardMath。
在Abel的介紹的最后,研究團隊還留下了一個彩蛋:
Abel的下一代,將進化成為Bernoulli(伯努利)
不過團隊并沒有對其中的含義進行說明,我們不妨期待一番。
團隊簡介Abel由上海交通大學GAIR(生成式人工智能研究組)團隊打造。
該團隊還曾推出過大模型高考Benchmark、AIGC事實核查工具Factool等成果。
該小組負責人、清源研究院劉鵬飛副教授同時也是Abel項目的負責人。
對這個數學模型感興趣的讀者,可以到GitHub頁面詳細了解。
GitHub頁面:https://github.com/GAIR-NLP/abel
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態
- 提高生活質量的句子(改善生活質量的關鍵)02-15
- 日立故障代碼157-0(如何解決)05-03
- 空調電費(如何降低空調使用的電費成本)。07-25
- 容聲冰箱制冷不停機(該怎么辦?)12-01
-
AIWEIKE空調官方電話(如何獲取AIWEIKE空調官方客服電話以解決常見問題和故障?
2024-08-25
-
西屋康達空調廠家24小時服務熱線(如何聯系西屋康達空調廠家的24小時服務熱線
2024-08-25
-
e3故障風壓開關(解決e3故障風壓開關問題:詳細步驟與技巧)
2024-08-25
-
ISOVEL空調售后維修(如何有效地進行ISOVEL空調的售后維修服務?)
2024-08-25
-
BRIGHT空調服務網點(如何找到并利用BRIGHT空調服務網點進行維修和保養?)
2024-08-25