狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務平臺

24小時家電維修熱線:

400—1558638

當前位置:主頁 > 熱水器 > 維修資訊 >

打破美國AI公司霸榜,上交AI數學開源模型阿貝爾排行榜首

發布日期:2023-09-21 20:01:36 瀏覽:
打破美國AI公司霸榜,上交AI數學開源模型阿貝爾排行榜首

機器之心報道

機器之心編輯部

以 ChatGPT 為代表的大模型產品引領了一場新的產業革命,激發了國內外各機構積極投入相關技術研究的熱情。在過去幾個月的技術競爭中,國產大模型在文本理解和知識理解任務方面表現出色,堪稱一位優秀的 “文科生”。

然而,在復雜數學推理計算、物理建模、科學發現等 “理科” 領域,大模型的研究尚未達到令人滿意的水平,與美國頂尖科技公司(OpenAI、Google、Anthropic)相比,仍存在很大差距。例如,在數學推理方面的權威評測集 GSM8K 和 MATH 上,美國 AI 公司一直占據前幾名,突顯了其領先地位。

在這樣的背景下,上海交大生成式人工智能研究組 (GAIR) 積極攻克難關,研發并開源了數學計算大模型 “阿貝爾(Abel)”,在多個榜單上取得開源第一!是首個海內外高校團隊推出的 SOTA 數學開源大模型。

  • 項目主頁:https://GAIR-NLP.github.io/abel
  • 開源模型:https://github.com/GAIR-NLP/abel

“在還未回國前,我和 Meta 非常優秀的科學家合作了一篇叫做 LIMA 的工作,在那篇工作里我們僅使用 1000 個樣本就可以訓練模型使其在達到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務場景上都得到了驗證,比如數學推理。這也成為當時的遺憾,使得我對如何讓大模型學好數學充滿了興趣。”上海交大生成式人工智能研究組負責人同時也是阿貝爾項目的負責人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數學家 尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數和分析方面的開創性工作而創建的,代數也是現在模型相對擅長解決的,不過,我們還有很長的路要走。”

模型表現

表 1: 代表專有模型,而 表示開源模型, 表示模型開發由學術大學主導(而不是由公司主導);這里僅考慮不使用任何工具(例如 Python)的模型;GAIRMath-Abel 為該團隊提出的模型

在阿貝爾(GAIRMath-Abel)這個項目里,作者展示了,盡管

  • 沒有使用工具
  • 沒有使用數學領域的大規模預訓練數據
  • 沒有使用獎勵模型
  • 沒有使用基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)
  • 僅使用有監督精調(Supervised Fine-tuning,SFT)

阿貝爾在 GSM8k(83.62)和 MATH(28.26)權威評測集上實現了開源數學模型(不使用外部工具)的最好成績,具體說來:

  • 在 GSM8K 上的性能達到了 83.62,超過了許多國外大廠優秀的模型,如 PaLM-1、Minerva(Google)、Claude-instant(Anthropic)以及 ChatGPT(OpenAI),僅落后于 Google 的最新模型 PaLM-2-Flan1 個百分點;同時也顯著高于所有開源國產模型
  • 在具有高難度的數學競賽問題上,阿貝爾準確率達到了 28.26%(相比于 GPT4 的 42.5%),它在其他開源模型中保持了顯著領先地位,超過了之前最佳的開源模型 5 個多百分點
  • 7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優勢取得了開源模型性能的最佳
  • 阿貝爾在排行榜前十名中占據了 3 個位置,并且是唯一一家由大學領導的項目(其他都是明星創業公司或大型科技公司)
  • 使用作者的方法,不僅在 GSM8K 和 MATH 上取得了出色的成績,而且在提供新數據集(TALSCQ-EN)時,迅速達到了最好性能(SOTA),并且輕松超越了商業模型 MathGPT 和 GPT4。

除了優秀的性能本身,該項目也揭示了:

  • 有監督精調的能力被嚴重低估,研究人員應該以應有的敬畏和謹慎來對待這個過程。
  • 出色的數學問題解決能力可以通過有監督精調實現的很好,這將在未來對這個方向的探索中引發更多富有想象力的可能性

訓練方法

為了訓練阿貝爾,該團隊提出Parental Oversight (家長監督),一種監督微調的保姆策略(Babysitting Strategy)。

Parental Oversight 的核心理念在于,在對大模型進行微調的過程中應該懷著一種敬畏和謹慎的態度,就如同家長在對孩子進行教育時,必須要用最淺顯易懂并謹慎的方式進行教導,在穩健成長的同時避免揠苗助長。各種不同的數據和數據的呈現方式 代表的是不同的教育方式,而研究者必須謹慎小心的選擇最好的方式教導大模型。

事實上,在 GAI 的背景下,數據結構工程 (Data Structure Engineering) 已經成為一種新的范式。有效的處理數據的方向對大模型在不同下游任務上的成功與否有著極為關鍵性的影響。從 Parental Oversight 理念出發,在復雜推理任務上取得好的結果,最關鍵的是要精心策劃訓練數據,而不是不加選擇地使用任何樣本進行監督學習。

通過最精確謹慎的監督,協助大模型在復雜推理的下游任務上成長。在有監督精調的訓練樣本中,不僅應包含正確的答案,還應告訴模型如何從預訓練模型的知識中獲得正確答案。此外,如果語言模型的知識不足以獲得真實答案,監護監督應該幫助模型迅速填補知識上的空白。

局限性 & 規劃

盡管阿貝爾數學模型在評估的幾個數據集上表現優異,但是開發者也總結了它的不足之處:

  • 過擬合:盡管進行了魯棒性分析,并考慮到數學生成型 AI 天生具有脆弱性(通常需要高級解碼策略,如多數投票),但過于依賴構建 SFT 樣本以提高性能可能會不可避免地導致模型出現過擬合現象。(然而,過擬合并不是當前項目的主要關注點,因為即使對過擬合各種增強訓練數據,對于復雜的數學推理任務,如 MATH 數據集,仍然很難實現有利的測試結果。)盡管如此,團隊仍然需要進行更廣泛的健壯性分析,并積極探索可以將模型轉化為數學通才的訓練方法,并進行更全面的跨領域泛化分析。
  • 泛化性:一個好的數學模型不應僅限于解決 GSM8K 和 MATH 數據集上的問題;它應該能夠處理各種類型的問題,包括評估不同知識領域并需要不同類型的回答的問題(例如,多項選擇、真假、證明、算術等)。當前模型的能力不足以泛化到這些多樣的場景。
  • 通用性:最終,作者預計大型模型賦予的數學推理能力可以整合到各個領域的聊天機器人中,如醫學、法律、物理學、化學等。實現 AGI 的關鍵在于將強大的數學模型的力量融入其他模型中,而這在當前項目中尚未探索。
  • 多語言性:當前模型的訓練數據和基本模型限制了它在除英語以外的語言中提供回應的能力。
  • 高級技術:當前模型主要關注有監督精調(SFT),尚未探索獎勵模型、RLHF(從人類反饋中進行強化學習)和工具調用等高級技術。

開發者表示已經列出了一系列問題,并用 Github 維護這些限制和潛在解決方案。歡迎大家提出建設性意見和見解。

下一步計劃

最后,作者也簡單用一張圖透露了實驗室的下一步計劃:從 “阿貝爾” 到 “伯努利”。

主站蜘蛛池模板: 亚洲日本高清一区二区三区| 北条麻妃一区二区在线观看| 中文字幕一区二区久久人妻| 亚洲激情在线一区| 变态拳头交视频一区二区| 乱人伦人妻精品一区二区| 午夜理理伦电影a片无码| 中文字幕有码人妻一区二区三区| 国产稚嫩高中生呻吟激情在线视频| 性欧美大战久久久久久久久| a国产一区二区天堂| 亚洲精品久久区二区三区蜜桃臀| 欧美老肥妇多毛xxxxx| 午夜久久亚洲一区| 久久棈精品久久久久久噜噜| 国产亚洲欧美日韩在线三区| 激情国产一区二区三区四区| 亚洲国产成人极品综合| 日韩毛片无码永久免费看| 成人无码嫩草影院| 国产成人尤物在线视频| 亚洲精品av中文字幕在线| 中文字字幕国产精品| 亚洲国产精品一区二区久久hs | 欧美日韩大片一区二区| 在线成人一区二区| 中文字幕久久久一区二区三区 | 99在线精品国自产拍| 亚洲精品国产精品国自产| 中文字幕丝袜一区| 少妇内射高潮福利炮| 国产日韩欧美亚欧在线| 人妻熟妇乱又伦精品视频中文字幕| 亚洲视频第一区二区| 国产超碰人人做人人爱ⅴa| 老司机久久精品最新免费| 中文字幕欧美人妻精品一区| 狠狠久久亚洲欧美专区 | 视频一区二区中文字幕日韩 | 无码人妻一区二区三区兔费| 国产真实一区二区三区在线|