20B跨級挑戰70B性能!國產開源大模型打造大模型新標桿
機器之心發布
機器之心編輯部
9 月 20 日,上海人工智能實驗室(上海 AI 實驗室)與商湯科技聯合香港中文大學和復旦大學正式推出書生?浦語大模型(InternLM)200 億參數版本 InternLM-20B,并在阿里云魔搭社區(ModelScope)開源首發。同時,書生?浦語面向大模型研發與應用的全鏈條工具鏈全線升級,與 InternLM-20B 一同繼續全面開放,向企業和開者提供免費商用授權。
浪潮之上,大模型的應用價值日趨受到關注。正如歷史上的任何一項新技術,其生命力終究要回歸到是否可以廣泛落地,為世界帶來積極且真實的變化。在此背景下,上海 AI 實驗室聯合多家機構推出了中量級參數的
- 代碼庫鏈接:https://github.com/InternLM/InternLM
- 魔搭社區鏈接:https://modelscope.cn/organization/Shanghai_AI_Laboratory
自今年 6 月首次發布以來,書生?浦語已經歷多輪升級,在開源社區和產業界產生了廣泛影響。
書生?浦語 “增強版”:增的不只是量
相比于國內社區之前陸續開源的 7B 和 13B 規格的模型,20B 量級模型具備更為強大的綜合能力,在復雜推理和反思能力上尤為突出,因此可為實際應用帶來更有力的性能支持;同時,20B 量級模型可在單卡上進行推理,經過低比特量化后,可運行在單塊消費級 GPU 上,因而在實際應用中更為便捷。
InternLM-20B 是基于 2.3T token 預訓練語料從頭訓練的中量級語言大模型。相較于 InternLM-7B,訓練語料經過了更高水平的多層次清洗,補充了高知識密度和用于強化理解及推理能力的訓練數據。因此,在考驗語言模型技術水平的理解能力、推理能力、數學能力、編程能力等方面,InternLM-20B 都有顯著提升。
相比于此前的開源模型,InternLM-20B 的能力優勢主要體現在:
優異的綜合性能。InternLM-20B 具備優異的綜合性能,不僅全面領先相近量級的開源模型(包括 Llama-33B、Llama2-13B 以及國內主流的 7B、13B 開源模型),并且以不足三分之一的參數量,測評成績達到了 Llama2-70B 的水平。
強大的工具調用能力。InternLM-20B 拓展了模型的能力邊界,實現了大模型與現實場景的有效連接。InternLM-20B 支持數十類插件,上萬個 API 功能,在 ToolBench 評測集上獲得了最佳結果,在與 ChatGPT 的競賽中,勝率達到 63.5%。InternLM-20B 還具備代碼解釋和反思修正能力,為智能體(Agent)的構建提供了良好的技術基礎。
更長的語境。通過多階段訓練拓展,InternLM-20B 支持 16K 語境長度,從而更有效地支撐長文理解、長文生成和超長對話。
更安全的價值對齊。相比于之前版本,InternLM-20B 在價值對齊上更加安全可靠。在研發訓練的過程中,研究團隊通過基于 SFT(監督微調)和 RLHF(基于人類反饋的強化學習方式)兩階段價值對齊,以及專家紅隊的對抗訓練,大幅提高其安全性。當用戶帶著偏見提問時,模型能夠給出正面引導。
全線升級的開源工具、數據體系。書生?浦語開源工具鏈全線升級,形成了更為完善的工具體系,其中包括預訓練框架 InternLM-Train、低成本微調框架 XTuner、部署推理框架 LMDeploy、評測框架 OpenCompass 以及面向場景應用的智能體框架 Lagent。書生?浦語工具鏈將和開源數據平臺 OpenDataLab 構成強大的開源工具及數據體系,共同為學術界和產業界提供全鏈條的研發與應用支持。
全面升級的全鏈條工具體系
架構增強:深結構、長語境
過去一段時間,國內機構陸續開源了多個參數量為 7B 和 13B 規格的模型,在評測中也取得了不俗的成績。但研究人員發現,這些模型在適配下游任務,尤其是對準確性和推理能力要求較高的任務時,還存在局限。為了更好地支持這些任務,業界呼喚一個中量級的開源模型,提供更強的理解、推理以及長文生成能力。
在相對有限的參數規模下,研究人員在架構設計時面臨重要的取舍 —— 提高模型的深度還是寬度?通過廣泛的對照實驗,書生?浦語團隊發現,更深的模型層數更有利于復雜推理能力的培養。因此在架構設計時,研究人員把模型層數設定為 60 層,超過 7B 與 13B 模型通常采用的 32 層或者 40 層設計;同時內部維度保持在 5120,處于適中水平。通過架構設計上的新取舍,InternLM-20B 在較高計算效率的條件下實現了復雜推理能力的顯著提升。
InternLM-20B 還支持更長的語境長度。在訓練過程中,模型的語境長度分階段從 2K 拓展到 8K。在推理側,基于 Dynamic NTK 技術,把模型推理可支持的語境長度進一步延展到 16K。長語境為模型的能力拓展,包括工具調用、代碼解釋以及反思修正等提供了更大的空間,成為支撐在 InternLM-20B 之上打造智能體(Agent)的關鍵技術基礎。
綜合性能增強:多個評測中領先
基于 OpenCompass 大模型評測平臺,研究人員在涵蓋語言、知識、理解、推理和學科能力等五大維度的 50 個主流評測集上,對 InternLM-20B 及相近量級的開源模型進行了全面測試比較。評測結果顯示,InternLM-20B 在全維度上領先于開源 13B 量級模型,平均成績不僅明顯超越 Llama-33B,甚至優于被稱為開源模型的標桿 Llama2-70B。
基于 OpenCompass 的 InternLM-20B 及相近量級開源模型測評結果
下表顯示了 13B 及更高參數量的主流開源模型在各個維度上的平均成績(紅色字體為 13B-33B 量級范圍內各能力維度最高評分)。InternLM-20B 在語言、知識學科綜合評測上都超越 Llama2-70B,在推理能力評測上和 Llama2-70B 持平,而知識方面則仍有一定差距。但在上述所有維度上,InternLM-20B 都顯著領先主流的 13B 量級開源模型。
下表在一些有重要影響力的典型數據集上比較了主流開源模型的表現(紅色字體為 13B-33B 參數量級范圍內各項測評最佳成績):
評測結果顯示,InternLM-20B 在 MMLU、C-Eval、AGIEval 綜合性學科評測中成績優異,在同量級開源模型中處于領先位置。MMLU 被普遍認為是評價一個語言模型綜合能力的關鍵指標,InternLM-20B 在 MMLU 上取得 62.05 的成績,接近 Llama-65B 的水平;而在包含中文學科考試的 C-Eval 和 AGIEval 上,InternLM-20B 的表現也明顯超過了 Llama2-70B。
知識問答評測如 BoolQ、TriviaQA、NaturalQuestions 等,主要評價模型對于事實性知識的掌握能力,在此維度上,InternLM-20B 的表現超越 13B 模型,與 Llama-33B 各有千秋,但相比于 Llama-65B 或者 Llama2-70B 仍有一定差距。
CMRC、CSL、RACE 分別為面向百科知識、科技文獻以及學生閱讀理解的評測集,而 XSum 則是挑戰性的文獻摘要評測 —— 上述評測均為考察大模型理解能力。在理解能力維度,InternLM-20B 表現突出,全面超越包括 Llama2-70B 在內的各個量級的開源模型。
推理,尤其是復雜推理,是語言模型目前面臨的常見難題,也是模型能否支撐實際應用的關鍵能力。上表中所列 WinoGrande、GSM-8K、PIQA、BigBench-Hard(BBH)分別考察模型在常識推理、數學推理、物理相關推理以及有挑戰性的綜合推理方面的能力。InternLM-20B 均獲得明顯超越主流的 13B 開源模型的成績,在 WinoGrande、GSM8K 和 PIQA 評測上已非常接近 Llama-65B 此類重量級模型的推理能力水平。
InternLM-20B 的編程能力也有顯著提升。在 HumanEval 和 MBPP 兩個典型評測集上,全面超越了主流 13B 開源模型、Llama-33B 和 Llama-65B,接近 Llama2-70B 的水平。
在 HuggingFace 最新公布的 Open LLM Leaderboard 評測榜單上,InternLM-20B 在參數量 60B 以下基模型中平均成績領先,也超過了 Llama-65B。
總體而言,InternLM-20B 在綜合能力上全面領先于 13B 量級的開源模型,在評價推理和編程能力的多個評測集上接近甚至超越 Llama-65B,在中文相關的評測上普遍超越 Llama2-70B。
調用工具能力增強:不會也能學
工具調用是拓展大語言模型能力邊界的重要手段,也是 OpenAI 近期推出大模型的重點特性之一。InternLM-20B 對話模型支持了日期、天氣、旅行、體育等數十個方向的內容輸出及上萬個不同的 API。
在清華大學等機構聯合發布的大模型工具調用評測集 ToolBench 中,InternLM-20B 和 ChatGPT 相比,達到了 63.5% 的勝率,在該榜單上取得了最優結果,表現出強大的工具調用能力。
InternLM-20B 模型還展現出一定的零樣本泛化能力,對于模型在訓練過程中并沒有學習過一些工具,InternLM-20B 也能根據工具描述和用戶提問來調用工具完成任務。例如給模型提供一些 AI 工具,模型可以自己進行規劃和推理,完成用戶的問題。
InternLM-20B 可自主調用工具完成任務
價值觀增強:更安全的開源模型
更貼合人類價值觀的大語言模型,才有可能更好地充當 “人類助手” 的角色。InternLM-20B 在迭代過程中加入了大量符合人類價值觀的數據,研究團隊組織相關領域專家對模型進行了多輪紅隊攻擊,大幅提升其安全性。
當用戶向 InternLM-20B 提出帶有偏見的問題時,它能夠識別出不安全因素,并在回答中給出正確的價值引導。
對話能力增強:語境長度達到 16K
InternLM-20B 在訓練階段的語境長度分階段拓展到了 8K,同時通過 Dynamic NTK 等手段將推理時的語境長度拓展到了 16K。基于 16K 的語境長度,InternLM-20B 可以有效支持長文理解、長文生成和超長對話。
下面一個例子展示了 InternLM-20B 的長文理解能力:讓大模型閱讀某知名咖啡品牌的最新新聞,模型能夠準確回答提出的三個問題。
InternLM-20B 還具備為長篇論文和報告進行準確摘要提取的能力。研究人員向模型輸入經典論文 ResNet 的 Introduction 章節,它能較好地寫出摘要,準確概括了 ResNet 的核心思想和實驗效果。
全鏈條工具體系再鞏固,全面升級
今年 7 月,上海 AI 實驗室與商湯科技聯合高校在正式發布書生?浦語的同時,在業內率先開源了覆蓋數據、預訓練、微調、部署和評測的全鏈條工具體系。歷經數月升級,書生?浦語全鏈條開源工具體系鞏固升級,并向全社會提供免費商用。
數據 - OpenDataLab 開源 “書生?萬卷” 預訓練語料
書生?萬卷是上海 AI 實驗室開源的多模態語料庫,包含文本數據集、圖文數據集、視頻數據集三部分,數據總量超過 2TB。目前,書生?萬卷 1.0 已被應用于書生?多模態、書生?浦語的訓練。通過對高質量語料的 “消化”,書生系列模型在語義理解、知識問答、視覺理解、視覺問答等各類生成式任務表現出優異性能。
預訓練 - InternLM 高效預訓練框架:除大模型外,InternLM 代碼庫開源了預訓練框架 InternLM-Train。深度整合 Transformer 模型算子提升了訓練效率,并提出了獨特的 Hybrid Zero 技術,實現了計算和通信的高效重疊,大幅降低訓練過程中的跨節點通信流量。得益于極致的性能優化,實現了千卡并行計算的高效率,訓練性能達行業領先水平。
微調 - InternLM 全參數微調、XTuner 輕量級微調:InternLM 支持對模型進行全參數微調,支持豐富的下游應用。同時,低成本大模型微調工具箱 XTuner 也在近期開源,支持多種大模型及 LoRA、QLoRA 等微調算法,通過 XTuner,最低僅需 8GB 顯存即可對 7B 模型進行低成本微調,20B 模型的微調,在 24G 顯存的消費級顯卡上就能完成。
部署 - LMDeploy 支持十億到千億級參數語言模型的高效推理:LMDeploy 涵蓋了大模型的全套輕量化、推理部署和服務解決方案,支持了從十億到千億級參數的高效模型推理,在吞吐量等性能上超過 FasterTransformer、vLLM 和 Deepspeed 等社區主流開源項目。
評測 - OpenCompass 一站式、全方位大模型評測平臺:OpenCompass 是上海 AI 實驗室開源的大模型評測平臺,構建了包含學科、語言、知識、理解、推理五大維度的評測體系,支持超過 50 個評測數據集和 30 萬道評測題目,支持零樣本、小樣本及思維鏈評測,是目前最全面的開源評測平臺。自 7 月發布以來,受到學術界和產業界廣泛關注,目前已為阿里巴巴、騰訊、清華大學等數十所企業及科研機構廣泛應用于大模型研發。
應用 - Lagent 輕量靈活的智能體框架:書生?浦語團隊同時開源了智能體框架,支持用戶快速將一個大語言模型轉變為多種類型的智能體,并提供典型工具為大語言模型賦能。Lagent 開源框架支持 InternLM、Llama 及 ChatGPT 等大語言模型,并集合了 ReAct、AutoGPT 及 ReWoo 等多種類型的智能體能力。在 Lagent 的加持下,這些智能體可調用大語言模型進行規劃推理和工具調用,并可在執行中及時進行反思和自我修正。
基于書生?浦語大模型,上海 AI 實驗室已發展出更豐富的下游應用,將于近期陸續向學術界及產業界分享。
面向大模型掀起的新一輪創新浪潮,上海 AI 實驗室致力于以原始創新引領技術進步,持續打造綜合能力更強大的基礎模型,構建更完整易用的全鏈條工具體系,并堅持通過開源開放、免費商用,全面賦能整個 AI 社區生態的繁榮發展,幫助企業和研究機構降低大模型的開發和應用門檻,讓大模型的價值在各行各業中綻放。
全鏈條工具體系開源鏈接:
- “書生?萬卷” 預訓練語料:https://github.com/opendatalab/WanJuan1.0
- InternLM 預訓練框架:https://github.com/InternLM/InternLM
- XTuner 微調工具箱:https://github.com/InternLM/xtuner
- LMDeploy 推理工具鏈:https://github.com/InternLM/lmdeploy
- OpenCompas 大模型評測平臺:https://github.com/open-compass/opencompass
- Lagent 智能體框架:https://github.com/InternLM/lagent
- 等離子電視y板故障(如何自行修復)08-27
- 1海爾空氣能故障代碼大全處理方法(如何快速排查空調故障)
- 2怎么知道燃氣表電池沒電了(三種簡單判斷方法)
- 3格力故障代E5(格力故障代E5:解析最常見故障及排查方法)
- 4格力空氣能常見故障(格力空氣能常見故障解決方案)
- 5樂堡保險柜開鎖(樂堡保險柜解鎖指南)
- 6富強勝防盜門售后-400全國免費咨詢熱線(“領先防盜門品牌-400全國熱線,為您提
- 7內開內倒窗戶常見故障維修(如何自行修復窗戶卡頓、玻璃破損等問題)
- 8立方保險柜廠家電話(立方保險柜廠家電話:方便快捷安全的通信方式)
- 9上海方太燃氣灶24小時客服熱線(如何快速聯系并解決問題)
- 10能率燃氣灶售后全國維修電話號碼查詢(全國能率燃氣灶售后維修電話號碼查詢
-
Daikin空調售后中心(如何有效地聯系Daikin空調售后中心以解決常見問題和獲取支
2024-08-26
-
格力空調故障顯示大全(全面解析格力空調故障顯示:一站式解決方案指南)
2024-08-25
-
美樂柯空調廠家售后服務電話24小時(如何聯系美樂柯空調廠家24小時售后服務電
2024-08-25
-
施耐德優力空調24小時人工服務熱線(如何聯系施耐德優力空調24小時人工服務熱
2024-08-25
-
惠康空調售后服務電話(如何獲取惠康空調售后服務電話并解決常見問題?這個
2024-08-25