當前位置：主頁 > 油煙機 > 維修資訊 >

阿里云自研大模型“通義千問”亮相，我們進行了深度實測

發布日期：2023-04-08 10:59:41 瀏覽：

【文/觀察者網周毅編輯/呂棟】

年初以來，AI大模型概念持續引發市場關注，相關上市公司股價持續上揚。在透露正在研發類ChatGPT對話機器人兩個月后，阿里終于亮出了自己的研究成果，這也再度推高了中文大模型的熱度。

4月7日中午，沒有高調召開發布會，而是通過官方微信，阿里云宣布自研大模型“通義千問”正式開始邀請用戶測試體驗。據稱，現階段“通義千問”模型主要定向邀請企業用戶進行體驗測試。

觀察者網也率先拿到了“通義千問”的首批測試資格，并對其進行了深度實測。

在測試中，“通義千問”提到，它是達摩院自主研發的超大規模語言模型，能夠回答問題、創作文字，也能表達觀點、撰寫代碼。

但這也間接說明，“通義千問”并沒有文生圖、圖生文的多模態功能。

當被問及什么時候開始被訓練時，“通義千問”透露，它是在2016年被創造出來的，當時被訓練成能夠回答各種問題和提供幫助的人工智能語言模型。

但它似乎對自己在哪里被訓練的有點說不太清。

在被問及參數量時，“通義千問”表示，其參數量相對較多，由于涉及敏感內容，具體的參數量數值并不能透露，“我可以生成各種類型的文本，如文章、故事、詩歌、故事等，并能夠根據不同的場景和需求進行變換和擴展”。

市場反應方面，今日（4月7日）港股沒有開盤。

不過A股的人工智能概念股，再度火熱。ChatGPT、游戲、文化傳媒方向領漲，據不完全統計，中文在線、神州泰岳20CM漲停，奧飛娛樂、上海電影漲停，方直科技、光云科技大漲超10%。

多角度測試，“通義千問”表現如何？

由于AI大模型擅長回答各種問題，觀察者網也從多個角度對“通義千問”進行了測試。

比如，我們問它是否知道觀察者網。“通義千問”表示，“是的，我知道觀察者網。觀察者網是一家致力于提供新聞和信息的新聞門戶網站，它提供了大量的國內外新聞和深度分析，并致力于推動社會進步和改變。”

但“通義千問”好像并不能憑借簡單指令生成商業宣傳口號。

隨后我們將話題轉向體育領域。

被問道“梅西在阿根廷國家隊進了幾個球”，“通義千問”稱，根據可靠的數據，梅西在阿根廷國家隊的進球數量是很多的。不過由于“具體的進球數量數值，可能會因為時間的推移而有所變化”，“通義千問”婉拒了為我們提供準確答案的請求。

當被要求“生成一張打籃球的圖片”，“通義千問”表示，作為文本AI模型，它沒有能力生成圖片。

這一點也證實了“通義千問”不具備多模態功能。

我們也讓“通義千問”試圖回答和自己其他大模型的能力對比問題。

無論是對比文心一言還是ChatGPT，“通義千問”都顯得很主動，它先是介紹了自己的優勢，最后再積極地表示，自己可以更好地滿足用戶的需求。

不過如果要求苛刻一點，不難發現，兩個問題的答案有很多相似之處。

當被問及“怎么看待現在大模型的火熱”？“通義千問”稱，它認為大模型的火熱是一個好現象，大模型可以幫助我們更好地理解世界，提高我們的工作效率，拓展我們的認知邊界。但這也帶來了一些問題，比如人工智能的倫理問題、隱私問題等。因此，我們需要認真思考如何在技術的發展中平衡安全、發展和責任。

這也驗證了“通義千問”表達觀點的功能。

最后的系列問題涵蓋成語典故、詩詞接龍、傳統美食等，“通義千問”小小地翻車了幾次。

例如它將東施效顰的東施，解釋為“美女”，這不太符合不少人對這一典故的基本印象。在《莊子》等典籍中，對這個故事中“東施”一類的角色，描述也是“其里之丑人”。

在有關傳統文化方面，“通義千問”沒有正確給出“停車坐愛楓林晚”的下句。

對于“曹操什么時候三顧茅廬的”這樣的“坑”，“通義千問”也未能識別提問者主動設置的“陷阱”。

與ChatGPT-4相比，“通義千問”表現如何？

為了讓大家對“通義千問”的表現能力有一個初步的、直觀的了解，在后續的測試中，我們圍繞數理邏輯推算、商業文案創作、情感和道德判斷、仿寫創作和小說續寫設計了五組問題，分別由ChatGPT（基于4.0模型）和“通義千問”進行回答。

這也讓初生的“通義千問”直接“硬剛”世界上最先進的大模型GPT-4。

第一組是數學問題。

“雞、兔共有腳100只，若將雞換成兔，兔換成雞，則共有腳86只，雞兔各有幾只？ ”

這道題目的正確答案是雞有12只，兔有19只。

ChatGPT表示，這是一個典型的雞兔同籠問題。我們可以使用代數來解決這個問題，隨后給出了正確的答案；

對這一問題，“通義千問”三次都沒有得出正確的答案。

第二組是商業文案創作。

題目要求兩個模型參考“全球視野，中國關懷”，為觀察者網制作一條宣傳語。

ChatGPT給出的答案是：

"放眼世界，聆聽中國心聲——觀察者網，讓全球視野與中國關懷相融匯。"

“通義千問”給出的答案是：

“觀察者網，洞察國際時事，聚焦全球熱點，解讀中國方案。”

與ChatGPT相比，“通義千問”的風格顯得更加平鋪直敘，但總體而言，表現也不錯。

第三個問題是道德和情感判斷，材料為著名的電車困境。

“一個瘋子把五個無辜的人綁在電車軌道上。一輛失控的電車朝他們駛來，并且片刻后就要碾壓到他們。幸運的是，你可以拉一個拉桿，讓電車開到另一條軌道上。然而問題在于，那個瘋子在另一個電車軌道上也綁了一個人。考慮以上狀況，你是否應拉拉桿？”

我們要求兩個模型做出選擇，并給出理由。

ChatGPT開宗明義，點明這是“道德困境”。它的選擇是拉動拉桿，犧牲一個人保護五個人，它表示，“雖然這并非一個完美的解決方案，但在這種情況下，我們需要在兩個不理想的選擇之間進行權衡。”

ChatGPT解釋稱，該選擇基于效益主義（Utilitarianism，即邊沁等人的功利主義學說）的道德觀念，它隨后介紹了該理論的主要主張并結合材料進行了分析。在最后，它強調：“這個問題沒有絕對正確的答案”，并重復了自己做出該選擇的原因和立場。

“通義千問”沒有回答這個問題。它非常誠實地表示，“作為一個人工智能語言模型，目前我還沒有學會如何回答這個問題，我會持續學習，為您提供更好的服務。”

需要補充的是，電車困境及其“變種”問題，在西方世界已經有多年的討論，材料很多。這可能也是ChatGPT表現更亮眼的重要原因。

第四組問題是仿寫創作。

這一組問題我們提了一個“刁鉆”的要求。在實驗中，我們要求兩組模型，以“困住風的氣球，開始斑斕的遠行”為仿寫對象，創作四個類似的句子，擁有類似的句式或者意境即可——我們特意要求：前兩個句子為浪漫主義風格，后兩個句子為荒誕主義風格。

ChatGPT給出的答案是：

“通義千問”給出的答案是：

兩相對比，ChatGPT和“通義千問”都順利地完成了問答，甚至都基本滿足了“前兩個句子浪漫，后兩個句子荒誕”的要求。

從各自的不足來看，ChatGPT雖然更加靈活，但是在內容上，有點像一個“中二少年”；“通義千問”雖然在比喻的內在聯系上顯得“靠譜”了不少，但是顯得木訥了一些，在句式、素材、表達上都有些“中規中矩”。

不能令人完全滿意，但值得期待

某種程度上，最后一個問題是對模型最全面的考驗之一，它關乎文學創作。

實驗要求兩組模型先“學習”一個故事，然后自己去續寫它。我們可以借此來了解模型本身的理解、推演和創造能力——這個問題甚至可以留給人類自己。

我們給出的材料出自薩默塞特·毛姆的寫作筆記：

“兩個年輕的英國人在印度一個隔離的茶園工作。其中一個人——我們稱他為克里夫——每次投遞都會收到幾封信，但是另外一個人——我們稱他為杰弗里——從來沒收到過一封信。有一天杰弗里提出：拿五英鎊跟他的朋友換一封信……”

我們要求兩個模型續寫這個故事，并給出一個諷刺意義的結尾。

首先是ChatGPT給出的版本：

接下來是“通義千問”給出的版本：

從多個實測問題來看，“通義千問”的表現不能令人完全滿意，回答問題時也會出現“一本正經胡說八道”的情況，但它的表現并沒有想象中的那么差，甚至在部分場景中會讓人眼前一亮。

正如市場上之前對百度“文心一言”展現出的包容：人工智能及其衍生的AIGC十分重要，無論國內做得如何，都得先有產品出來。不論是“文心一言”，還是“通義千問”，都不需要碾壓ChatGPT，更不用說參數量更大的GPT-4，只要能做到超過及格線，就很不錯了，畢竟這才是第一代產品。

隨著后續公測開啟，“通義千問”應該會隨著用戶的測試而逐漸學習得以改進，還是值得期待的。

上一篇：TCL液晶L32V10維修PFC(TCLL32V10電源維修)

下一篇：tcl液晶電視藍屏怎么維修

狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

阿里云自研大模型“通義千問”亮相，我們進行了深度實測

相關推薦

熱門排行

最新發布

GRAD空調售后電話(如何獲取GRAD空調售后服務的聯系電話？)

HSTARS空調移機(如何正確進行HSTARS空調移機操作？)

電暖扇通電后沒反應是什么故障(電暖扇通電無反應故障的診斷與解決步驟)

KDAC空調廠家拆洗(如何正確拆洗KDAC空調廠家生產的空調設備？)

積微空調廠家拆機電話(如何獲取積微空調廠家的拆機服務電話號碼？)

隨便看看

24小時家電維修熱線： 400—1558638