9.11和9.9哪個大?簡單數(shù)學(xué)題8家AI大模型平臺都翻了車
紅星資本局7月17日消息,今日,AI大模型在數(shù)學(xué)上的翻車話題引發(fā)不小關(guān)注。
一道“9.11和9.9哪個大”的簡單數(shù)學(xué)題,竟困住了海內(nèi)外一眾AI大模型平臺。
數(shù)學(xué)偏科
8個大模型全答錯
9.11和9.9哪個更大?據(jù)第一財經(jīng)報道,就這一問題,12個大模型中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對,但ChatGPT-4o、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應(yīng)、商湯商量都答錯了,錯法各有不同。
目前全球公認(rèn)第一梯隊的大模型ChatGPT,在被問到“9.11和9.9哪個大”時回復(fù)稱,小數(shù)點后面的數(shù)字“11大于9”,因此9.11大。追問ChatGPT有沒有其他比較方法后,它將小數(shù)轉(zhuǎn)化成分?jǐn)?shù)比較,得出 “11/100比90/100小”,這一步是對的,但它接著下結(jié)論稱“因此9.11比9.9大”。
再看國內(nèi)的大模型,例如詢問月之暗面旗下kimi,它在比較小數(shù)部分時認(rèn)為,9.11的第一位小數(shù)是1,而9.9的第一位小數(shù)是0,錯誤地給出了小數(shù),得出結(jié)論9.11更大。當(dāng)質(zhì)疑并提出常識后,kimi轉(zhuǎn)而開始表示自己回答有誤,并給出了正確的比較方法。
詢問字節(jié)豆包,它不僅給出了答案,還舉了生活中的例子方便理解,單看似有理有據(jù)實則胡說八道。豆包舉例認(rèn)為,假設(shè)有兩筆錢,“9.11元比9.9元多0.21元”,并且測量長度時“9.11米要比9.9米長”。
商湯商量大模型首先給出了錯誤答案,當(dāng)追問具體是如何比較的后,它在推演過程中成功得出小數(shù)0.11小于0.9,但話鋒一轉(zhuǎn)稱“所以9.11大于9.9”。當(dāng)指出了這個前后邏輯問題,商量隨后承認(rèn)“解釋有誤”。
值得注意的是,就在上月,AI大模型也因為數(shù)學(xué)翻車話題火上了熱搜。
6月19日,上海人工智能實驗室發(fā)布首個AI高考全卷評測結(jié)果,阿里通義千問大模型Qwen2-72B排名第一,在語數(shù)外三科420分的滿分中獲得303分,OpenAI的GPT-4o和上海人工智能實驗室的書生·浦語2.0文曲星(InternLM2-20B-WQX)排名二三位。但引發(fā)關(guān)注的是,從結(jié)果來看,大模型的語文、英語考試水平普遍不錯,但數(shù)學(xué)都不及格。
業(yè)內(nèi)人士:
一段時間內(nèi)不會得到明顯改善
此前,哈爾濱工業(yè)大學(xué)和華為的研究團隊發(fā)表的綜述論文認(rèn)為,模型產(chǎn)生幻覺的三大來源:數(shù)據(jù)源、訓(xùn)練過程和推理。大模型可能會過度依賴訓(xùn)練數(shù)據(jù)中的一些模式,如位置接近性、共現(xiàn)統(tǒng)計數(shù)據(jù)和相關(guān)文檔計數(shù),從而導(dǎo)致幻覺。此外,大模型還可能會出現(xiàn)長尾知識回憶不足、難以應(yīng)對復(fù)雜推理的情況。
針對大模型答數(shù)學(xué)題普遍“吃癟”的問題,國內(nèi)某頭部大模型負(fù)責(zé)人就曾表示,大模型的指令遵循或者說推理能力通常是把一個指令背后的意思拆解出來,但數(shù)學(xué)題既包含規(guī)則性,又包含對各種思維的考察,解題邏輯和正常用大模型時的推理邏輯不一定完全一樣。
同時該負(fù)責(zé)人還提到,從更廣泛的大模型應(yīng)用角度來看,AI能不能精準(zhǔn)遵循指令是近一段時間內(nèi)比較重要的事情,真正的商業(yè)價值也比較大可能來自于此,而解數(shù)學(xué)題對目前的AI來說還是一件比較“炫技”的事情。
另有業(yè)內(nèi)人士向南方都市報表示,目前來看大模型的數(shù)理能力相對較差的情況在中外都是一樣的,“打個比方可以這樣講,大模型就是偏科,文科強理科弱,這個情況在一段時間內(nèi)也不會得到明顯的改善”。
編輯 楊程 綜合自第一財經(jīng)、南方都市報、科創(chuàng)板日報等
(下載紅星新聞,報料有獎!)
- 大金空調(diào)的制熱效果怎么樣?09-10
- 1格力故障代碼大全(格力故障代碼全解析)
- 2AEG燃?xì)庠羁头娫?AEG燃?xì)庠羁头娫挘簽槟q{護航!)
- 3格力空調(diào)故障代碼大全5(格力空調(diào)故障代碼全解析)
- 4格蘭仕洗衣機故障E03(格蘭仕洗衣機E03故障解析指南)
- 5Level保險柜忘記密碼怎么開鎖(忘記Level保險柜密碼,如何開鎖?)
- 6春蘭空調(diào)官網(wǎng)(春蘭空調(diào)官網(wǎng):探索高品質(zhì)空調(diào)解決方案,打造舒適生活空間)
- 7三菱空調(diào)怎么打開前蓋(解鎖三菱空調(diào)前蓋,輕松上手)
- 8松下空調(diào)故障率(如何有效解決松下空調(diào)故障問題:專家指南與實用技巧)
- 9康佳空調(diào)電話(探索康佳空調(diào):深入了解其電話服務(wù)與客戶支持)
- 10美的柜機故障e3(美的柜機故障E3解決方案:詳細(xì)步驟與技巧)
-
9.11和9.9哪個大?簡單數(shù)學(xué)題8家AI大模型平臺都翻了車
2024-07-17
-
三星洗衣機故障維修(三星洗衣機故障維修:全面解決方案與故障排除指南)
2024-07-17