狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務(wù)平臺

24小時家電維修熱線:

400—1558638

當(dāng)前位置:主頁 > 空調(diào) > 服務(wù)項目 > 空調(diào)分類 >

9.11和9.9哪個大?簡單數(shù)學(xué)題8家AI大模型平臺都翻了車

發(fā)布日期:2024-07-17 21:51:42 瀏覽:
9.11和9.9哪個大?簡單數(shù)學(xué)題8家AI大模型平臺都翻了車

紅星資本局7月17日消息,今日,AI大模型在數(shù)學(xué)上的翻車話題引發(fā)不小關(guān)注。

一道“9.11和9.9哪個大”的簡單數(shù)學(xué)題,竟困住了海內(nèi)外一眾AI大模型平臺。

數(shù)學(xué)偏科

8個大模型全答錯

9.11和9.9哪個更大?據(jù)第一財經(jīng)報道,就這一問題,12個大模型中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對,但ChatGPT-4o、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應(yīng)、商湯商量都答錯了,錯法各有不同。

目前全球公認(rèn)第一梯隊的大模型ChatGPT,在被問到“9.11和9.9哪個大”時回復(fù)稱,小數(shù)點后面的數(shù)字“11大于9”,因此9.11大。追問ChatGPT有沒有其他比較方法后,它將小數(shù)轉(zhuǎn)化成分?jǐn)?shù)比較,得出 “11/100比90/100小”,這一步是對的,但它接著下結(jié)論稱“因此9.11比9.9大”。

再看國內(nèi)的大模型,例如詢問月之暗面旗下kimi,它在比較小數(shù)部分時認(rèn)為,9.11的第一位小數(shù)是1,而9.9的第一位小數(shù)是0,錯誤地給出了小數(shù),得出結(jié)論9.11更大。當(dāng)質(zhì)疑并提出常識后,kimi轉(zhuǎn)而開始表示自己回答有誤,并給出了正確的比較方法。

詢問字節(jié)豆包,它不僅給出了答案,還舉了生活中的例子方便理解,單看似有理有據(jù)實則胡說八道。豆包舉例認(rèn)為,假設(shè)有兩筆錢,“9.11元比9.9元多0.21元”,并且測量長度時“9.11米要比9.9米長”。

商湯商量大模型首先給出了錯誤答案,當(dāng)追問具體是如何比較的后,它在推演過程中成功得出小數(shù)0.11小于0.9,但話鋒一轉(zhuǎn)稱“所以9.11大于9.9”。當(dāng)指出了這個前后邏輯問題,商量隨后承認(rèn)“解釋有誤”。

值得注意的是,就在上月,AI大模型也因為數(shù)學(xué)翻車話題火上了熱搜。

6月19日,上海人工智能實驗室發(fā)布首個AI高考全卷評測結(jié)果,阿里通義千問大模型Qwen2-72B排名第一,在語數(shù)外三科420分的滿分中獲得303分,OpenAI的GPT-4o和上海人工智能實驗室的書生·浦語2.0文曲星(InternLM2-20B-WQX)排名二三位。但引發(fā)關(guān)注的是,從結(jié)果來看,大模型的語文、英語考試水平普遍不錯,但數(shù)學(xué)都不及格。

業(yè)內(nèi)人士:

一段時間內(nèi)不會得到明顯改善

此前,哈爾濱工業(yè)大學(xué)和華為的研究團隊發(fā)表的綜述論文認(rèn)為,模型產(chǎn)生幻覺的三大來源:數(shù)據(jù)源、訓(xùn)練過程和推理。大模型可能會過度依賴訓(xùn)練數(shù)據(jù)中的一些模式,如位置接近性、共現(xiàn)統(tǒng)計數(shù)據(jù)和相關(guān)文檔計數(shù),從而導(dǎo)致幻覺。此外,大模型還可能會出現(xiàn)長尾知識回憶不足、難以應(yīng)對復(fù)雜推理的情況。

針對大模型答數(shù)學(xué)題普遍“吃癟”的問題,國內(nèi)某頭部大模型負(fù)責(zé)人就曾表示,大模型的指令遵循或者說推理能力通常是把一個指令背后的意思拆解出來,但數(shù)學(xué)題既包含規(guī)則性,又包含對各種思維的考察,解題邏輯和正常用大模型時的推理邏輯不一定完全一樣。

同時該負(fù)責(zé)人還提到,從更廣泛的大模型應(yīng)用角度來看,AI能不能精準(zhǔn)遵循指令是近一段時間內(nèi)比較重要的事情,真正的商業(yè)價值也比較大可能來自于此,而解數(shù)學(xué)題對目前的AI來說還是一件比較“炫技”的事情。

另有業(yè)內(nèi)人士向南方都市報表示,目前來看大模型的數(shù)理能力相對較差的情況在中外都是一樣的,“打個比方可以這樣講,大模型就是偏科,文科強理科弱,這個情況在一段時間內(nèi)也不會得到明顯的改善”。

編輯 楊程 綜合自第一財經(jīng)、南方都市報、科創(chuàng)板日報等

(下載紅星新聞,報料有獎!)

主站蜘蛛池模板: 国产精品国产午夜免费看福利| 蜜臀av在线播放| 国产精品一区二区无| 中文日韩亚洲欧美字幕| 中文字幕丰满乱孑伦无码专区| 无码帝国www无码专区色综合| 精品无码中文字幕在线| 亚洲一区午夜在线观看| 国产精品一线二线三线| 新普新京亚洲欧美日韩国产| 一区二区三区 精品在线| 国产熟人av一二三区| 亚洲精品亚洲人成在线观看| 人妻被修空调在夫面侵犯| 欧美日韩大片一区二区三区| 久久久久成人网站| 蜜臀av一区二区在线观看| 亚洲国产精品一区二区制服| 欧美日韩一区二区观看视频| 69av一区二区在线观看| 加勒比色老久久爱综合网| 亚洲av色香蕉一区二区观看| 人妻体内射精一区二区| 亚洲熟女综合一区二区三区| 欧美乱妇高清免费96欧美乱妇高清| 老熟妇乱子伦牲交视频| 久久久国产不卡一区二区| 国产超碰女人任你爽| 国产情色精品一区二区| 99久久精品国产高潮一区一区三区 | 成人无码精品免费视频在线观看 | av午夜久久蜜桃传媒软件 | 久久夜色精品国产| 波多野结衣人妻| 柠檬福利精品视频导航| 无码乱人伦一区二区亚洲一| 国产一区二区三区四区五区入口| 亚洲精品蜜桃久久久久久| 国产传媒一区二区在线播放| 久久久久久久曰本精品免费看| 国产成人av无码精品|