失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

發布日期：2023-10-11 04:53:18 瀏覽：

近期ChatGPT迎來重大更新，加入了語音和圖像識別功能，用戶可以直接與ChatGPT進行語音對話，上傳圖片讓AI幫助分析我們所看到的內容，這相當于為AI增添了眼睛、耳朵和嘴巴，也就是ChatGPT的多模態。單從OpenAI發出的演示視頻，就感受到了滿滿的失業預警。

在視頻中，用戶拍攝了一張照片發給ChatGPT，同時提出了“請你幫我把自行車的座椅放低一些”的需求。然后ChatGPT給出了回答，它說第一步需要找到座位下面的快速釋放桿或者螺栓，如果有快速釋放桿打開它就可以，如果是螺栓，你需要一個內六角扳手。接下來將坐位向下滑動到你需要的高度，再擰緊螺栓或快速釋放桿，確保坐位已經固定，并確定坐位的朝向是正確的，不會晃動。最后ChatGPT提示，如果你有工具，可以展示給它，它會繼續告訴你下一步。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

接下來，用戶在照片局部圈出來座椅下方的螺栓位置，發給ChatGPT，問他這個是不是快速釋放桿。ChatGPT回復這不是一個釋放桿，他是一個螺栓，你需要一個內六角扳手擰松它，然后就可以調整座位的高度，確保座位朝向是正確的平直的，把螺栓擰緊就完成了調整。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

然后用戶又上傳了說明書照片和工具箱照片，問ChatGPT工具箱里有沒有正確的工具。ChatGPT回復你有正確的工具，在你工具箱的左側，有一個標著“DEWALT”的工具套裝，你要找的4mm的內六角扳手，然后用它松開座位下面的螺栓，調整座椅高度，最后把它擰緊。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

毫無疑問，擁有了“視覺”以后的AI展現出來的能力是相當炸裂的。半年前，AI還只是威脅到程序員、律師、數據分析師、文案編輯等重復性工作較多，工作流程比較確定的工作的話。僅現在有了視覺的AI，直接威脅到每一個工作崗位。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

一方面AI強大的功能，可以幫助普通人解決很多專業問題，我們可以通過對話與AI更高效的交流，同時還能將我們所看見的內容，直接與AI共享，這使得用戶與AI的交互更加自然流暢，更像是一個真正的助手，這大大降低了我們對于一些咨詢、服務的需求。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

另一方面，ChatGPT超強的視覺分析能力，也讓AI在更多的領域取代更多的人力。

來自微軟的一份166頁的測評報告，更加系統地討論和分析了OpenAI最新多模態語言模型GPT-4V（視覺版GPT-4）。該報告分為11個章節，從多個維度全面考察GPT-4V的能力和局限，以幫助人們深入理解大規模多模態模型的工作機制。

報告首先概述了GPT-4V的結構，它不僅可以處理文本，還可以理解圖像信息。然后，報告詳細列舉了各類測試樣本，檢驗GPT-4V在不同任務上的表現質量和泛化能力。測試發現，GPT-4V擁有前所未有的處理雜亂多模態輸入的能力，且其功能高度通用，可泛化到多種任務，成為一個強大的多模態通用系統。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

報告特別討論了GPT-4V對圖像的獨特理解力，這可能催生新的人機交互方式，例如使用視覺內容進行提示。最后，報告探討了基于GPT-4V的潛在應用場景，以及未來研發更先進多模態模型的方向。總體而言，該研究對GPT-4V進行了比較全面的測試和分析，深化了對大規模語言模型工作機制的理解，也將促進未來多模態人工智能技術的發展。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

接下來我們節選了幾個GPT-4V在新興應用場景中的案例，來跟大家分享一下。

圖像識別

人物識別：GPT-4V不僅能夠識別出圖片中的人物是誰，并且還分析出照片中人物正在做什么。比如左下方的圖片，它不僅識別出人物是現任美國總統，并且還分析出他在講臺上，可能在發表演講。而發表演講的場合，為2023年在日本廣島舉行的七國集團峰會！右側照片中的人是NVIDIA的首席執行官兼聯合創始人黃仁勛。他正在拿著并展示NVIDIA的產品，很可能是圖形處理單元（GPU）。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

地標識別：GPT-4V精確地識別了測試圖像中的地標。它還能生成生動且詳細的敘述，捕捉地標的精髓。

食物識別：GPT-4V可以識別各種菜肴。它還可以識別菜肴圖像中存在的特定食材、裝飾品或烹飪技術。

醫療圖像理解結果：GPT-4V能夠識別提供的X光片中的牙齒和頜骨，并解釋頜骨左下方和右下方的智齒部分露出可能需要拔除。

醫學圖像理解結果：GPT-4V可以識別像Jones骨折這樣的常見病癥，還可以基于CT掃描的肺部指出潛在的問題。

多語言圖像描述結果：GPT-4V能夠生成不同語言的圖像描述。GPT-4V是一種語言模型，它可以理解和生成多種語言，包括圖像描述。這意味著它可以在不同語言之間生成圖像的描述，這對于跨語言交流和信息共享非常有用。

通過這幾個案例，可以看到GPT-4V應用潛力非常巨大，比如應用在醫學影像方面的輔助診斷，可以提高診斷準確性，也能提升診斷效率。應用在旅游或者博物館中，可以提供更好的自助導覽體驗，尤其是它能夠生成不同語言的圖像描述，對導游造成很大的挑戰。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

篇幅有限，我們只是截取了其中幾個案例，原始報告https://arxiv.org/pdf/2309.17421.pdf。

相比之前僅提供對話功能的AI，有了視覺的GPT-4真的是相當強悍!它就像是一個人,先有了一套思維邏輯,再灌入海量的知識,現在又給了它眼睛、耳朵和嘴巴,它就可以像人類一樣直接處理圖像、視頻等視覺信息,理解場景和對象,而不僅僅依賴語言描述。結合視覺和語言GPT-4能夠進行多模態的交互和學習，它的智能會更加貼近人類。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

如果將來GPT-4還擁有了類似人類手臂的機械控制“肢體”,它就可以直接操作物理環境,進行更復雜的探索和實踐。這將大大提升它汲取現實世界知識的能力。配備傳感器的“肢體”還可以幫助GPT-4形成對環境的感知,擁有更豐富的交互方式。

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

當然,我們還需要解決讓GPT-4真正理解知識而不僅僅是模式匹配的問題。還需確保它按照正確認知能力的強大,而不是被誤用或造成傷害。如果以負責任的方式持續發展GPT-4,它將朝著成為一個真正的人工通用智能又邁進了一步。

上一篇：冰箱自身打壓(該如何避免和解決)？

下一篇：華爾頓燃氣灶衡陽維修(如何自行解決常見問題)

狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

相關推薦

熱門排行

最新發布

Hidros空調廠家保養加氟(如何正確進行Hidros空調廠家的保養和加氟服務？)

CITEC空調廠家售后網點(如何找到CITEC空調廠家的官方售后維修服務網點？)

有圖像無伴音故障部件(解決有圖像無伴音故障的部件問題：一步步排查與修復

五洲空調售后維修網點地址(如何找到五洲空調售后維修網點的詳細地址？)

山特空調廠家維修服務部(如何獲取山特空調廠家維修服務部的詳細信息和優質

隨便看看

24小時家電維修熱線： 400—1558638

狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

相關推薦

熱門排行

最新發布

Hidros空調廠家保養加氟(如何正確進行Hidros空調廠家的保養和加氟服務？)

CITEC空調廠家售后網點(如何找到CITEC空調廠家的官方售后維修服務網點？)

有圖像無伴音故障部件(解決有圖像無伴音故障的部件問題：一步步排查與修復

五洲空調售后維修網點地址(如何找到五洲空調售后維修網點的詳細地址？)

山特空調廠家維修服務部(如何獲取山特空調廠家維修服務部的詳細信息和優質

隨便看看

24小時家電維修熱線： 400—1558638

失業預警：當AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作崗位

Hidros空調廠家保養加氟(如何正確進行Hidros空調廠家的保養和加氟服務？)

CITEC空調廠家售后網點(如何找到CITEC空調廠家的官方售后維修服務網點？)