失業預警:當AI有了眼睛、耳朵和嘴巴,恐加速取代更多工作崗位
近期ChatGPT迎來重大更新,加入了語音和圖像識別功能,用戶可以直接與ChatGPT進行語音對話,上傳圖片讓AI幫助分析我們所看到的內容,這相當于為AI增添了眼睛、耳朵和嘴巴,也就是ChatGPT的多模態。單從OpenAI發出的演示視頻,就感受到了滿滿的失業預警。
在視頻中,用戶拍攝了一張照片發給ChatGPT,同時提出了“請你幫我把自行車的座椅放低一些”的需求。然后ChatGPT給出了回答,它說第一步需要找到座位下面的快速釋放桿或者螺栓,如果有快速釋放桿打開它就可以,如果是螺栓,你需要一個內六角扳手。接下來將坐位向下滑動到你需要的高度,再擰緊螺栓或快速釋放桿,確保坐位已經固定,并確定坐位的朝向是正確的,不會晃動。最后ChatGPT提示,如果你有工具,可以展示給它,它會繼續告訴你下一步。
接下來,用戶在照片局部圈出來座椅下方的螺栓位置,發給ChatGPT,問他這個是不是快速釋放桿。ChatGPT回復這不是一個釋放桿,他是一個螺栓,你需要一個內六角扳手擰松它,然后就可以調整座位的高度,確保座位朝向是正確的平直的,把螺栓擰緊就完成了調整。
然后用戶又上傳了說明書照片和工具箱照片,問ChatGPT工具箱里有沒有正確的工具。ChatGPT回復你有正確的工具,在你工具箱的左側,有一個標著“DEWALT”的工具套裝,你要找的4mm的內六角扳手,然后用它松開座位下面的螺栓,調整座椅高度,最后把它擰緊。
毫無疑問,擁有了“視覺”以后的AI展現出來的能力是相當炸裂的。半年前,AI還只是威脅到程序員、律師、數據分析師、文案編輯等重復性工作較多,工作流程比較確定的工作的話。僅現在有了視覺的AI,直接威脅到每一個工作崗位。
一方面AI強大的功能,可以幫助普通人解決很多專業問題,我們可以通過對話與AI更高效的交流,同時還能將我們所看見的內容,直接與AI共享,這使得用戶與AI的交互更加自然流暢,更像是一個真正的助手,這大大降低了我們對于一些咨詢、服務的需求。
另一方面,ChatGPT超強的視覺分析能力,也讓AI在更多的領域取代更多的人力。
來自微軟的一份166頁的測評報告,更加系統地討論和分析了OpenAI最新多模態語言模型GPT-4V(視覺版GPT-4)。該報告分為11個章節,從多個維度全面考察GPT-4V的能力和局限,以幫助人們深入理解大規模多模態模型的工作機制。
報告首先概述了GPT-4V的結構,它不僅可以處理文本,還可以理解圖像信息。然后,報告詳細列舉了各類測試樣本,檢驗GPT-4V在不同任務上的表現質量和泛化能力。測試發現,GPT-4V擁有前所未有的處理雜亂多模態輸入的能力,且其功能高度通用,可泛化到多種任務,成為一個強大的多模態通用系統。
報告特別討論了GPT-4V對圖像的獨特理解力,這可能催生新的人機交互方式,例如使用視覺內容進行提示。最后,報告探討了基于GPT-4V的潛在應用場景,以及未來研發更先進多模態模型的方向。總體而言,該研究對GPT-4V進行了比較全面的測試和分析,深化了對大規模語言模型工作機制的理解,也將促進未來多模態人工智能技術的發展。
接下來我們節選了幾個GPT-4V在新興應用場景中的案例,來跟大家分享一下。
圖像識別
人物識別:GPT-4V不僅能夠識別出圖片中的人物是誰,并且還分析出照片中人物正在做什么。比如左下方的圖片,它不僅識別出人物是現任美國總統,并且還分析出他在講臺上,可能在發表演講。而發表演講的場合,為2023年在日本廣島舉行的七國集團峰會!右側照片中的人是NVIDIA的首席執行官兼聯合創始人黃仁勛。他正在拿著并展示NVIDIA的產品,很可能是圖形處理單元(GPU)。
地標識別:GPT-4V精確地識別了測試圖像中的地標。它還能生成生動且詳細的敘述,捕捉地標的精髓。
食物識別:GPT-4V可以識別各種菜肴。它還可以識別菜肴圖像中存在的特定食材、裝飾品或烹飪技術。
醫療圖像理解結果:GPT-4V能夠識別提供的X光片中的牙齒和頜骨,并解釋頜骨左下方和右下方的智齒部分露出可能需要拔除。
醫學圖像理解結果:GPT-4V可以識別像Jones骨折這樣的常見病癥,還可以基于CT掃描的肺部指出潛在的問題。
多語言圖像描述結果:GPT-4V能夠生成不同語言的圖像描述。GPT-4V是一種語言模型,它可以理解和生成多種語言,包括圖像描述。這意味著它可以在不同語言之間生成圖像的描述,這對于跨語言交流和信息共享非常有用。
通過這幾個案例,可以看到GPT-4V應用潛力非常巨大,比如應用在醫學影像方面的輔助診斷,可以提高診斷準確性,也能提升診斷效率。應用在旅游或者博物館中,可以提供更好的自助導覽體驗,尤其是它能夠生成不同語言的圖像描述,對導游造成很大的挑戰。
篇幅有限,我們只是截取了其中幾個案例,原始報告https://arxiv.org/pdf/2309.17421.pdf。
相比之前僅提供對話功能的AI,有了視覺的GPT-4真的是相當強悍!它就像是一個人,先有了一套思維邏輯,再灌入海量的知識,現在又給了它眼睛、耳朵和嘴巴,它就可以像人類一樣直接處理圖像、視頻等視覺信息,理解場景和對象,而不僅僅依賴語言描述。結合視覺和語言GPT-4能夠進行多模態的交互和學習,它的智能會更加貼近人類。
如果將來GPT-4還擁有了類似人類手臂的機械控制“肢體”,它就可以直接操作物理環境,進行更復雜的探索和實踐。這將大大提升它汲取現實世界知識的能力。配備傳感器的“肢體”還可以幫助GPT-4形成對環境的感知,擁有更豐富的交互方式。
當然,我們還需要解決讓GPT-4真正理解知識而不僅僅是模式匹配的問題。還需確保它按照正確認知能力的強大,而不是被誤用或造成傷害。如果以負責任的方式持續發展GPT-4,它將朝著成為一個真正的人工通用智能又邁進了一步。
-
Hidros空調廠家保養加氟(如何正確進行Hidros空調廠家的保養和加氟服務?)
2024-08-25
-
CITEC空調廠家售后網點(如何找到CITEC空調廠家的官方售后維修服務網點?)
2024-08-25
-
有圖像無伴音故障部件(解決有圖像無伴音故障的部件問題:一步步排查與修復
2024-08-25
-
五洲空調售后維修網點地址(如何找到五洲空調售后維修網點的詳細地址?)
2024-08-25
-
山特空調廠家維修服務部(如何獲取山特空調廠家維修服務部的詳細信息和優質
2024-08-25