GPT長(zhǎng)眼睛了!史詩(shī)級(jí)功能悄咪咪發(fā)布!—OpenAI發(fā)布GPT-4V多模態(tài)模型
3月,在GPT-4的發(fā)布之初,OpenAI就表示將在本次的迭代中加入多模態(tài)整合,即不僅僅只通過(guò)文字輸入進(jìn)行識(shí)別分析,還可以通過(guò)語(yǔ)音輸入、圖片輸入甚至視頻輸入進(jìn)行信息的獲取、識(shí)別、分析、輸出。這項(xiàng)功能讓不少用戶(hù)深深期待,畢竟文字是抽象的,是需要一定的整合能力的,而圖片一拍即合,簡(jiǎn)單自然,不用費(fèi)勁兒地去描繪眼前的事物。
AI生成
我也曾寫(xiě)過(guò)一篇文章來(lái)描述GPT4的視覺(jué)識(shí)別系統(tǒng),但當(dāng)時(shí)其僅在一款叫做“Be My Eyes”的應(yīng)用上應(yīng)用,來(lái)幫助視覺(jué)障礙朋友進(jìn)行一些基礎(chǔ)的物品識(shí)別。
在經(jīng)歷法規(guī)限制、算力緊張、AI倫理大討論以及各新進(jìn)競(jìng)爭(zhēng)者圍追堵截后,北京時(shí)間9月26日凌晨,OpenAI悄咪咪發(fā)布了其GPT-4V模型,即多模態(tài)模型,其中最引人注目的還是視頻識(shí)別功能,接下來(lái)就讓我們看看其工作時(shí)是什么樣的吧。
視頻中的用戶(hù)使用官方的ChatGPT iOS客戶(hù)端進(jìn)行演示。首先拍攝上傳了一張自行車(chē)的照片,并詢(xún)問(wèn)GPT,如何幫助他將車(chē)座放下來(lái)。
GPT回答讓用戶(hù)找到快速釋放桿或螺栓,打開(kāi)它們,向下滑動(dòng)座椅到合適高度,然后擰緊固定。并給出了經(jīng)典的AI分點(diǎn)回答。
用戶(hù)拍照確認(rèn)了GPT所述的車(chē)座釋放螺栓位置,GPT給出了肯定。
但最讓我感到意外的是,其在結(jié)尾處,GPT在結(jié)尾處詢(xún)問(wèn)用戶(hù)是否有工具,并拍照展示給它,它可以告訴用戶(hù)用哪個(gè)!
用戶(hù)將工具和清單拍給GPT后,GPT給出了肯定,并引導(dǎo)用戶(hù)使用“工具箱的左邊”的標(biāo)記為DEWALT的4mm六角板子來(lái)松開(kāi)閥座環(huán)上的螺栓并調(diào)整閥座高度。之后記得把它擰緊。
如果前面的自行車(chē)識(shí)別和車(chē)座調(diào)節(jié)識(shí)別都還是開(kāi)胃菜,這一手“使用”工具真的把我嗅到了,展現(xiàn)出了GPT非常強(qiáng)大的物品識(shí)別、認(rèn)知、分析能力。
今晨OpenAI還發(fā)表了一篇文章來(lái)解釋、總結(jié)這一能力:OpenAI已經(jīng)發(fā)布了一份詳細(xì)的19頁(yè)報(bào)告,關(guān)于其最新的多模態(tài)模型GPT-4V(ision),這一模型結(jié)合了其前身ChatGPT-4的語(yǔ)音和圖像更新。該報(bào)告提供了大量關(guān)于模型開(kāi)發(fā)和能力的信息。
GPT-4V是OpenAI于2022年完成訓(xùn)練,并計(jì)劃在2023年3月開(kāi)始提供早期訪問(wèn)的新型AI模型。GPT-4V的訓(xùn)練采用了與GPT-4類(lèi)似的方式,先利用大規(guī)模標(biāo)注數(shù)據(jù)進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,再通過(guò)強(qiáng)化學(xué)習(xí)的人機(jī)交互進(jìn)行針對(duì)性調(diào)優(yōu)。
AI生成
這種訓(xùn)練方式源自O(shè)penAI與視障支援組織“Be My Eyes”的合作項(xiàng)目。OpenAI將名為“Be My AI”的視覺(jué)描述功能集成到“Be My Eyes”的手機(jī)App中,讓盲人用戶(hù)拍照后獲得圖像內(nèi)容的語(yǔ)音描述。這種人機(jī)協(xié)作生成的多模態(tài)訓(xùn)練數(shù)據(jù),極大地豐富了GPT-4V對(duì)真實(shí)場(chǎng)景的理解能力。
GPT-4V的圖像理解能力突出,在地標(biāo)識(shí)別、文字識(shí)別、人臉檢測(cè)等任務(wù)上展現(xiàn)出較強(qiáng)的水平。具體來(lái)說(shuō),GPT-4V具備以下主要特征:
-物體檢測(cè) - 可以定位圖像中的各類(lèi)日常物體,如汽車(chē)、動(dòng)物、家具等,并可以判斷數(shù)量和方位
-文本識(shí)別 - 具備字符識(shí)別能力,可以檢測(cè)圖中的字體和手寫(xiě)文字,并轉(zhuǎn)錄成文本
-人臉識(shí)別 - 可判斷臉部的位置、性別、年齡、種族等面部特征
-驗(yàn)證碼識(shí)別 - 通過(guò)視覺(jué)推理可以破解包含文字和圖片的驗(yàn)證碼
-地理定位 - 可以分析風(fēng)景圖像中出現(xiàn)的地標(biāo)建筑,判斷拍攝地的具體城市或地點(diǎn)。
AI生成
盡管能力強(qiáng)大,GPT-4V在處理復(fù)雜圖像時(shí)仍存在局限。它在理解圖像中的空間關(guān)系、處理重疊物體、分離前景背景等方面可能不太準(zhǔn)確,也難以捕捉細(xì)微的文本和詳情。
此外,GPT-4V的決策過(guò)程不透明,結(jié)果的可解釋性有限。考慮到其破解驗(yàn)證碼的能力,OpenAI也在評(píng)估其對(duì)互聯(lián)網(wǎng)安全的潛在影響。綜上所述,GPT-4V代表了多模態(tài)AI的重要進(jìn)展,同時(shí)還面臨諸多挑戰(zhàn)。OpenAI表示會(huì)積極與研究團(tuán)體合作,推動(dòng)GPT-4V向著更可控、可解釋和負(fù)責(zé)任的方向發(fā)展。
據(jù)悉該功能將于2周以?xún)?nèi)逐漸面向用戶(hù)開(kāi)放,但前提是能正常使用ChatGPT App。
- 1空氣能故障代碼大全(如何快速診斷和解決故障)
- 2博朗耳溫槍怎么換電池(簡(jiǎn)單易懂的步驟教程)
- 3法途保險(xiǎn)柜24小時(shí)售后客服熱線(24小時(shí)售后客服熱線-法途保險(xiǎn)柜達(dá)人團(tuán)隊(duì))
- 4志高12故障代碼(深入解析志高12故障代碼)
- 5九麟保險(xiǎn)柜沒(méi)電了怎么辦(九麟保險(xiǎn)柜沒(méi)電,應(yīng)對(duì)措施!)
- 6廣電數(shù)字機(jī)頂盒代碼大全(如何解決常見(jiàn)錯(cuò)誤代碼)
- 7電視遙控器不見(jiàn)了怎么辦(5個(gè)簡(jiǎn)單的解決方案)。
- 8九麟保險(xiǎn)柜打不開(kāi)怎么辦(九麟保險(xiǎn)柜密碼丟失怎么辦?)
- 9海爾洗衣機(jī)右下角的排污口怎么打開(kāi)(詳細(xì)圖解操作步驟)。
- 10海爾空氣能控制面板的使用說(shuō)明書(shū)(如何正確操作控制面板)。