GPT長(zhǎng)眼睛了！史詩(shī)級(jí)功能悄咪咪發(fā)布！—OpenAI發(fā)布GPT-4V多模態(tài)模型

發(fā)布日期：2023-10-02 18:21:22 瀏覽：

3月，在GPT-4的發(fā)布之初，OpenAI就表示將在本次的迭代中加入多模態(tài)整合，即不僅僅只通過(guò)文字輸入進(jìn)行識(shí)別分析，還可以通過(guò)語(yǔ)音輸入、圖片輸入甚至視頻輸入進(jìn)行信息的獲取、識(shí)別、分析、輸出。這項(xiàng)功能讓不少用戶(hù)深深期待，畢竟文字是抽象的，是需要一定的整合能力的，而圖片一拍即合，簡(jiǎn)單自然，不用費(fèi)勁兒地去描繪眼前的事物。

AI生成

我也曾寫(xiě)過(guò)一篇文章來(lái)描述GPT4的視覺(jué)識(shí)別系統(tǒng)，但當(dāng)時(shí)其僅在一款叫做“Be My Eyes”的應(yīng)用上應(yīng)用，來(lái)幫助視覺(jué)障礙朋友進(jìn)行一些基礎(chǔ)的物品識(shí)別。

在經(jīng)歷法規(guī)限制、算力緊張、AI倫理大討論以及各新進(jìn)競(jìng)爭(zhēng)者圍追堵截后，北京時(shí)間9月26日凌晨，OpenAI悄咪咪發(fā)布了其GPT-4V模型，即多模態(tài)模型，其中最引人注目的還是視頻識(shí)別功能，接下來(lái)就讓我們看看其工作時(shí)是什么樣的吧。

視頻中的用戶(hù)使用官方的ChatGPT iOS客戶(hù)端進(jìn)行演示。首先拍攝上傳了一張自行車(chē)的照片，并詢(xún)問(wèn)GPT，如何幫助他將車(chē)座放下來(lái)。

GPT回答讓用戶(hù)找到快速釋放桿或螺栓，打開(kāi)它們，向下滑動(dòng)座椅到合適高度，然后擰緊固定。并給出了經(jīng)典的AI分點(diǎn)回答。

用戶(hù)拍照確認(rèn)了GPT所述的車(chē)座釋放螺栓位置，GPT給出了肯定。

但最讓我感到意外的是，其在結(jié)尾處，GPT在結(jié)尾處詢(xún)問(wèn)用戶(hù)是否有工具，并拍照展示給它，它可以告訴用戶(hù)用哪個(gè)！

用戶(hù)將工具和清單拍給GPT后，GPT給出了肯定，并引導(dǎo)用戶(hù)使用“工具箱的左邊”的標(biāo)記為DEWALT的4mm六角板子來(lái)松開(kāi)閥座環(huán)上的螺栓并調(diào)整閥座高度。之后記得把它擰緊。

如果前面的自行車(chē)識(shí)別和車(chē)座調(diào)節(jié)識(shí)別都還是開(kāi)胃菜，這一手“使用”工具真的把我嗅到了，展現(xiàn)出了GPT非常強(qiáng)大的物品識(shí)別、認(rèn)知、分析能力。

今晨OpenAI還發(fā)表了一篇文章來(lái)解釋、總結(jié)這一能力：OpenAI已經(jīng)發(fā)布了一份詳細(xì)的19頁(yè)報(bào)告，關(guān)于其最新的多模態(tài)模型GPT-4V(ision)，這一模型結(jié)合了其前身ChatGPT-4的語(yǔ)音和圖像更新。該報(bào)告提供了大量關(guān)于模型開(kāi)發(fā)和能力的信息。

GPT-4V是OpenAI于2022年完成訓(xùn)練，并計(jì)劃在2023年3月開(kāi)始提供早期訪問(wèn)的新型AI模型。GPT-4V的訓(xùn)練采用了與GPT-4類(lèi)似的方式，先利用大規(guī)模標(biāo)注數(shù)據(jù)進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練，再通過(guò)強(qiáng)化學(xué)習(xí)的人機(jī)交互進(jìn)行針對(duì)性調(diào)優(yōu)。

AI生成

這種訓(xùn)練方式源自O(shè)penAI與視障支援組織“Be My Eyes”的合作項(xiàng)目。OpenAI將名為“Be My AI”的視覺(jué)描述功能集成到“Be My Eyes”的手機(jī)App中，讓盲人用戶(hù)拍照后獲得圖像內(nèi)容的語(yǔ)音描述。這種人機(jī)協(xié)作生成的多模態(tài)訓(xùn)練數(shù)據(jù)，極大地豐富了GPT-4V對(duì)真實(shí)場(chǎng)景的理解能力。

GPT-4V的圖像理解能力突出，在地標(biāo)識(shí)別、文字識(shí)別、人臉檢測(cè)等任務(wù)上展現(xiàn)出較強(qiáng)的水平。具體來(lái)說(shuō)，GPT-4V具備以下主要特征：

－物體檢測(cè) - 可以定位圖像中的各類(lèi)日常物體，如汽車(chē)、動(dòng)物、家具等，并可以判斷數(shù)量和方位

－文本識(shí)別 - 具備字符識(shí)別能力，可以檢測(cè)圖中的字體和手寫(xiě)文字，并轉(zhuǎn)錄成文本

－人臉識(shí)別 - 可判斷臉部的位置、性別、年齡、種族等面部特征

－驗(yàn)證碼識(shí)別 - 通過(guò)視覺(jué)推理可以破解包含文字和圖片的驗(yàn)證碼

－地理定位 - 可以分析風(fēng)景圖像中出現(xiàn)的地標(biāo)建筑，判斷拍攝地的具體城市或地點(diǎn)。

AI生成

盡管能力強(qiáng)大，GPT-4V在處理復(fù)雜圖像時(shí)仍存在局限。它在理解圖像中的空間關(guān)系、處理重疊物體、分離前景背景等方面可能不太準(zhǔn)確，也難以捕捉細(xì)微的文本和詳情。

此外，GPT-4V的決策過(guò)程不透明，結(jié)果的可解釋性有限。考慮到其破解驗(yàn)證碼的能力，OpenAI也在評(píng)估其對(duì)互聯(lián)網(wǎng)安全的潛在影響。綜上所述，GPT-4V代表了多模態(tài)AI的重要進(jìn)展，同時(shí)還面臨諸多挑戰(zhàn)。OpenAI表示會(huì)積極與研究團(tuán)體合作，推動(dòng)GPT-4V向著更可控、可解釋和負(fù)責(zé)任的方向發(fā)展。

據(jù)悉該功能將于2周以?xún)?nèi)逐漸面向用戶(hù)開(kāi)放，但前提是能正常使用ChatGPT App。

上一篇：珠海BOSCH冰箱維修電話(huà)號(hào)碼查詢(xún)-BOSCH冰箱維修服務(wù)電話(huà)-BOSCH冰箱24小時(shí)服務(wù)熱線電話(huà)

下一篇：洗衣機(jī)電機(jī)如何防水(有哪些實(shí)用方法)？

狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

GPT長(zhǎng)眼睛了！史詩(shī)級(jí)功能悄咪咪發(fā)布！—OpenAI發(fā)布GPT-4V多模態(tài)模型

相關(guān)推薦

熱門(mén)排行

最新發(fā)布

AERMEC空調(diào)維修服務(wù)電話(huà)(如何聯(lián)系A(chǔ)ERMEC空調(diào)維修服務(wù)電話(huà)以解決常見(jiàn)問(wèn)題？)

Pfannenberg空調(diào)維修服務(wù)電話(huà)(如何獲取Pfannenberg空調(diào)維修服務(wù)的聯(lián)系電話(huà)？)

兩米金箍棒展出引熱議周大福門(mén)店：巡展非賣(mài)品

長(zhǎng)虹lt26720黑屏故障(長(zhǎng)虹LT26720液晶電視黑屏故障的診斷與解決方案)

Vertiv空調(diào)廠家售后維修電話(huà)(如何獲取Vertiv空調(diào)廠家的售后維修服務(wù)電話(huà)號(hào)碼？

隨便看看

24小時(shí)家電維修熱線： 400—1558638

狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

GPT長(zhǎng)眼睛了！史詩(shī)級(jí)功能悄咪咪發(fā)布！—OpenAI發(fā)布GPT-4V多模態(tài)模型

相關(guān)推薦

熱門(mén)排行

最新發(fā)布

AERMEC空調(diào)維修服務(wù)電話(huà)(如何聯(lián)系A(chǔ)ERMEC空調(diào)維修服務(wù)電話(huà)以解決常見(jiàn)問(wèn)題？)

Pfannenberg空調(diào)維修服務(wù)電話(huà)(如何獲取Pfannenberg空調(diào)維修服務(wù)的聯(lián)系電話(huà)？)

兩米金箍棒展出引熱議 周大福門(mén)店：巡展非賣(mài)品

長(zhǎng)虹lt26720黑屏故障(長(zhǎng)虹LT26720液晶電視黑屏故障的診斷與解決方案)

Vertiv空調(diào)廠家售后維修電話(huà)(如何獲取Vertiv空調(diào)廠家的售后維修服務(wù)電話(huà)號(hào)碼？

隨便看看

24小時(shí)家電維修熱線： 400—1558638

兩米金箍棒展出引熱議周大福門(mén)店：巡展非賣(mài)品