電影中的人工智能來了!OpenAI發布全能大模型:文圖音任意組合輸出,可實現人類級別響應
01:07
澎湃新聞編輯 李垚瑞(01:07)
OpenAI的新品終于官宣,是一個“全能助手”。
北京時間5月14日凌晨,OpenAI發布最新多模態大模型 GPT-4o(o代表omini,全能),支持文本、音頻和圖像的任意組合輸入,并生成文本、音頻和圖像的任意組合輸出。文本、推理和編碼智能方面性能達到了GPT-4 Turbo水平,同時在多語言、音頻和視覺能力方面也達到新高。據介紹,GPT-4o的速度比GPT-4 Turbo快2倍,速率限制提高5倍,最高可達每分鐘1000萬token,而價格則便宜了一半。
OpenAI首席技術官米拉·穆拉蒂(Muri Murati)在發布會上表示:“通過語音、文本和視覺進行推理非常重要,因為我們正在研究與機器交互的未來。”
官網顯示,GPT-4o的文本和圖像功能將在ChatGPT更新后提供給所有用戶,Plus用戶的消息數量使用上限是免費版的5倍(使用上限后會切換回GPT-3.5版本)。而新版語音模式將在未來幾周向Plus用戶推出,同時也將會在API(應用接口)中向小范圍推出對GPT-4o的新音頻和視頻功能的支持。
穆拉蒂在OpenAI春季更新發布會上介紹GPT-4o
在發布會現場演示中,GPT-4o可以像人工智能助手一樣,實現用戶與ChatGPT的實時交互,不再是一問一答,也不需要其他按鍵操作。
比如,用戶可以說“Hi,ChatGPT”并提出問題,也可以在ChatGPT回答時打斷它,它還可以識別用戶聲音中展現的情感,甚至實時根據用戶的需求來使用不同情感風格的聲音。
據介紹,GPT-4o的音頻輸入平均反應時間為0.32秒,與人類對話中的反應時間相似。
OpenAI表示,在GPT-4o之前,使用語音模式與ChatGPT對話的平均延遲時間為2.8秒(GPT-3.5)和5.4秒(GPT-4)。此前的語音模式由三個獨立模型組成:一個簡單模型將音頻轉為文本,GPT-4接收文本并輸出文本,第三個簡單模型將文本轉回音頻。這個過程也讓主要的智能源GPT-4丟失了很多信息,比如不能直接觀察音調、多人講話或背景噪音,也不能輸出笑聲、歌聲或表達情感。而GPT-4o通過在文本、視覺和音頻方面訓練了一個端到端新模型,所有輸入和輸出都由同一個神經網絡處理。
不過,OpenAI也坦言,由于GPT-4o是公司首個結合了所有前述模式的模型,因此在探索模型功能及其局限性方面仍處于起步階段,GPT-4o也開始擴大紅隊(測試)的訪問權限。
此外,GPT-4o還提高了ChatGPT的視覺能力。在現場演示中,通過手機實時拍攝的視頻或電腦桌面屏幕上的截圖,ChatGPT可以快速回答相關問題,幫助解決計算、編程等問題。
演示中還出現了一段小插曲。因為“幻覺”問題,ChatGPT在還沒打開攝像頭看到畫面時就表示理解了,在演示者提示后,她說“哎呀,我太興奮了”,隨后實時指導完成了一道數學題。
同時,OpenAI還在X(推特)上實時搜集到網友的反饋,進行了ChatGPT的情緒分析演示。通過演示者的實時攝像頭畫面,對表情中的開心、興奮等情緒做出了分析。
GPT-4o的英語和代碼文本性能與GPT-4 Turbo相當,在非英語語言文本方面也有顯著提高,能支持50種語言。發布會上,穆拉蒂演示了讓全新ChatGPT充當只會意大利語與只會英語的兩人的翻譯,實現了跨語種交流的無縫銜接。
GPT-4o速度比GPT-4 Turbo快2倍,價格則便宜了一半
發布會上,ChatGPT還發布了電腦桌面版和新UI界面。根據官方公告,目前僅適用于macOS,Windows版將在今年晚些時候推出。
“我們知道這些模型越來越復雜,但我們希望交互體驗變得更加自然、輕松,并且讓你根本不關注用戶界面,而是專注于與GPT(交互)。”穆拉蒂表示。
OpenAI CEO山姆·奧特曼(Sam Altman)也表示:“對我來說,與電腦交談從來沒有真正自然過,而現在卻很自然……我真的看到了一個令人興奮的未來,我們可以用電腦做比以往更多的事情。”
“AI達到人類級別的響應時間和表現力是一個很大的改變,給人的感覺就像電影中的人工智能,而它的真實性仍然讓我感到有些驚訝。”他表示,“最初的ChatGPT展示了語言界面的雛形,而這款新模型給人的感覺卻截然不同,它快速、智能、有趣、自然而且樂于助人。”
奧特曼還發文“her”,或許也表達了他對GPT-4o的評價以及對未來的暢想(在電影《Her》中,人工智能助手Samantha主動給男主人公打了電話,告知他一些事情)。
山姆·奧特曼的推文
奧特曼表示,OpenAI的一項重要使命就是免費(或以優惠價格)向人們提供功能強大的人工智能工具,“我感到非常自豪的是,我們在ChatGPT中免費提供了世界上最好的模型,并且沒有廣告或類似的東西”。
他表示:“我們是一家企業,會找到很多可以收費的東西,這將幫助我們為數十億人提供免費、出色的人工智能服務(希望如此)。”
此前,據外媒報道,蘋果公司已接近與OpenAI達成協議,今年將后者的部分技術引入iPhone,提供由ChatGPT支持的“聊天機器人”作為iOS 18中人工智能功能的一部分。
不過,蘋果同時還與谷歌就授權Gemini聊天機器人進行了談判。而谷歌將在OpenAI此次春季更新發布會之后一天舉行I/O開發者大會,谷歌在大會的官方博文中曾提到“Gemini 時代”,預計將會發布Gemini大模型的最新動態。
- 1拓力馬智能鎖全國統一服務熱線(拓力馬智能鎖統一全國服務熱線)
- 2FOTILE壁掛爐官方維修電話(FOTILE壁掛爐官方維修電話:專業解決您的問題!)
- 3Baxi空氣源熱泵全國服務電話(Baxi空氣源熱泵服務電話全國覆蓋)
- 4超翔保險柜24小時售后電話(超翔保險柜24小時售后電話,為您全天候服務)
- 5甬盾保險柜全國服務熱線(全國服務熱線|甬盾保險柜,守護您的財產安全)
- 6愛賽為空氣能全國服務電話(愛賽為空氣 全國服務電話)
- 7西安貝斯特壁掛爐客服電話24小時人工服務熱線(壁掛爐采暖每天多少錢)
- 8AUX空調廠家售后服務電話(中央奧克斯空調保養視頻教程如何自己進行簡單維護
- 9Carrier售后服務電話號碼是多少(開利空調機怎么搞比較容易壞有哪些常見錯誤操
- 10Renovoair空調廠家維修電話上門附近(如何找到Renovoair空調廠家的維修電話并安排
-
艾威克空調服務網點(如何找到艾威克空調服務網點的詳細步驟和建議)
2024-08-26
-
l55f3320一3d三無故障(解決155F3320-3D三無故障的創新方法與實踐)
2024-08-26
-
西谷空調廠家服務熱線(如何聯系西谷空調廠家服務熱線以獲取幫助和支持?)
2024-08-26
-
AIRWELL空調官方電話(如何獲取AIRWELL空調官方客服電話以解決常見問題和故障?
2024-08-25
-
美的洗衣機e62故障原因(美的洗衣機E62故障原因及解決方案全解析)
2024-08-25