谷歌發布Mirasol:30億參數,將多模態理解擴展到長視頻
IT之家 11 月 16 日消息,谷歌公司近日發布新聞稿,介紹了小型人工智能模型 Mirasol,可以回答有關視頻的問題并創造新的記錄。
AI 模型目前很難處理不同的數據流,如果要讓 AI 理解視頻,需要整合視頻、音頻和文本等不同模態的信息,這大大增加了難度。
谷歌和谷歌 Deepmind 的研究人員提出了新的方法,將多模態理解擴展到長視頻領域。
借助 Mirasol AI 模型,該團隊試圖解決兩個關鍵挑戰:
需要以高頻采樣同步視頻和音頻,但要異步處理標題和視頻描述。
視頻和音頻會生成大量數據,這會讓模型的容量緊張。
谷歌在 Mirasol 中使用合路器(combiners)和自回歸轉換器(autoregressive transformer)模型。
該模型組件會處理時間同步的視頻和音頻信號,然后再將視頻拆分為單獨的片段。
轉換器處理每個片段,并學習每個片段之間的聯系,然后使用另一個轉換器處理上下文文本,這兩個組件交換有關其各自輸入的信息。
名為 Combiner 的新穎轉換模塊從每個片段中提取通用表示,并通過降維來壓縮數據。每個段包含 4 到 64 幀,該模型當前共有 30 億個參數,可以處理 128 到 512 幀的視頻。
在測試中,Mirasol3B 在視頻問題分析方面達到了新的基準,體積明顯更小,并且可以處理更長的視頻。使用包含內存的組合器變體,該團隊可以將所需的計算能力進一步降低 18%。
IT之家在此附上 Mirasol 的官方新聞稿,感興趣的用戶可以深入閱讀。
-
南昌沃爾堡壁掛爐售后電話(如何快速找到并聯系售后服務)
2024-09-11
-
三菱空調廠家全國服務熱線(中央三菱空調一拖四價格報價表如何選擇最適合自
2024-09-11
-
特靈廠家售后維修電話是多少(特靈空調出現m兩道杠是什么標志解讀特靈空調顯
2024-09-11
-
三菱重工空調售后服務電話號碼是多少(中央三菱空調吊頂要求有哪些需要注意
2024-09-11
-
特靈廠家維修服務電話(特靈空調顯h5是什么原因特靈空調顯h5的重要因素是什么
2024-09-11