影子圖書館“安娜的檔案”宣布獲得超星旗下讀秀數(shù)據(jù)庫359TB圖書
IT之家 11 月 5 日消息,影子圖書館“安娜的檔案”官方博客當?shù)貢r間 10 月 4 日宣布,該網(wǎng)站現(xiàn)已經(jīng)收購一批“獨特的”750 余萬份、共計 359TB 的電子圖書,并表示愿意為一系列大語言模型公司提供獨家早期訪問權(quán)限,以獲得高質(zhì)量的圖書 OCR(IT之家注:Optical Character Recognition,光學字符識別)和文本提取。
“安娜的檔案”在博客中介紹,讀秀是由超星數(shù)字圖書館創(chuàng)建的大量掃描圖書的數(shù)據(jù)庫,大多數(shù)是學術圖書,通過掃描可以使它們以數(shù)字化的形式提供給大學和圖書館。“安娜的檔案”表示曾希望批量獲取它,并為此分配了多個月的全職工作。
最終,一位“不可思議、了不起、才華橫溢”的志愿者宣布已經(jīng)完成上述所有工作,并為之“付出巨大代價”,并無償分享了所有藏品。
從總數(shù)來看,這個收藏品共有 7543702 個文件,多過另一家“影子圖書館”Library Genesis 的 530 萬本非虛構(gòu)圖書。
不過,圖書的原作者通常不會喜歡利用“影子圖書館”來訓練 AI 大模型的行為。據(jù)IT之家此前報道,上個月美國就有多名作家向紐約聯(lián)邦法院提起訴訟,指控 Meta、微軟等科技巨頭未經(jīng)許可使用他們的作品來訓練 AI 模型。
這一作家團體此前已經(jīng)提交了擬議集體版權(quán)訴訟,文件稱 Meta 和微軟采用了具有爭議的“Books3”數(shù)據(jù)集來訓練他們的大模型,告訴大模型如何回應人類的提示和指令。
- 佳麗彩遙控器代碼(如何設置和更改)04-27
- 冰箱銅管腐蝕(如何預防和處理)05-06
- 帝度洗衣機武漢維修(帝度洗衣機售后電話)08-19
- 酒柜可以放客廳嗎(如何選擇合適的位置)?08-29
- 1天然氣表顯示故障代碼(如何解讀和修復)。
- 2熱水器放空水步驟圖(詳細圖解,讓你輕松操作)。
- 3電機能轉(zhuǎn)但沒勁(可能的原因和解決方法)。
- 4daogrs燃氣灶服務電話(daogrs燃氣灶服務電話:貼心服務一鍵呼叫)
- 5警建指紋鎖維修服務電話(警建指紋鎖維修服務電話——專業(yè)安全指紋鎖維修)
- 6制冰機故障代碼(常見故障代碼解析)。
- 7蘭柏璐保險柜售后服務中心(蘭柏璐售后服務中心)
- 8海爾滾筒洗衣機故障代碼大全(如何快速解決故障)
- 9艾木歐防盜門廠家電話(艾木歐防盜門廠家電話大全)
- 10美的空調(diào)清洗代碼(美的空調(diào)清洗代碼,完美保證室內(nèi)空氣質(zhì)量)
-
櫻雪點火故障(解決櫻雪點火故障的實用方法與步驟)
2024-08-24