免費開放390部經典,未來3年整理上萬本古籍,這座圖書館上線了測試版
#北大聯合字節上線免費古籍閱讀平臺#
近日,由“北京大學-字節跳動數字人文開放實驗室”研發的古籍數字化閱讀平臺“識典古籍”測試版正式上線。該平臺涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。
在很多人的印象里,古籍文本往往艱澀難懂,而且接觸機會不多。在數字時代,這種情況正在發生轉變。借助現代技術對典籍進行數字化呈現,將卷帙浩繁的古代典籍“復活”,讓那些塵封已久的字符重新跳動起來,成為每個人觸手可及的工具與資料庫。
近年來,OCR(光學文字識別)、AI(人工智能)句讀和知識圖譜等技術的快速發展讓古籍數字化有了更多可能。一些科技公司與專業機構和科研院校合作,將技術優勢與專業知識進行有效打通與融合,積累了較為成熟的技術和經驗。
這些技術支撐起如今的“識典古籍”測試版,也成為更多古籍數字化的起點。未來三年內,“北京大學-字節跳動數字人文開放實驗室”將陸續完成10000種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄。
“識典古籍”測試版網站首頁
為什么古籍保護需要更開放?
古籍作為中華民族文化傳承的重要渠道之一,記載了大量中華民族文化形態和發展歷史。但由于朝代更迭、戰爭、自然災害以及年代久遠等原因,大量古籍已流失或毀壞。2007年,“中華古籍保護計劃”開始實施,迄今已有15年。
經過全國古籍普查,每部古籍都擁有了一張“身份證”,研究人員還發現了包括《永樂大典》“湖”字冊在內的一批珍貴文獻。收藏環境方面,全國1000余家古籍收藏單位的庫房條件有所改善,超過2000萬冊/件古籍得到妥善保護。
古籍修復師在工作
而在2022年的當下,人們閱讀古籍和查找資料的習慣和場景越來越多地轉移到線上。同時,普通讀者對于古籍的關注度也在不斷上升。今年初,98歲的古籍版本目錄學家沈燮元因為一部紀錄片,受到廣泛關注,在網絡走紅。
在抖音上,國家圖書館副館長、國家古籍保護中心副主任張志清,國家圖書館古籍修復專家杜偉生、故宮書畫修復專家沈洪彩等,通過短視頻的形式介紹傳統經典作品的保護與修復工作,讓更多人了解到其中的知識和意義。
然而,古籍保護工作仍然任重道遠。據“識典古籍”項目負責人介紹,目前亟需修復的古籍數量達到1000萬冊/件。20萬種古籍中,已有8萬種完成影像數字化掃描,近4萬種完成文本數字化。古籍修復人力成本很高,培養一名專業修復人員需要極高的時間成本,而古籍數字化工作也面臨資金缺口大、技術難度高等困難。
在社會各界的努力下,一批數字化古籍平臺涌現出來,包括中國哲學書電子化計劃(Chinese Text Project)、書同文古籍數據庫等等。這些平臺有著各自的優勢,但也有不同局限。書同文古籍數據庫收費較高,普通讀者無法隨時隨地進行查閱和使用。中國哲學書電子化計劃目前囊括了超過三萬部著作,但未能解決一個基本問題,用戶常常無法訪問。
在這樣的背景下,更加開放的合作與探索開始出現。
開放合作下的新趨勢
在文物保護與傳承的過程中,文保機構、科研院校與科技公司的跨界合作越來越普遍,珍貴古籍、專業團隊、先進技術由此得以匯合。2018年,半導體公司英特爾與中國文物保護基金會合作,啟動了利用3D建模與AI識別修復長城的項目。2021年3月,騰訊聯合敦煌研究院開發了AI病害識別技術,用于壁畫修復與保護。
2021年5月,阿里巴巴公益基金會聯合四川大學、美國加州大學伯克利分校、中國國家圖書館等,推出“漢典重光”古籍平臺,讓一批珍藏于加州大學伯克利分校的中文古籍善本,以數字化的形式回歸。該平臺涵蓋的古籍數量為20萬頁。
從2021年6月開始,字節跳動聯合國家圖書館等機構、中國文物保護基金會等,在古籍修復、活化和數字化等領域開展了一系列合作,包括捐資1000萬元,聯合成立古籍保護專項基金等,定向修復百余冊件珍貴古籍。
字節跳動古籍保護專項基金啟動現場
2022年3月17日,北京大學與字節跳動合作成立“北京大學-字節跳動數字人文開放實驗室”,致力于研發開放的“古籍數字化平臺”,將人工智能和大數據應用在海量的古籍文獻上,實現對古籍內容的智能化整理和古文本知識圖譜的自動生成。
近期上線的“識典古籍”平臺測試版,便是這一合作的最新進展。據項目負責人介紹,該平臺主要使用了三種技術,即文字識別、自動標點、命名實體識別。
文字識別技術,是對古籍的影印版文字進行單個切分、文字識別、順序識別。自動標點技術,是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別,則是通過序列標注識別古籍文本中的命名實體,支持識別人名、地名、書籍、時間、官職等信息。目前行業內OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。
同時,這些先進技術也離不開人的支持。北京大學數字人文研究中心主任王軍表示,北大在這次合作中聯合各大高校學者和文獻專家,負責人工審核與校對,彌補人工智能有識別錯誤率的短板,并利用自有學術平臺,連接更多專業研究者和學生群體。
該平臺測試版已免費向所有用戶開放,在數字化文本內容之外,提供足夠權威的影印底本作為參照,同時提供主題詞檢索和繁簡體轉換功能,方便專業研究人員、古籍愛好者以更加高效便利的方式獲取古籍內容。同時,“識典古籍”測試版也存在一些不足,比如典籍數量相對較少,標點錯誤率還需進一步降低。
“識典古籍”測試版頁面
接下來,“北京大學-字節跳動數字人文開放實驗室”計劃通過人工智能技術,實現全自動整理校對,借助全社會的力量,更高效地實現存量古籍全部數字化。同時,“識典古籍”還將向全社會開放古籍閱讀檢索研究能力,助力古籍文化傳承和傳統文化研究。
編輯:段雅露
- 廣州市煤氣灶維修點(廣州燃氣灶維修中心)02-24
- “深海一號”:深海重器勇往直“潛”09-30
- 1海信42k11p怎么折開(海信42K11P:全方位展示超清畫質)
- 2電視頻道沒了怎么恢復(快速解決方法)
- 3Fardior燃氣灶售后維修電話號碼查詢(Fardior燃氣灶售后維修電話查詢)
- 4艾木歐防盜門沒電打不開怎么辦(艾木歐防盜門沒電無法啟動?解決方法總結)
- 5ENS指紋鎖售后熱線(ENS指紋鎖售后熱線-專業解決您的問題)
- 6打電話顯示關機是什么原因(如何解決手機無法接通問題)。
- 7v500hk1 cs5故障維修(v500hk1 cs5故障維修指南)
- 8創維液晶電視的遙控器怎么調試(創維電視遙控器調試指南)
- 9林內空氣能售后服務官網熱線(林內空氣能售后服務官網熱線)
- 10朝友精工保險柜24小時售后電話(朝友精工保險柜24小時售后電話 - 完善24小時保
-
三菱重工中央空調廠家24小時服務電話(中央三菱空調E9報警如何解決常見故障
2024-09-12
-
美的中央空調廠家客服電話人工服務(美的空調網拆下來后怎么安裝安裝步驟詳
2024-09-12
-
美的中央空調廠家24小時人工客服(中央美的空調關了風機運轉可能的原因和解決
2024-09-12
-
美的中央空調廠家維修號碼(美的空調lock是什么意思啊美的空調的鎖?)
2024-09-12
-
開利中央空調24小時人工電話(開利空調顯示運行限制中什么意思開利空調運行限
2024-09-12