狠狠躁夜夜躁人人爽超碰97香蕉|色婷婷日日躁夜夜躁|亚洲一区欧美一区在线播|久久久久久性高|伊人久久大香线蕉亚洲

歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務平臺

24小時家電維修熱線:

400—1558638

當前位置:主頁 > 空調 > 維修資訊 >

免費開放390部經典,未來3年整理上萬本古籍,這座圖書館上線了測試版

發布日期:2022-10-12 18:04:21 瀏覽:
免費開放390部經典,未來3年整理上萬本古籍,這座圖書館上線了測試版

#北大聯合字節上線免費古籍閱讀平臺#

近日,由“北京大學-字節跳動數字人文開放實驗室”研發的古籍數字化閱讀平臺“識典古籍”測試版正式上線。該平臺涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。

在很多人的印象里,古籍文本往往艱澀難懂,而且接觸機會不多。在數字時代,這種情況正在發生轉變。借助現代技術對典籍進行數字化呈現,將卷帙浩繁的古代典籍“復活”,讓那些塵封已久的字符重新跳動起來,成為每個人觸手可及的工具與資料庫。

近年來,OCR(光學文字識別)、AI(人工智能)句讀和知識圖譜等技術的快速發展讓古籍數字化有了更多可能。一些科技公司與專業機構和科研院校合作,將技術優勢與專業知識進行有效打通與融合,積累了較為成熟的技術和經驗。

這些技術支撐起如今的“識典古籍”測試版,也成為更多古籍數字化的起點。未來三年內,“北京大學-字節跳動數字人文開放實驗室”將陸續完成10000種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄。

“識典古籍”測試版網站首頁

為什么古籍保護需要更開放?

古籍作為中華民族文化傳承的重要渠道之一,記載了大量中華民族文化形態和發展歷史。但由于朝代更迭、戰爭、自然災害以及年代久遠等原因,大量古籍已流失或毀壞。2007年,“中華古籍保護計劃”開始實施,迄今已有15年。

經過全國古籍普查,每部古籍都擁有了一張“身份證”,研究人員還發現了包括《永樂大典》“湖”字冊在內的一批珍貴文獻。收藏環境方面,全國1000余家古籍收藏單位的庫房條件有所改善,超過2000萬冊/件古籍得到妥善保護。

古籍修復師在工作

而在2022年的當下,人們閱讀古籍和查找資料的習慣和場景越來越多地轉移到線上。同時,普通讀者對于古籍的關注度也在不斷上升。今年初,98歲的古籍版本目錄學家沈燮元因為一部紀錄片,受到廣泛關注,在網絡走紅。

在抖音上,國家圖書館副館長、國家古籍保護中心副主任張志清,國家圖書館古籍修復專家杜偉生、故宮書畫修復專家沈洪彩等,通過短視頻的形式介紹傳統經典作品的保護與修復工作,讓更多人了解到其中的知識和意義。

然而,古籍保護工作仍然任重道遠。據“識典古籍”項目負責人介紹,目前亟需修復的古籍數量達到1000萬冊/件。20萬種古籍中,已有8萬種完成影像數字化掃描,近4萬種完成文本數字化。古籍修復人力成本很高,培養一名專業修復人員需要極高的時間成本,而古籍數字化工作也面臨資金缺口大、技術難度高等困難。

在社會各界的努力下,一批數字化古籍平臺涌現出來,包括中國哲學書電子化計劃(Chinese Text Project)、書同文古籍數據庫等等。這些平臺有著各自的優勢,但也有不同局限。書同文古籍數據庫收費較高,普通讀者無法隨時隨地進行查閱和使用。中國哲學書電子化計劃目前囊括了超過三萬部著作,但未能解決一個基本問題,用戶常常無法訪問。

在這樣的背景下,更加開放的合作與探索開始出現。

開放合作下的新趨勢

在文物保護與傳承的過程中,文保機構、科研院校與科技公司的跨界合作越來越普遍,珍貴古籍、專業團隊、先進技術由此得以匯合。2018年,半導體公司英特爾與中國文物保護基金會合作,啟動了利用3D建模與AI識別修復長城的項目。2021年3月,騰訊聯合敦煌研究院開發了AI病害識別技術,用于壁畫修復與保護。

2021年5月,阿里巴巴公益基金會聯合四川大學、美國加州大學伯克利分校、中國國家圖書館等,推出“漢典重光”古籍平臺,讓一批珍藏于加州大學伯克利分校的中文古籍善本,以數字化的形式回歸。該平臺涵蓋的古籍數量為20萬頁。

從2021年6月開始,字節跳動聯合國家圖書館等機構、中國文物保護基金會等,在古籍修復、活化和數字化等領域開展了一系列合作,包括捐資1000萬元,聯合成立古籍保護專項基金等,定向修復百余冊件珍貴古籍。

字節跳動古籍保護專項基金啟動現場

2022年3月17日,北京大學與字節跳動合作成立“北京大學-字節跳動數字人文開放實驗室”,致力于研發開放的“古籍數字化平臺”,將人工智能和大數據應用在海量的古籍文獻上,實現對古籍內容的智能化整理和古文本知識圖譜的自動生成。

近期上線的“識典古籍”平臺測試版,便是這一合作的最新進展。據項目負責人介紹,該平臺主要使用了三種技術,即文字識別、自動標點、命名實體識別。

文字識別技術,是對古籍的影印版文字進行單個切分、文字識別、順序識別。自動標點技術,是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別,則是通過序列標注識別古籍文本中的命名實體,支持識別人名、地名、書籍、時間、官職等信息。目前行業內OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。

同時,這些先進技術也離不開人的支持。北京大學數字人文研究中心主任王軍表示,北大在這次合作中聯合各大高校學者和文獻專家,負責人工審核與校對,彌補人工智能有識別錯誤率的短板,并利用自有學術平臺,連接更多專業研究者和學生群體。

該平臺測試版已免費向所有用戶開放,在數字化文本內容之外,提供足夠權威的影印底本作為參照,同時提供主題詞檢索和繁簡體轉換功能,方便專業研究人員、古籍愛好者以更加高效便利的方式獲取古籍內容。同時,“識典古籍”測試版也存在一些不足,比如典籍數量相對較少,標點錯誤率還需進一步降低。

“識典古籍”測試版頁面

接下來,“北京大學-字節跳動數字人文開放實驗室”計劃通過人工智能技術,實現全自動整理校對,借助全社會的力量,更高效地實現存量古籍全部數字化。同時,“識典古籍”還將向全社會開放古籍閱讀檢索研究能力,助力古籍文化傳承和傳統文化研究。

編輯:段雅露

主站蜘蛛池模板: 国产做国产爱免费视频| 欧美日韩日本一区二区三区 | 亚洲国产精品久久电影欧美| 国产精品久久久久久52avav| 国产精品无码制服丝袜网站| 99欧美精品一区二区| 亚洲国产午夜精品理论片在线播放 | 伊人精品无码一区二区三区电影| 国产精品久久久久久超碰 | 又黄又爽又无遮挡免费的网站| 久久国产福利国产秒拍飘飘网| 国产三级精品三级在线观看| 激情五月综合色婷婷一区二区 | 欧美国产精品一区在线| 国产suv精品一区二区8| 国产亚洲产品影市在线产品| 99久久亚洲精品日本无码| 人妻系列av无码专区| 国产黄色网一区| 45分钟免费真人视频| 久久欧美一区二区三区性牲奴 | 人妻无二区码区三区免费| 国产人妻大战黑人20p| 4455成年人电影一区二区三区| 国产精品无打码在线播放| 亚洲国产精品一区二区久久hs | 无码无遮挡又大又爽又黄的视频| 国产精品不卡一区二区三区四区| 精品无码久久久久久久久| 日本二区三区欧美亚洲国| 毛茸茸的中国女bbw| 开心五月色婷婷综合开心网| 国产av久久久久精东av| 国产在线精品一区二区中文 | 国产乱子伦精品视频| 自偷自拍亚洲综合精品第一页| 亚洲最大的成人网| 亚洲一区二区三区四区视频| 国产自偷自偷免费一区| 波多野结衣乱码中文字幕| 国产精品白丝av在线观看播放|