全國累計在線發(fā)布古籍數(shù)字資源13萬部（件）數(shù)字化助古籍走出“深閨高閣”

來源： 2023-01-30 點擊：

為查閱古籍文獻，要出差到各地，探訪各家圖書館——這是許多古籍研究者的共同記憶。在數(shù)字時代，這種情況正發(fā)生改變。國家圖書館（國家古籍保護中心）等６家單位近日在線新增發(fā)布古籍數(shù)字資源６７８６部（件）。至此，全國已累計在線發(fā)布古籍數(shù)字資源１３萬部（件）。依托數(shù)字化手段，卷帙浩繁的古籍走出“深閨高閣”，讓文明觸手可及。

兼顧“藏”與“用”

古籍，作為文物必須保護，作為文獻必須為讀者所用。兼顧“藏”與“用”，一直是古籍保護工作的重點，而數(shù)字化是最好的方法。中國古籍數(shù)字化起步于２０世紀９０年代。隨著數(shù)字技術不斷成熟，科技賦能古籍工作取得可喜進展。

“２０１６年國家圖書館搭建起‘中華古籍資源庫’平臺，發(fā)布了普通古籍、甲骨、敦煌文獻等數(shù)字資源，并全部實現(xiàn)免登錄在線閱覽?！眹覉D書館副研究員南江濤介紹，國家圖書館還聯(lián)合海內外收藏機構發(fā)布“法藏敦煌遺書”“天津圖書館古籍”“云南省圖書館古籍”等，基本搭建“國家古籍數(shù)字平臺”架構。

隨著“中華古籍保護計劃”深入開展，各地圖書館陸續(xù)投入人力物力，大力推進古籍數(shù)字化。國家圖書館先后聯(lián)合３９家單位發(fā)布數(shù)字古籍，１月４日是第７次聯(lián)合發(fā)布，其中不僅包含明清版刻，還有碑帖拓本等特色資源。相關數(shù)據(jù)顯示，在現(xiàn)有的１３萬部（件）數(shù)字古籍中，超過１０．２萬部（件）歸屬于“中華古籍資源庫”。

“這１３萬部（件）古籍數(shù)字資源，對于我們研究者來說格外珍貴?！北本┐髮W中文系教授楊海崢感嘆，在線查閱免去了往返奔波圖書館的時間，平衡了古籍的文物性與文獻性。

ＡＩ助力古籍整理

把紙質古籍轉化成數(shù)字文本，只是古籍保護的第一步?！艾F(xiàn)有的數(shù)字古籍大多由縮微膠片轉換而成，分辨率低，使用也不方便?！睏詈樑e例解釋，這類古籍通常不具備檢索功能，想查閱某個內容，需逐篇逐頁閱讀原文，很難快速找到想要的知識。

人工智能的快速發(fā)展，為數(shù)字古籍的整理分類帶來革命性變化。２０２２年１０月，由字節(jié)跳動與北京大學數(shù)字人文研究中心合作研發(fā)的數(shù)字古籍平臺“識典古籍”便是一個生動案例。

進入“識典古籍”的網(wǎng)站，記者看到《周易》《左傳》《禮記》等陳列于首頁上。隨機點開一本，左側為章節(jié)目錄，右側為正文，排版形式既順應現(xiàn)代人的閱讀習慣，又還原了古籍紙張的閱讀美感。

“與一些數(shù)字化平臺不同，‘識典古籍’是完全免費的，而且增加了簡繁體轉換、底本影像對照、全文檢索等一系列便捷功能。”抖音集團企業(yè)社會責任部產(chǎn)品總經(jīng)理唐塏鑫介紹，該平臺主要應用了文字識別、自動標點和命名實體識別這３種技術，不僅能將影印本上的文字提取整理，還能通過序列標注識別文本中的人名、地名等信息，準確率達到９６％至９７％。

“平臺已整理上線了６８５部經(jīng)典古籍，共計７９００多萬字，主要來自《四部叢刊》。”唐塏鑫說，“識典古籍”已上線手機移動版，未來平臺中的書目將持續(xù)更新。

業(yè)內人士預測，隨著ＡＩ技術的運用，古籍文獻中所蘊藏的古代歷史文化知識將不斷被抽取，構造成各種各樣的知識庫，并將以知識圖譜的形式支持互聯(lián)網(wǎng)前端應用。

跨界合作成趨勢

事實上，在“識典古籍”上線之前，文保機構、科研院校與互聯(lián)網(wǎng)公司的跨界合作已越來越普遍。比如，騰訊聯(lián)合敦煌研究院開發(fā)了ＡＩ病害識別技術，幫助“問診”敦煌千年壁畫。

由于在產(chǎn)品研發(fā)、設計方面存在優(yōu)勢，互聯(lián)網(wǎng)公司等社會力量的加入會進一步保障古籍數(shù)字化平臺的服務質量?！拔覀冇袃?yōu)秀的產(chǎn)品經(jīng)理、設計師、軟件工程師，能夠不斷優(yōu)化數(shù)字古籍平臺的產(chǎn)品功能?！碧茐N鑫說。

“識典古籍”的誕生離不開專家學者支持。北京大學數(shù)字人文研究中心主任王軍表示，北大在這次合作中負責人工審核與校對，彌補人工智能有識別錯誤率的短板，并利用自有學術平臺，連接更多專業(yè)研究者和學生群體。

專家認為，在古籍整理中，人文社科學者要積極介入，并加強與技術人員的合作，那樣才能更好地利用機器而不是被機器牽著鼻子走，從而保證結果的準確性。

“高校古典文獻學等相關專業(yè)如何培養(yǎng)兼具技術與學術能力的復合型人才、如何形成多學科交叉的課程體系等，都是需要綜合考慮的問題?！蓖踯娬f。

全國累計在線發(fā)布古籍數(shù)字資源13萬部（件） 數(shù)字化助古籍走出“深閨高閣”

全國累計在線發(fā)布古籍數(shù)字資源13萬部（件）數(shù)字化助古籍走出“深閨高閣”