浙江大學“智慧古籍平臺”。 童笑雨 攝
浙江大學上線了“智慧古籍平臺”。據(jù)悉,該平臺的建設為讀者掃除古代文獻閱讀障礙,打造了古籍閱讀、整理和研究的新范式。
中華上下五千年的典籍,記錄著中華民族寶貴的文化密碼。浙江大學教授徐永明及其團隊多年來致力于文史大數(shù)據(jù)結構化和智慧化建設。
從2018年的“學術地圖發(fā)布平臺”到2020年的“智慧古籍平臺”,該團隊通過一項項學術進展,讓收藏在禁宮里的文物、書寫在古籍里的文字“活起來”。
據(jù)介紹,“智慧古籍平臺”綜合運用大數(shù)據(jù)的計量統(tǒng)計、定位查詢、聚類查詢、空間分析、數(shù)據(jù)關聯(lián)等技術,將中國古典文獻和研究成果圖譜化、智能化。
記者看到,只要點擊“智慧古籍平臺”首頁的“著述導覽”頁面,便可查閱著述的章節(jié)目錄、著述提要等基本信息及相關作者的世系圖、社會關系圖;點擊“篇目導覽”即可進入文本閱讀界面。
為提高文本的準確性,減少閱讀時頻繁查閱相關資料的工作量,該平臺還提供了古籍圖片與古籍數(shù)字化文本一一對應的功能和關鍵字詞釋義功能。
如文本中的重要信息及疑難詞已按人名、地名、時間、典故等不同類型以不同顏色顯示,點擊即可查看不同類型的釋義。同時,“智慧古籍平臺”與學術地圖發(fā)布平臺相連接,點擊“著者詳情”,即可查看所連接的人物行跡圖。
看似便利的閱讀體驗,離不開前期的重重把關。據(jù)介紹,上傳到“智慧古籍平臺”的文獻資料將經(jīng)過OCR識別、機器標點、人工校對、專家審核、機器標引、標引審核等程序,審核無誤后,才能在前臺發(fā)布。
OCR識別即“光學字符識別”技術。該技術能較為精確地識別版刻古籍,將圖像中的文字轉換成文本格式。同時,憑借機器古籍標點技術,可在古籍文本上自動標注現(xiàn)代中文標點符號,兩者的準確率都達90%以上。
在古籍整理上,該平臺利用眾包技術,在中國乃至世界范圍內遴選和組建專業(yè)團隊,突破團隊人員數(shù)量和地域的限制,完成線上古籍整理。
該團隊相關負責人表示,該平臺的建設,將進一步推進古籍數(shù)據(jù)資源的整合和開放共享,改變“數(shù)據(jù)在中國,數(shù)據(jù)庫在國外”的局面,在為讀者掃除古代文獻閱讀障礙,推動古籍閱讀普及化的同時,激活學者的研究成果,突破學術圈的壁壘,將前沿的學術研究成果轉化為社會大眾共享的文化資源。
作者:童笑雨
資料來源:中國新聞網(wǎng)