作為數字檔案館建設的重要內容,北京市昌平區檔案館數字資源建設向“新”而行,以“質”致遠,在數字資源建設中厚植新質生產力,為檔案數字化高質量發展提供強勁動力。
一是應用智能OCR技術,對重要的手寫體檔案進行全文識別,加之人工校驗,生成可進行深度開發利用的檔案全文數據,為手寫體檔案全文數據提取開辟新的路徑。二是引入人工智能應用,利用卷積神經網絡等算法進行表征學習,自動對手寫體原文圖像進行坐標識別和標注,并用特征提取算法提高準確性。三是利用應用平臺,將標注后的手寫體副本與識別后的全文進行精準貼合,生成標準的雙層版式文件,為后續的數據挖掘和開發利用打下數據基礎。
目前,區檔案館已完成20萬余頁重要手寫體的全文識別,并生成了高質量的版式文件。隨著數字檔案館項目的持續推進,區檔案館將繼續加快智改數轉步伐,力爭建設昌平檔案新質生產力的新陣地,以重要環節的技術應用帶動全局,不斷塑造檔案數字資源建設的新優勢和新動能。