北京市昌平區數字檔案館項目自立項建設以來,始終錨定“高水平數字檔案館”目標,守正創新、攻堅克難,目前已完成項目初驗,整體進入試運行階段。項目超前引進大語言模型、智能OCR識別等新質技術,聚力開發自動著錄、跨模態檢索、智慧編研等行業首創功能,并在全區范圍落地推廣,打造昌平檔案數字轉型“硬核”成果,為昌平區全面加快“四區”建設貢獻更多檔案智慧和力量。
一是實現降本增效,開發檔案整理自動著錄。為提高全區各單位歸檔效率,踐行檔案部門為基層減負,區檔案館在檔案管理系統(“昌平區數字檔案一體化平臺”)中嵌入檔案自動著錄功能模塊,實現著錄信息智能判斷、智能糾錯、著錄項智能填報。各單位檔案工作人員可通過系統上傳檔案數字化副本,系統自動進行文字識別后通過Al算法模型進行分析,自動提取生成題名、年度、責任者、文件日期、文號等關鍵信息,并在系統中自動生成檔案目錄。
二是集約資源建設,構建全域檔案全文數據庫。為更好地推動全區檔案工作數字化轉型,區檔案館在“昌平區數字檔案一體化平臺”中嵌入智能OCR文檔引擎模塊,實現各立檔單位檔案全文檢索,極大提高室藏檔案的檢索精度和利用效率。同時,將各室藏檔案全文數據倉、館藏檔案數據倉“匯聚”,構建全區檔案全文數據庫,為昌平檔案數據資源的深度開發利用、共享提供堅實的數據底座。
三是堅持創新制勝,實現館藏數據跨模態檢索。區檔案館在部署于局域網內的“館藏檔案資源一體化平臺”上搭建基于智能OCR、大數據、語音識別等技術的跨模態檢索模塊,開發館藏檔案的全文檢索、以圖搜圖、以文搜圖、音頻檢索、視頻檢索等跨模態檢索利用功能,破除傳統檢索功能局限,打通文檔、照片、音視頻數據界限,實現館藏文檔、音視頻、照片全文的多維度、全方位一鍵搜索,進一步提升了檔案利用質效,真正做到了館藏檔案管理的智慧化和檢索的智能化。
四是緊扣智能服務,實現智慧輔助檔案編研。為加強館藏檔案的深入編研,促進生成更多內容豐富、形式多樣的編研成果,區檔案館在“館藏檔案資源一體化平臺”建設中,應用“知識庫+大語言模型”,開發了智慧輔助編研系統。系統能夠自動完成事件抽取和文本摘要,形成事件抽取庫和文本摘要庫,并根據編研需求自動從庫中抽取信息,生成編研成果,實現算力換人力,提高編研工作效能,推動編研工作的智能化轉型。
五是拓優資源整合,集約開展網頁檔案在線采集。為更好地服務全區各網站主辦單位網站網頁歸檔工作需求,區檔案館研究開發了“昌平區網站網頁電子文件采集系統”,為全區各單位網頁歸檔工作提供免費的、統一規范的網頁電子文件采集渠道,各單位在開展網頁檔案歸檔工作時,都可集約使用該系統,無需再投入成本自行開發網頁采集系統。同時,該系統實現了與“區數字檔案一體化平臺”對接,系統將自動采集到的網頁電子文件定時推送到一體化平臺中,實現網頁電子文件的在線歸檔。