最好看的2019中文大全,国产精品亚洲一区二区入口,国产日韩91,V片免费看

· 國家檔案局主管· 中國檔案雜志社主辦1951年創刊歡迎來到中國檔案網 !2025年08月19日    星期二

企業直通車

漢王推出新一代人工智能檔案大數據處理平臺

作者:北京漢王數字科技有限公司 來源:中國檔案網 發表時間:2022-06-08 分享到:

(一)創新創造

漢王新一代人工智能檔案大數據處理平臺,重點包含檔案高精度全文識別、檔案數據結構化抽取等。該平臺實現了多項技術創新:

(1)強噪聲干擾下的字符識別技術,如復雜背景干擾、強噪點干擾、字跡模糊、筆跡斷裂、低分辨率、下劃線、著重符號等。

(2)復雜版式、復雜表格、復雜字體的識別技術。

(3)針對自由書寫的字體和老舊檔案中的油印、鉛印體,進行高精度識別的手寫體、油印體、鉛印體的字符識別技術。

(4)針對老舊檔案中的各類型復雜密級章、歸檔章進行智能檢測和內容識別。

(5)復雜公章檢測及字符識別技術。

(6)智能檢測各類型公章,并識別公章內容。

(7)基于語義理解的知識要素提取技術。

(8)針對非結構化文本數據,進行實體抽取、關系抽取、屬性抽取。

檔案數據結構化抽取技術和重度噪聲干擾下字符識別效果如圖1-1和圖1-2所示。


1654691424933663.jpg

圖1-1 檔案數據結構化抽取技術


1654691463838411.jpg

圖1-2 重度噪聲干擾下字符識別效果


該平臺最大的模式創新和關鍵點就是 AI替代人工。將原本需要 100個人做2年的工作,減少為10個人做半年。

新一代人工智能檔案大數據處理平臺(見圖1-3),利用 AI深度學習、模式識別及NLP,基于云計算架構面向政企提供智能圖文服務。該平臺集成檔案全文識別、表格識別、卡證識別、印章(密章)識別、版式分析、圖像識別等幾大核心,作為數據挖掘和利用的基礎性條件,為紙質數據和圖像數據的形態轉換提供了有力的技術能力支撐,深度賦能業務場景與數據價值挖掘。同時,該平臺使用基于微服務的架構模式,支持內網快速私有化部署,為用戶構建私有識別云平臺。該平臺對手寫體的識別準確率在95%以上,對印刷體的整體識別準確率在99%以上。


1654691506798683.jpg

圖1-3 新一代人工智能檔案大數據處理平臺


該平臺展現出了三大核心優勢:強大的識別能力,先進的云架構,場景化的解決方案構建。

(二)創新動能

新一代人工智能檔案大數據處理平臺基于全卷積神經網絡(FCN)提取特征序列,實現全局特征與局部特征聯合,可以較好地解決版式復雜噪聲嚴重的檔案圖像的文字定位于檢測。該平臺采用長短時循環神經網絡(KLSTND) 作為序列學習。嵌入時序特征,有效建模序列內部關系,解決版式復雜,噪聲嚴重的檔案圖像的單字符切分與識別問題。

基于以上技術構建的OCR,全文識別引擎對于任意掃描的檔案圖像都能夠自動定位文字區域,并自動辨認文字類型(手寫體或印刷體),然后準確識別文字,輸出識別結果,能夠在帶背景噪聲的情況下定位文字區域,綜合大量樣圖實測,平均識別準確率可超過 95%

漢王OCR技術同時在少數民族語言中廣泛應用,尤其在滿文、藏文、維文等少數民族檔案的識別方面最為突出,平均識別準確率可超過98%以上。

(三)應用場景

上海市城市建設檔案館是上海市城市建設檔案的存儲、利用、交流和技術咨溝服務中心。目前,建設檔案管理上存在兩大問題:一是千萬量級的電子檔案大多是TIFF圖像格式存儲(或可識別但識別準確率不高),非文本化的數據也無法適應國家大數據戰略的需要。二是大量電子檔案中混雜密級件,對外開放查詢后存在嚴重的泄密隱患。

針對上海市城市建設檔案館實際問題,漢王推出“智能機器人解決方案”,通過新一代OCR技術獲取高精度的檔案全文內容,同時利用NLP技術智能分析檔案的涉密情況,將密級件自動挑選出來。該解決方案已經在上海市城市建設檔案館成功實施,大幅度提升了館方的檔案信息化利用水平,縮短了整個項目的進程,為國家節省了大量資金。

面向未來,漢王將會在全國的檔案行業進行方案推廣,重點涵蓋綜合檔案館、城市建設檔案、醫療檔案、政法檔案、戶籍檔案、車籍檔案、人事檔案、不動產登記檔案、企業登記檔案等細分領域。每個細分領域都是一個巨大的市場。以綜合檔案為例,全國4200多家綜合檔案館,館藏量巨大,大部分檔案館僅僅做了掃描工作,檔案圖像的利用效率非常低,急需有效的解決方案。

(四)基本情況

北京漢王數字科技有限公司(簡稱:漢王數字),是漢王科技股份有限公司(股票代碼:002362)的全資子公司,承繼漢王科技領先的人工智能、大數據服務的核心能力,以自然語言理解、人工智能交互、模式識別等核心技術為基礎,為檔案行業客戶提供檔案數字化、數據化、知識化、智慧化應用的完整解決方案,具備端到端的自主解決方案能力,是漢王科技布局人工智能與大數據業務生態體系的領航者。

公司總部位于北京中關村軟件園,在北京、天津、上海、杭州、南京、廣州、福州、成都、重慶、武漢、長沙、濟南、沈陽、蘭州等地均部署有業務中心,形成了覆蓋全國的服務網絡。公司不僅具備提供傳統的檔案數字化加工服務、檔案管理系統(包括綜合檔案、干部人事檔案、企業檔案、高校檔案等細分方向)、智能庫房建設、檔案掃描設備、檔案存儲設備等能力,在數字檔案館建設、檔案全文數據化服務、檔案知識圖譜構建與知識庫建設、檔案區塊鏈技術應用等方面,公司更是具備行業領先的技術優勢。

未來,漢王數字將秉承“以AI驅動檔案智慧化的企業價值觀,不斷拓寬產品線和綜合服務能力,為我國檔案事業貢獻出自己的智慧與力量。