《基于文檔型非關系型數據庫的檔案數據存儲規范》(以下簡稱《規范》)(DA/T 82—2019)由國家檔案局于2019年12月16日發布,2020年5月1日起正式實施。《規范》規定了使用文檔型數據庫存儲檔案數據的總體要求,提出了使用文檔型數據庫存儲和管理檔案數據的基本功能和實施方法,適用于各級各類檔案館、機關、團體、企事業單位對檔案數據的存儲。
編制背景
隨著數字檔案館(室)建設的推進,館藏傳統載體檔案數字化普遍開展。2018年,國務院發布了《國務院關于加快推進全國一體化在線政務服務平臺建設的指導意見》,“互聯網+政務服務”“一網通辦”在全國深入推進,檔案館面臨最直接的問題就是如何高效、快速、敏捷地對接各種業務系統,并且完整地收集、歸檔、保存各類業務數據。
目前,我國檔案部門大都采用關系型數據庫存儲和管理檔案數據。關系型數據庫對數據的規范性要求高,能夠很好地管理和存儲結構化數據,但對數據結構復雜類型多樣的非結構化數據的存儲和管理存在諸多局限。據統計,檔案數字資源中非結構化數據占據絕大部分,未來還將出現爆炸性增長。有效存儲、管理、利用非結構化數據是檔案工作者必須面對的課題。歷時3年,國家檔案局檔案科學技術研究所于2016年完成了“基于非關系數據庫的電子檔案存儲規范研究及系統實現”國家檔案局科技項目,在該項研究成果的基礎上,向全國檔案工作標準化技術委員會提交了《規范》的立項申請,旨在解決大規模檔案數據集合多重數據種類帶來的挑戰,優化檔案數據存儲,推動檔案數據科學管理。《規范》被列入2017年檔案行業標準制修訂項目計劃。
編制思路
《規范》主要以問題與需求為導向,充分考慮檔案數據體量大且增長快、類型繁多且結構復雜的特點,切實從我國檔案數據管理實際需要出發,詳細闡述文檔型非關系型數據庫存儲和管理檔案數據的技術要求、基本功能和實施方法。注重適用性、規范性、開放性、互補性,著重先進性與可操作相結合,使其利于實施。
主要內容解讀
《規范》分10章和2個資料性附錄,涵蓋了使用文檔型數據庫存儲檔案數據所涉及的各個工作環節,構成一個內在關聯的整體,能夠起到規范使用文檔型數據庫存儲檔案數據的作用。
1. 術語與定義
《規范》規定的“內容數據”“非關系型數據庫”“文檔型數據庫的拆分”以及“文檔型數據庫的合并”術語和定義屬于國內外首次提出。
2. 文檔型數據庫字段
《規范》提出的字段類型是為了適應不同的內容數據格式以及元數據需要。文檔型數據庫字段類型包括字符串、數值、日期、時間、文本、二進制等,其中文本字段用于存儲文本中的句子和段落,包括從電子文件中抽取的文字信息(或稱文本數據),二進制字段用于存儲任何類型的字符,包括ASCII字符以及圖像、視頻、音頻等二進制數據。文檔型數據庫允許創建不同類型的字段,存儲任意格式的數據。采用文檔型數據庫,能夠簡單地將不同類型、不同格式的檔案數據裝入數據庫或映射到數據庫。
3. 文檔型數據庫存儲
《規范》提出,文檔型數據庫的存儲對象是內容數據和元數據(含目錄數據)。內容數據是電子檔案和傳統載體檔案數字化副本的固有信息。存儲方式之一是將內容數據和元數據全部裝入數據庫,按照與元數據的匹配關聯關系,內容數據存儲在二進制字段中,不是掛接在數據庫上;多種格式的內容數據可裝入同一數據庫,不同記錄(行)的內容數據的格式可不同;同一條記錄可存儲一個或多個內容數據,同一條記錄(行)中多個內容數據的格式可不同,這些是文檔型數據庫存儲內容數據的顯著特點,也是《規范》制定的重點之一。關系型數據庫的優勢在于能夠很好地管理和存儲結構化數據。鑒于關系型數據庫和文檔型數據庫各自的特點和優勢,檔案部門可以將文檔型數據庫、關系型數據庫共同作為檔案數據存儲和管理的工具。
4. 文檔型數據庫的拆分與合并
當內容數據全部載入數據庫,數據庫會迅速變大。當數據庫容量超過備份介質容量時,就難于對數據庫整體進行備份,需要將數據庫拆分成若干個小容量的數據庫才能進行備份,數據庫拆分是《規范》制定的另一個重點。《規范》給出了文檔型數據庫拆分的確切定義:一個數據庫被分成若干個數據完整的子數據庫。數據庫拆分的方法是以數據庫中的記錄為單位進行拆分,通過數據庫中的記錄號、記錄的容量或檢索和統計分析從原數據庫中提取相應的記錄,按順序將記錄導入各子數據庫。每一條記錄是一組完整的相關信息,包括內容數據及元數據,保證子數據庫中各記錄的關聯數據完整。數據庫拆分可以部分拆分,數據庫拆分生成的子數據庫結構與原數據庫結構可以不同。
數據庫合并是數據庫拆分的逆操作,是若干個子數據庫合成一個數據完整的數據庫。數據庫合并的方法是以子數據庫中的記錄為單位進行合并,通過各子數據庫中的記錄號、記錄容量或檢索和統計分析從各子數據庫中提取相應的記錄,按順序將記錄導入一個數據庫。數據庫合并可以合成子數據庫中的部分,記錄數據庫合并形成的數據庫結構與子數據庫結構可以不同。
5. 數據庫備份與還原
文檔型數據庫備份的內容應包括數據庫數據、數據庫結構和數據庫定義文件,應按照數據庫結構(字段)備份數據庫數據。離線備份是文檔型數據庫備份的重要方法,是《規范》制定的第三個重點。離線備份的存儲介質有磁盤、固態硬盤、光盤等,其存儲容量有限。當數據庫容量大于備份介質容量時,需要將數據庫拆分成容量小于備份介質容量的若干個子數據庫,每個子數據庫結構與原數據庫結構相同,且保證各子數據庫中記錄的關聯數據完整,然后將各子數據庫分別備份到備份介質上。采用這種拆分備份數據庫的方法,可以直接在子數據庫中完成該記錄范圍的數據檢索和查詢,不需要對同一記錄的不同字段數據在各子數據庫間進行數據檢索,保持了各子數據庫的數據完整性。同時,保留原有的訪問控制策略,保證了原數據庫的完整性。當數據庫的容量小于備份介質的容量時,無需對文檔型數據庫做任何處理,直接對數據庫整體進行復制備份即可。
針對數據庫拆分備份的數據庫還原,《規范》提出合并還原的方法:(1)在新建數據庫系統合并全部子數據庫數據,然后將合并形成的數據庫數據還原到原數據庫系統。(2)在原數據庫系統中合并還原全部子數據庫數據。
6. 檢索與統計分析
隨著信息技術的發展和檔案數據利用的需要,利用檢索和統計分析從數據庫中提取相應的記錄進行數據庫拆分和數據庫合并,《規范》提出2個資料性附錄:檢索和統計分析。
(1)檢索
檢索的內容包括:中文自動分詞與中文分詞詞典、索引、檢索。為提高文檔型數據庫中檔案數據的查準率和檢索速度,實現對中文內容的統計分析,應對內容數據和元數據的中文信息進行中文自動分詞,并根據不同的檔案門類編寫相應的中文分詞詞典。中文分詞詞典是詞的集合,中文自動分詞是一種基于規則和詞典并能夠自動進行分詞的方法。規則教系統如何讀數據,詞典告訴系統所讀數據是不是一個單詞。在檔案數據裝入數據庫時自動調用分詞程序,在入庫的同時掃描入庫字串,將其切分成供查找和統計分析應用的中文單詞。
隨著《紙質檔案數字復制件光學字符識別(OCR)工作規范》的發布實施以及電子檔案管理日漸成熟,為檔案數據全文檢索奠定了基礎。全文索引是檔案數據快速檢索的有效手段。內容數據裝入數據庫時抽取的文字信息存儲在文本字段,對文本字段每個字、詞、詞莖進行全文索引。
中文詞匯中有許多同義詞,典型的例子是政府部門大多有現用名稱、多個曾用名稱和簡稱,如果用其中一個名稱作為檢索詞查找,會嚴重影響檔案數據的查全率;如果用全部名稱和簡稱作為檢索詞查找,需要采用邏輯“或”,即設置多個檢索條件進行檢索,這會影響檢索效率。為保障檔案數據的查全率、查準率,提高檢索質量和檢索效率,詞表檢索是強有力的手段。詞表檢索是用詞表庫中的詞及詞之間的邏輯關系對數據庫中的文字信息進行檢索。邏輯關系包括:主詞(控制詞)、同義詞、廣義詞、狹義詞和相關詞,它們既可以是中文的詞,也可以是其他語種的詞。政府部門的現用名、曾用名稱和簡稱屬于同義詞,如果用其中一個名稱作為檢索詞查找,會用全部同義詞進行查找。
(2)統計分析
檔案數據的統計分析對象是內容數據和元數據的文字信息,能夠按照字段類型進行統計分析。字符串字段統計分析是對整個字段內容和字段中的詞匯(包括詞、單字、數字等)分別進行統計分析,例如:對歸檔部門、題名、發文單位、責任者進行統計分析,獲得歸檔部門、題名、發文單位、責任者的數量和分布。文本字段統計分析是對文本字段中的詞匯進行統計分析,給出不同詞匯出現的頻度和記錄數,例如:統計分析不同年份或不同時期國家檔案局優秀科技成果材料中不同詞匯出現的頻度。
《規范》確定采用文檔型非關系型數據庫存儲和管理檔案數據的技術要求、基本功能和實施方法具有很強的技術指導性和可操作性,為檔案部門優化檔案數據存儲、推動檔案數據科學管理提供了有力支撐。同時,《規范》填補了相關標準的空白,對順應在線政務服務的趨勢、主動對接政府數字化轉型、實現單套制歸檔單軌制管理目標具有重要的現實意義。
作者單位:國家檔案局科研所