2016年11月底,湘潭市誠信平臺二期工程——互聯網信用信息采集子平臺正式部署完畢。
互聯網信用信息采集子平臺可根據用戶自定義的任務配置,批量而精確地抽取互聯網目標網頁中的半結構化與非結構化數據,轉化為結構化的記錄,保存在本地數據庫中,通過數據處理和加工,使之形成有效的信用信息,拓展誠信平臺數據來源。
該系統主要實現了三大功能:一是系統的爬蟲采集功能。通過爬蟲技術自動抓取全國權威信用發布平臺的、和湘潭本地企業、自然人有關的信用數據,系統從一個或若干初始網頁的URL開始,獲得初始網頁上的URL。所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的數據檢索和數據處理。二是用戶的定制采集功能。用戶可選擇相關權威的信用信息發布平臺,指定欄目進行信息自動抓取,系統根據用戶設定的規則自動解析源網頁,獲取格式網頁中需要的內容,并按照設定的規則數據入庫,系統可配置時間定期抓取目標網站,采集記錄建立唯一索引,避免相同信息重復入庫。三是平臺的數據處理比對功能。對來自各個網站的信用信息進行梳理、清洗、處理,形成有效、準確的信用信息數據庫,同時通過企業注冊號、身份證號碼等唯一標識和湘潭本地的法人、自然人進行數據比對,建立數據關聯。
湘潭市信用信息采集系統是服務于整個社會信用體系的數據采集與共享平臺,該系統的成功部署,為湘潭市誠信平臺的數據拓展提供重要來源,為單位及個人的信用行為、開展信用服務提供了重要的技術手段,為政府部門的政務信息公開提供了重要渠道。