統(tǒng)計基礎數(shù)據(jù)庫建設研究
時間:2022-11-24 03:02:23
導語:統(tǒng)計基礎數(shù)據(jù)庫建設研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
山東省統(tǒng)計基礎數(shù)據(jù)庫是在“互聯(lián)網(wǎng)+”政務的時代大背景下提出的面向統(tǒng)計數(shù)據(jù)深度分析的新一代統(tǒng)計大數(shù)據(jù)管理系統(tǒng)。系統(tǒng)可以有效整合現(xiàn)有的所有數(shù)據(jù)資源以及對未來產(chǎn)生的數(shù)據(jù)資源進行更好的管理,形成具備處理百億級統(tǒng)計數(shù)據(jù)的高性能、專業(yè)化統(tǒng)計數(shù)據(jù)分析工作平臺,有利于更好地開展統(tǒng)計數(shù)據(jù)生產(chǎn),建設現(xiàn)代化服務型統(tǒng)計,滿足各級黨委、政府和人民群眾對統(tǒng)計數(shù)據(jù)服務越來越高的要求。伴隨著現(xiàn)代統(tǒng)計業(yè)務的快速發(fā)展,建設“覆蓋全面、調(diào)查準確、核算科學、運作高效”的現(xiàn)代統(tǒng)計體系的要求不斷提高,這就要求統(tǒng)計部門能夠隨時對所掌握的統(tǒng)計數(shù)據(jù)進行大規(guī)模、隨機場景的專業(yè)化統(tǒng)計分析。建設統(tǒng)計基礎數(shù)據(jù)庫能夠幫助統(tǒng)計部門管理海量、多來源異構(gòu)統(tǒng)計數(shù)據(jù),并對數(shù)據(jù)進行多層次的分析和利用,解決當前各級統(tǒng)計部門在統(tǒng)計數(shù)據(jù)管理使用過程中所面臨的以下問題:1)數(shù)據(jù)資源分散,各種來源的統(tǒng)計微觀數(shù)據(jù)、綜合數(shù)據(jù)、宏觀數(shù)據(jù)分散在數(shù)管部門、業(yè)務處室,數(shù)據(jù)資源目錄不清晰,數(shù)據(jù)資源管理困難,大規(guī)模、跨專業(yè)使用困難。2)不同種類的調(diào)查歷史數(shù)據(jù)存儲在固定的硬件設備上,查詢歷史數(shù)據(jù)需要使用相應的軟件系統(tǒng),效率低。年代久遠、硬件損壞、軟件丟失,導致數(shù)據(jù)丟失風險大。3)設管、專業(yè)、數(shù)管、各軟件開發(fā)商對統(tǒng)計調(diào)查元數(shù)據(jù)的術(shù)語不統(tǒng)一,建模方法不統(tǒng)一,導致在數(shù)據(jù)生產(chǎn)的各個流程階段,元數(shù)據(jù)可比性、延續(xù)性差。歷年的統(tǒng)計制度中,元數(shù)據(jù)的口徑變化沒有得到有效管理。4)生成指標時間序列數(shù)據(jù)困難,不能夠方便快速的查看數(shù)據(jù)隨時間的變化情況。5)數(shù)據(jù)交換效率低。數(shù)據(jù)庫系統(tǒng)與分析系統(tǒng)之間進行數(shù)據(jù)交換的能力弱,元數(shù)據(jù)交換質(zhì)量差,主要數(shù)據(jù)文件載體無法直接跨系統(tǒng)使用。統(tǒng)計基礎數(shù)據(jù)庫的建設應具備以下兩大目標:第一,整合各種原始數(shù)據(jù)資源。使用標準化的元數(shù)據(jù)來描述來自不同調(diào)查的原始數(shù)據(jù),使各種格式的原始數(shù)據(jù)都能夠方便的進入到基礎數(shù)據(jù)庫中,同時納入部門宏觀數(shù)據(jù)以及部分微觀數(shù)據(jù),未來根據(jù)分析需求納入企業(yè)數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù),實現(xiàn)對統(tǒng)計數(shù)據(jù)資源的整合和統(tǒng)一管理,方便按時間序列、主題、地區(qū)、行業(yè)等多維度多角度的查詢,使山東省統(tǒng)計數(shù)據(jù)資源都達到可以直接用于分析的狀態(tài)。第二,為統(tǒng)計數(shù)據(jù)分析工作提供支撐。使各種分析應用、分析工具都能夠方便的訪問基礎數(shù)據(jù)庫中的數(shù)據(jù)資源,提高數(shù)據(jù)資源的利用效率,提升數(shù)據(jù)資源的價值。
1總體架構(gòu)設計
基礎數(shù)據(jù)庫的總體架構(gòu)如下,從上至下依次分為數(shù)據(jù)應用展示、數(shù)據(jù)管理服務層、應用支撐層、數(shù)據(jù)資源層以及基礎設施層。1.1數(shù)據(jù)應用展示層。數(shù)據(jù)應用展示層包括元數(shù)據(jù)門戶、數(shù)據(jù)分析子系統(tǒng)、數(shù)據(jù)查詢展現(xiàn)門戶。數(shù)據(jù)應用展示層直接面向數(shù)據(jù)分析用戶,提供包括了元數(shù)據(jù)查詢、數(shù)據(jù)查詢、數(shù)據(jù)分析、數(shù)據(jù)計算等系統(tǒng)核心業(yè)務功能。元數(shù)據(jù)門戶可以查詢和展示基礎數(shù)據(jù)庫中各類元數(shù)據(jù)、元數(shù)據(jù)的關(guān)聯(lián)關(guān)系、元數(shù)據(jù)的屬性信息等。數(shù)據(jù)分析子系統(tǒng)包含兩個部分,分析應用工具集和可視化分析工具。可視化分析工具是基礎數(shù)據(jù)庫提供的基于R語言的集成化數(shù)據(jù)分析環(huán)境。分析工具集是常用的數(shù)據(jù)分析工具的統(tǒng)稱,包括SPSS、SAS、馬克威等。數(shù)據(jù)查詢展現(xiàn)門戶能夠?qū)崿F(xiàn)用戶快速查找、對比數(shù)據(jù)、數(shù)據(jù)圖表展示等。1.2數(shù)據(jù)管理服務層。數(shù)據(jù)管理服務層作為后臺支撐數(shù)據(jù)分析和各種數(shù)據(jù)應用,核心是數(shù)據(jù)資源服務平臺,各種數(shù)據(jù)管理模塊、數(shù)據(jù)應用模塊以組件的方式連接到數(shù)據(jù)資源服務平臺上。數(shù)據(jù)資源服務平臺應用多種先進的數(shù)據(jù)查詢訪問技術(shù)、數(shù)據(jù)緩存基礎開發(fā),集成分析引擎、圖形引擎、報表引擎的多種組件,針對R和其他多種數(shù)據(jù)分析工具定制外部訪問組件。元數(shù)據(jù)管理系統(tǒng)基于DDI標準進行構(gòu)建,主要功能包括元數(shù)據(jù)編輯、元數(shù)據(jù)管理、元數(shù)據(jù)注冊、元數(shù)據(jù)等功能。數(shù)據(jù)整合工具用于數(shù)據(jù)入庫,通過數(shù)據(jù)整合工具,多種源頭的基礎數(shù)據(jù)都能夠匹配上標準的元數(shù)據(jù)被寫入到基礎數(shù)據(jù)庫中。1.3應用支撐層。應用支撐層包括基礎開發(fā)平臺、高性能數(shù)據(jù)加載引擎、混合數(shù)據(jù)訪問引擎、報表工具、公式引擎、圖形引擎等。1.4數(shù)據(jù)資源層。數(shù)據(jù)資源層包括元數(shù)據(jù)庫、整合資源庫、數(shù)據(jù)倉庫和數(shù)據(jù)集市四個大的組成部分。其中元數(shù)據(jù)庫用于支撐元數(shù)據(jù)管理系統(tǒng)存儲和管理元數(shù)據(jù),相對其他三個庫是獨立出來的,元數(shù)據(jù)庫中的內(nèi)容通過元數(shù)據(jù)管理系統(tǒng)進行編輯入庫。整合數(shù)據(jù)資源庫采用NoSQL數(shù)據(jù)庫,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)以及元數(shù)據(jù)、標準化數(shù)據(jù)文件、數(shù)據(jù)描述文件的存儲。整合資源庫的數(shù)據(jù)內(nèi)容,按照元數(shù)據(jù)描述的情況,被打散后逐條保存到數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)根據(jù)元數(shù)據(jù)動態(tài)生成,方便用戶隨時根據(jù)各種條件進行數(shù)據(jù)查詢,支持對海量數(shù)據(jù)的即席查詢和匯總分析。1.5基于大數(shù)據(jù)的基礎設施層。基礎設施基于大數(shù)據(jù)分析架構(gòu)搭建,整合資源庫、數(shù)據(jù)倉庫和元數(shù)據(jù)庫都由分布式數(shù)據(jù)庫、分布式文件存儲系統(tǒng)和應用服務引擎組成,共同為數(shù)據(jù)存儲和數(shù)據(jù)分析應用服務,具備處理海量結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的能力,能夠滿足快速查詢、高性能數(shù)據(jù)運算、復雜數(shù)據(jù)挖掘的需求。
2基于標準的理論模型設計
基礎數(shù)據(jù)庫系統(tǒng)的理論模型可以從業(yè)務模型、元數(shù)據(jù)標準、信息技術(shù)和最終實現(xiàn)四個層面。理論模型研發(fā)設計參照多個國際統(tǒng)計標準,包括GSBPM、GSIM、DDI、SDMX、ISO11179、CSpro等。標準規(guī)范體系按照國家統(tǒng)計局相關(guān)元數(shù)據(jù)標準、國家統(tǒng)計局相關(guān)業(yè)務流程規(guī)范設計,做到完整覆蓋和完美兼容。采用標準體系不但可以提升業(yè)務融合性、數(shù)據(jù)可讀性、系統(tǒng)可擴展性,而且可以實現(xiàn)統(tǒng)計數(shù)據(jù)的平臺無關(guān)性,系統(tǒng)數(shù)據(jù)和元數(shù)據(jù)脫離本系統(tǒng)一樣可以被理解被使用。系統(tǒng)設計應遵循統(tǒng)計通用業(yè)務模型、統(tǒng)計通用信息模型和企業(yè)聯(lián)網(wǎng)直報系統(tǒng)等,采用DDI和SDMX進行統(tǒng)計業(yè)務和數(shù)據(jù)的組織,運用XML和數(shù)據(jù)倉庫等信息技術(shù),形成最終的產(chǎn)品。
3統(tǒng)計分析設計
統(tǒng)計分析設計為全流程一站式,徹底改變過去進行統(tǒng)計分析時需要先去多個系統(tǒng)找數(shù),再逐一進行指標化預處理,再進行分析的低效能弊端,將數(shù)據(jù)提取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化的過程集成在一個平臺內(nèi),應用高性能的數(shù)據(jù)計算技術(shù)保證整個過程流暢,基于R語言實現(xiàn)描述性分析、模型分析和挖掘分析的多種層次的分析能力,保障用戶可以進行任意組合的查詢分析,提供即查即所見,使探索式分析成為可能。
作者:侯昭民 單位:山東省統(tǒng)計數(shù)據(jù)管理中心