大數據平台建設系列:(五)大數據自助分析平台建設

一個愛吃肉的傢伙 發佈 2020-01-22T20:50:50+00:00

本文中所講技術實現均在我司落地完成,自助分析已成為我司業務分析人員發現、探索數據的新途徑。下次,我們聊聊:《大數據平台建設系列:(六)數據開發過程中的流程協作》

寫在前面:本文大約1800字左右,閱讀時間大約10分鐘。本文中所講技術實現均在我司落地完成,自助分析已成為我司業務分析人員發現、探索數據的新途徑。文中有講的不明白的地方歡迎大家留言,我會在第一時間解答。希望本文能夠起到相互學習的作用。


自助分析又稱自助BI,是數據急劇增長環境下,商業智能(BI)為適應環境,不斷進化的產物。自助BI的出現,將數據分析的範圍逐漸從數據科學家、數據分析師和專業IT人員擴大到業務人員。『數據導向,人人都是數據分析師』的數據分析文化,正在優化企業的決策流程,加速企業的數字化轉型。

一:為什麼要建設自助分析平台

自助BI之前,數據分析能力主要掌握在數據科學家、數據分析師和有IT背景的技術人員手中,他們一般集中在企業技術部門,是個中心化的數據服務場景。在大數據時代,數據分析需求日益增加的情況下,中心化數據服務場景的弊端日益顯現。

  • 需求開發耗時長:從前期需求評審、中期需求開發、後期的數據驗收,每個環節都需要跟需求方溝通、確認,耗時較長;
  • 報表展現不靈活:報表展現一般為列表或簡單的折線圖、柱狀圖,不能靈活的詮釋數據意義;
  • 技術部門負擔重:所有數據需求處理都壓在技術部門,技術部門的吞吐能力直接決定著數據流通速度,而數據流通速度往往直接影響著分析決策的時效性。

二:自助分析平台建設要解決的問題

Gartner將Self Service BusinessIntelligence(SSBI)定義為『終端用戶在被批准和支持的平台或工具組合中設計和部署自己的報告和分析』。從定義中我們可以看出自助分析平台需要解決數據管控和可視化設計和部署兩個問題。

  • 數據管控:數據管控主要解決什麼人看什麼數據,即數據權限問題。需要一套安全、高效的數據管控機制。
  • 可視化設計與部署:提供靈活的數據分析能力和高度可配置的圖表設計和部署能力。主要用於數據自助分析和生成圖表豐富的數據報告。

三:商業產品外的自研解決方案

3.1 數據開放平台

在不暴露隱私數據的前提下,通過多種安全機制實現數據授權,為使用人員提供 SQL 交互式查詢分析、數據定製下載能力,對分析結果提供自助式報表配置功能。

技術實現

我們將數據倉庫、數據集市中的數據授權給各部門、子公司或 ISV 進行查詢分析。為保證數據安全和企業間數據相互隔離,在實現過程中定義了專區的概念,一個專區可以理解為一個部門、子公司或 ISV。專區由後台管控系統負責開通,專區內設管理員和操作員,管理員負責添加操作員帳號,操作員可在前台系統內進行查詢分析、數據下載、報表配置等操 作。架構圖如下圖所示:


專區內又分為實驗區、生產區和報表區,具體概念如下表所示:

  • 專區:為企業提供數據服務而開通的專屬區域,包括實驗區、生產區、報表區三部分。專區間數據相互隔離。
  • 實驗區:專區中的開發環境,可進行SQL交互式查詢、數據發布等操作。
  • 生產區:專區中的生產環境,主要完成實驗區已發布數據的周期性更新功能。
  • 報表區:為關係型資料庫或集市主題數據,存儲周期性更新的查詢分析結果。

在技術實現上分為後台管控系統和前台查詢系統兩部分。

  • 後台管控系統:適用人員為數據部門的數據管理人員,管控端主要完成數據倉庫、集市等元數據同步、專區開通、數據授權等操作。 數據管理人員根據各部門、子公司或ISV申請,開通專區帳號,帳號開通後由專區負責人添加操作員帳號。專區帳號開通後,數據管理人員根據數據授權申請,向企業專區進行數據授權。為做到相互隔離和數據安全,後台管控系統通過條件限制控制數據的授權,對手機號、身份證號、郵箱等敏感信息管控端採用加密算法防止數據泄露。授權流程如下圖所示:



  • 前台查詢系統:前台查詢系統適用人員主要為部門、子公司、ISV的業務查詢分析人員。前台查詢系統對查詢分析結果提供定製下載、API接口調用和報表配置三種數據輸出能力。

3.2 數據可視化平台

數據可視化平台已與數據開放平台打通,業務分析人員可將數據開放平台中發布的報表數據通過可視化平台進行可視化探索分析。為保證數據的時效性,數據可視化平台還具有實時數據分析能力。

技術實現

我們通過對Apache Superset進行二次開發,與自研的數據開放平台打通,來完成數據的可視化探索分析工作。數據可視化平台的數據源分為實時和離線兩種:

  • 實時數據源:來源於實時數據倉庫,數據存儲為Apache Druid;
  • 離線數據源:來源於數據開放平台,數據存儲為HDFS。


自助BI的出現標誌著商業智能分析正在從『技術主導的報表模式』向『業務主導的自助分析模式』轉變。去中心化的數據服務場景,拉近了數據與業務人員的距離,使數據科學家、分析師和IT人員擺脫繁雜的數據需求開發,專注於複雜的數據需求分析,更好的支持分析決策。



下次,我們聊聊:《大數據平台建設系列:(六)數據開發過程中的流程協作》

關鍵字: