大數據採集

概覽

相關延展

系統日誌數據的採集

Scribe是Facebook開源的日誌收集系統，在Facebook內部已經得到大量的應用。它夠從各種日誌源上收集日誌，存儲到一個中央存儲系統上，以便於進行集中的統計分析處理。 Scribe為日誌的「分布式收集，統一處理」提供了一個可擴展的、高容錯的方案。（老師收學生信息表，需要班長代理收集的例子）。

Chukwa提供了一個對大數據量日誌類數據採集、存儲、分析和展示的全套解決方案和框架，可以用於監控大規模Hadoop 集群的整體運行情況並對它們的日誌進行分析（相當於學校內無死角的監控攝像頭）。

註：以上兩張架構圖現在不太理解，當學完第四章再回過頭來看，就easy多了。

大數據預處理

數據清理通過填寫缺失值，光滑噪聲數據，識別或刪除離群點並解決不一致性來「清理」數據。數據清理的過程主要包括數據預處理、確定清理方法、檢驗清理方法、執行清理工具和數據歸檔。同時每個階段可以再分若干個任務。

數據集成是將來自多個數據源的數據集集成到一起，但集成後的不可避免的會出現數據冗餘，原因主要有：代表同一概念的屬性在不同資料庫中可能具有不同的名字；有些屬性可能由於其他屬性導出的。數據集成後可以再次進行數據清理、檢測和刪去由數據集帶來的冗餘。

數據歸約的目的是得到數據集的簡化表示。雖然數據集的簡化表示比原數據集的規模小得多，但仍然能夠產生幾乎同樣的分析結果。

數據變換是使用規範化、數據離散化和概念分層等方法使得數據的玩具可以在多個抽象層上進行。數據變換操作是引導數據挖掘過程成功的附加預處理過程。

大數據分析

概覽數據分析

數據分析是大數據價值鏈中最終和最重要的階段，其目的是挖掘數據中潛在的價值以提供相應的建議或決策。

數據分析( Data Analysis)是一個檢查、清理、轉換和建模數據的過程，目的是發現有用的信息，得出結論和推動決策制定。

數據挖掘（Data mining）是指用人工智慧、機器學習、統計學和資料庫的交叉方法在相對較大型的數據集中發現模式的計算過程。

數據分析流程（下圖）（兩句話，①數據分析是從業務中來，到業務中去；②脫離了業務的數據分析都是耍流氓）。

傳統數據分析方法

比較有代表性的傳統數據分析方法：

統計分析，相關分析，回歸分析，聚類分析，因子分析，A / B測試；

①統計分析

②相關分析：一種用於確定觀測現象之間的相關規律，從而進行預測和控制的分析方法。相關分析是利用現有統計數據研究關係的強度的過程（例子是身高與年齡）。同時，相關不等於因果（睡眠與收入）。

③回歸分析：揭示一個變量和其他幾個變量之間的相關性的數學工具。

回歸分析能夠識別隨機隱藏的變量之間的依賴關係（一元線性回歸）。

④聚類分析：一種將對象進行分組的統計方法。聚類分析用於區分具有某些特徵的對象，並根據這些特徵將它們分成不同的類別。同一類別中的對象具有高同質性，不同類別中的對象具有高異質性。

⑤因子分析：主要是通過少數幾個因子，來描述大量指標或元素之間的關係（例子是找對象，以自己中意的幾個典型的維度對另一半進行刻畫。如白富美，地域，教養，品行，性格等等）。

⑥A/B測試，也稱為水桶測試。它通過比較測試組，制定能改善目標變量的計劃（更多地應用在產品或網頁的設計中，根據用戶體驗與反饋對產品進行完善）。

大數據分析方法

這部分更多地是對大數據存儲效率，以及讀取速度進行優化的大數據分析方法。

①布隆過濾器：由一個位數組和一系列的哈希函數組成。布隆過濾器的原理是通過利用位數組來存儲數據本身之外的數據的哈希值。位數組本質上是使用哈希函數來進行數據的有損壓縮，從而存儲其位圖索引。布隆過濾器算法的核心思想：利用多個不同的哈希函數來解決「衝突」。（例子是班級同學進行一間屋子，門口會有一排燈，某幾個燈亮表示一個同學，為了避免衝突，燈亮以顏色進行區分。燈亮表示1，不亮表示0）。

②散列法：一種將數據變換為較短的固定長度數值或索引值的基本方法。特點：快速讀取、快速寫入和高查詢速度。難點：如何找到健全的散列函數。優點：空間效率高、查詢速度快。缺點：具有一定的誤識別率、刪除困難等。例子是諜戰片裡面傳遞情報場景，最重要的是找到密碼本（散列法的難點）。

③索引法：是減少磁碟讀取和寫入成本的有效方法。索引法能夠提高插入、刪除、修改和查詢速度。索引一般分為兩類：聚集索引和非聚集索引。例子是索引類似於書籍的目錄。

④字典樹：又稱單詞查找樹，是一種哈希樹的變體。它主要應用於快速檢索和字頻統計。主要思想是：利用字符串的常見前綴來最大限度地減少字符串的比較，從而提高查詢效率。

⑤並行計算：並行計算是指利用若干計算資源來完成計算任務。其基本思想是：分解一個問題並將其分配給幾個獨立的進程，以便獨立完成，從而實現協同處理。

大數據分析架構

大數據分析可以根據實時要求分為實時分析（金融領域：超市付款，哈羅單車）和離線分析（淘寶商品推薦）。

大數據分析按照層次的不同，還可以分為內存級分析、BI分析（數據層、業務層和應用層）和海量分析（數據採集模塊、數據冗餘模塊、維度定義模塊、並行分析模塊）。

大數據分析應用工具（略）

課上通過R語言的展示，旨在讓同學們對大數據分析的功能有個直觀認識。

大數據存儲

從本章開始，涉及的大數據名詞越來越多，開始大家覺得晦澀難懂，隨著課程的推進，一些技術及名詞會慢慢熟悉，希望大家耐著性子學習。堅持下來，不要讓東哥唱獨角戲哈！

概覽

雲存儲

雲存儲沒有行業權威的定義。雲存儲是在雲計算（cloud computing）概念上延伸和發展出來的一個新的概念，是一種新興的網絡存儲技術，是指通過集群應用、網絡技術或分布式文件系統等功能，將網絡中大量各種不同類型的存儲設備通過應用軟體集合起來協同工作，共同對外提供數據存儲和業務訪問功能的一個系統。雲存儲不僅是存儲設備或技術，更是一種服務的創新。

特點：可靠性、可用性、安全性、規範化、低成本。

架構（動物園）：訪問層、應用接口層、基礎管理層。

技術：存儲虛擬化（齊天大聖）、分布式存儲、數據縮減、負載均衡。

①雲存儲的虛擬化將存儲資源虛擬化為全局命名空間（動物園的名字），並通過多租戶技術（跟著旅行社的導遊參觀動物園）給使用者提供存儲資源。

②分布式存儲分為分布式塊存儲，分布式對象存儲以及分布式文件系統。

③數據縮減一定程度上節約企業存儲成本，提高效率。包括自動精簡配置（欺騙），自動存儲分層（超市擺放物品），重複數據刪除（自己產生的數據）。

④負載均衡技術，節點的負載均衡能夠更好的實現系統的動態擴展，即若系統收到的請求均勻分配給每個節點後超出節點的處理能力，只需通過擴充節點的數目就可以減少系統所有節點的壓力，而無需對內部的負載均衡機製做任何處理。（4x1接力比賽，體育委員根據每個人的速度，耐力分配接力順序）。

大數據存儲

大數據存儲系統架構分為DAS，NAS以及SAN。

DAS

適用環境：①伺服器地理分布很分散，通過SAN或NAS互聯困難。②存儲系統必須直接與應用伺服器連接。③小型網絡。

缺點：①擴展性差。②資源利用率低。③可管理性差。DAS的數據分散在應用伺服器各自的存儲設備上，不變集中管理、分析和使用數據。④異構化嚴重。

NAS

優點：①即插即用，可以基於已有的企業網絡方便連接到應用伺服器。②專用作業系統支持不同的文件系統，從而可以支持應用伺服器不同作業系統之間的文件共享。③專用伺服器上經過優化的文件系統提高了文件的訪問效率。④獨立於應用伺服器，即使應用伺服器故障或停止工作，仍然可以讀出數據。

缺點：①共用網絡的模式使網絡帶寬成為存儲性能瓶頸。②NAS訪問要經過文件系統格式轉換，故只能以文件一級訪問，不適合塊級的應用。

SAN

數據倉庫

從決策支持角度來看，數據倉庫可以簡單定義為：專為決策支持服務的資料庫系統，它並非對原有業務系統的取代，而是在所有業務系統之上建立一個統一的、一致的企業級數據視圖。

特點：數據倉庫的的數據是面向主題組織的；數據倉庫中的數據是繼承的。數據倉庫的數據是穩定的。數據是隨時間不斷變化的。

數據倉庫與資料庫的區別

在物理實現上，數據倉庫與傳統意義上的資料庫並無本質的區別，主要是以關係表的形式實現的。更多的時候，我們將數據倉庫作為一個資料庫應用系統來看待。

數據倉庫體系架構：數據倉庫從多個信息源中獲取原始數據，經過整理加工後存儲在數據倉庫的內部資料庫。通過數據倉庫訪問工具，向數據倉庫的用戶提供統一、協調和集成的信息環境，支持企業全局決策過程和對企業經營管理的深入綜合分析。整個數據倉庫系統是一個包含4個層次的體系機構。

獲取方式：

1、請評論區留下你們評論：轉發

2、評論後私信我：「資料」即可領取！

一個轉發+評論，一份資料，名額有限，太多人我發不過來，請體諒！

資料只為有需要的朋友準備，而且整理不易，如果覺得資源不錯，希望大家能積極轉發讓更多人看到，給予小編鼓勵與支持，有動力分享資源。

阿里達摩院大佬推出的大數據採集，分析，存儲教程，教你輕鬆學會