Python專家超詳細講解:利用Python進行數據分析(第二版)PDF

python大數據全棧女神 發佈 2020-05-15T10:03:40+00:00

今天給大家介紹利用Python進行數據分析的技術文檔,是屬於第二版了,希望大家能夠喜歡!本章中,我會回顧一些pandas的特點, 在你膠著於pandas數據規整和模型擬合和評分時,它們可能派上用場。

前言

今天給大家介紹利用Python進行數據分析的技術文檔,是屬於第二版了,希望大家能夠喜歡!

主要內容

大牛把這份技術文檔總共分為14章,

第1章準備工作,本文講的是利用Python進行數據控制、處理、整理、分析等方面的具體細節和基本要點。我的目標是介紹Python編程和用於數據處理的庫和工具環境,掌握這些,可以讓你成為一個數據分析專家。雖然本書的標題是『數據分析」,重點確實Python編程、庫,以及用於數據分析的工具。這就是數據分析要用到的Python編程。

第2章Python語法基礎,IPython和JupyterNotebooks

本文大部分內容關注的是基於表格的分析和處理大規模數據集的數據準備工具。為了使用這些工具,必須首先將混亂的數據規整為整潔的表格(或結構化)形式。幸好,Python是一個理想的語言,可以快速整理數據。使用Python越熟練,越容易準備新的數據集以進行分析。

本文中使用的工具最好在IPython和Jupyter中親自嘗試。當你學會了如何啟用lpython和Jupyter,我建議你跟隨示例代碼進行練習。與任何鍵盤驅動的操作環境一樣,記住常見的命令也是學習曲線的一部分。

第3章Python的數據結構、函數和文件

本章討論Python的內置功能,這些功能本書會用到很多。雖然擴展庫,比如pandas和Numpy,使處理大數據集很方便,但它們是和Python的內置數據處理工具一同使用的。

我們會從Python最基礎的數據結構開始:元組、列表、字典和集合。然後會討論創建你自己的、可重複使用的Python函數。最後,會學習Python的文件對象,以及如何與本地硬碟交互。

第4章NumPy基礎:數組和矢量計算

NumPy (Numerical Python的簡稱)是Python數值計算 最重要的基礎包。大多數提供科學計算的包都是用NumPy的數組作為構建基礎。

NumPy的部分功能如下:

  • ndarray,-個具有矢量算術運算和複雜廣播能力的快速且節省空間的多維數組。
  • 用於對整組數據進行快速運算的標準數學函數(無需編寫循環)。
  • 用於讀寫磁碟數據的工具以及用於操作內存映射文件的工具。
  • 線性代數、隨機數生成以及傅立葉變換功能。
  • 用於集成由C、C++、Fortran等語言編寫的代碼的A C API。

由於NumPy提供了一個簡單易用的C API,因此很容易將數據傳遞給由低級語言編寫的外部庫,外部庫也能以NumPy數組的形式將數據返回給Python。這個功能使Python成為一種包裝C/C+ +/Fortran歷史代碼庫的選擇,並使被包裝庫擁有一一個動態的、易用的接口。

第5章pandas入門

pandas是本書後續內容的首選庫。它含有使數據清洗和分析工作變得更快更簡單的數據結構和操作工具。pandas經常和其它工具一同使用,如數值計算工具NumPy和SciPy,分析庫statsmodels和scikit-learn,和數據可視化庫matplotlib。pandas是基於NumPy數組構建的,特別是基於數組的函數和不使用for循環的數據處理。

第6章數據加載、存儲與文件格式

訪問數據是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的數據輸入與輸出,雖然別的庫中也有不少以此為目的的工具。

輸入輸出通常可以劃分為幾個大類:讀取文本文件和其他更高效的磁碟存儲格式,加載資料庫中的數據,利用Web API操作網絡資源。

第7章數據清洗和準備

在數據分析和建模的過程中,相當多的時間要用在數據準備,上加載、清理、轉換以及重塑。這些工作會占到分析師時間的80%或更多。有時,存儲在文件和資料庫中的數據的格式不適合某個特定的任務。許多研究者都選擇使用通用程式語言(如Python、Perl、R或Java)或UNIX文 本處理工具(如sed或awk) 對數據格式進行專門門]處理。幸運的是,pandas和內 置的Python標準庫提供了一組高級的、靈活的、快速的工具,可以讓你輕鬆地將數據規變為想要的格式。

第8章數據規整:聚合、合併和重塑

在許多應用中,數據可能分散在許多文件或資料庫中,存儲的形式也不利於分析。本章關注可以聚合、合併、重塑數據的方法。

首先,我會介紹pandas的層次化索引,它廣泛用於以上操作。然後,我深入介紹了一些特殊的數據操作。在第14章,你可以看到這些工具的多種應用。

第9章繪圖和可視化

信息可視化(也叫繪圖)是數據分析中最重要的工作之一。它可能是探索過程的一部分,例如,幫助我們找出異常值、必要的數據轉換、得出有關模型的idea等。另外,做一一個可交互的數據可視化也許是工作的最終目標。Python有許多庫進行靜態或動態的數據可視化。

第10章數據聚合與分組運算

對數據集進行分組並對各組應用一個函數(無論是聚合還是轉換),通常是數據分析工作中的重要環節。在將數據集加載、融合、準備好之後,通常就是計算分組統計或生成透視表。

pandas提供了-一個靈活高效的gruopby功能,它使你能以一種自然的方式對數據集進行切片、切塊、摘要等操作。

第11章時間序列

時間序列(time series)數據是-種重要的結構化數據形式,應用於多個領域,包括金融學、經濟學、生態學、神經科學、物理學等。在多個時間點觀察或測量到的任何事物都可以形成一段時間序列。很多時間序列是固定頻率的,也就是說,數據點是根據某種規律定期出現的(比如每15秒、每5分鐘、每月出現一次)。

第12章pandas高級應用

前面的章節關注於不同類型的數據規整流程和NumPy、pandas與其它庫的特點。隨著時間的發展,pandas發展出了更多適合高級用戶的功能。本章就要深入學習pandas的高級功能。

第13章Python建模庫介紹

本章中,我會回顧一些pandas的特點, 在你膠著於pandas數據規整和模型擬合和評分時,它們可能派上用場。然後我會簡短介紹兩個流行的建模I具,statsmodels和scikit-learn。 這二者每個都值得再寫一-本書,我就不做全面的介紹,而是建議你學習兩個項目的線上文檔和其它基於Python的數據科學、統計和機器學習的書籍。

第14章數據分析案例

本書正文的最後一章,我們來看-些真實世界的數據集。對於每個數據集,我們會用之前介紹的方法,從原始數據中提取有意義的內容。展示的方法適用於其它數據集,也包括你的。本章包含了-些各種各樣的案例數據集,可以用來練習。

話不多說,需要這本技術文檔的小夥伴可以轉發關注女神,私信女神「學習」來得到獲取方式~~~

關鍵字: