寫在前面——

上周我們發布了675道Java面試題集，讀者朋友們反響熱烈，還有粉絲給我們發私信，希望可以再出一套大數據的面試題。

應廣大讀者和面試者需求，我們從各招聘公司和學員處收集了1200多道大數據面試題，其中不乏有京東、搜狐、新浪、愛藝奇等大企業面試題，我們從中篩選出其中550道最精華的部分組成這份面試題集，並在此分享給大家。

希望這份大數據面試題可以對你找工作有所幫助，小夥伴們可以私信小編：「資料」領取整套題目+答案哦！

本題集包含Redis、搜尋引擎、Spark、Storm和kafka、高並發、Hadoop、hive和SQL、Hbase八個模塊，詳情如下：

一、Redis

1、redis工作原理

2、kafka為什麼要分多個partition？

3、有一個千萬用戶的網站，活躍用戶在百萬左右，用戶ID是64位長整數。

4、redis bit操作？

5、redis用來做什麼？模型等，頻繁調用的放在redis中，取其快

6、Redis中如何向Spark存東西一條一條插，還是一堆一堆插數據，怎麼建立連接?

7、你在項目中redis的存儲有哪些？

8、Redis是什麼,使用場景?

9、redis支持的最大數據量是多少？redis集群下怎麼從某一台集群查key-value。

10、列舉一個常用的Redis客戶端的並發模型。

11、什麼是布隆過濾器，其實現原理是？False positive指的是？

12、memcache與redis的區別

13、Redis,傳統資料庫,hbase,hive 每個之間的區別(問的非常細)

14、HBase與Redis

16、redis支持的數據格式

17、基本操作，存儲格式

18、下列對RDD特點描述錯誤的是（）（單選）

19、Spark中的RDD的計算是以什麼作為單位的?每個RDD都會實現什麼函數以達到這個目的？

20、以下哪一個是Redis不支持的持久化策略( )（單選）

搜尋引擎

21、用到哪些全文檢索的技術

22、lunce和solr

23、搜尋引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。假設目前一個日誌文件中有一千萬個記錄(這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的用戶越多,也就是越熱門),請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。

24、Elasticsearch使用一種叫做倒排索引的結構來實現快速的全文索,什麼是倒排索引,請舉例?

Spark

25、Spark框架

26、sparkSQL介紹下（RDD、DataFrame）

27、DSL和SQL用哪個比較多？

28、udf和udaf都寫過哪些？

29、介紹下udaf

30、spark運行在Yarn上流程（cluster）

31、spark調優

32、寬窄依賴

33、sparkStreaming和Storm比較

34、SparkStreaming與Storm的應用場景

35、sparkon yarn 和mapreduce 中yarn有什麼區別

36、spark原理

37、Spark支持的分布式部署方式是? ( )

38、Spark的四大組件下面哪個不是 ( )

39、下面哪個埠不是spark自帶服務的埠 ( )

八、Hbase

511、hbase最主要的特點是什麼？

512、hbase部署

513、簡單描述HBase的 rowley的設計原則?

514、請描述HBase中scan和get的功能以及實現的異同

515、請描述HBase中scan對象的 setCache和 setBatch方法的使用

516、請詳細描述 HBase中一個Ce1l的結構

517、請描述如何處理 HBase中 region太多和region太大帶來的衝突

518、Hbase的rowKey怎麼創建比較好？列簇怎麼創建比較好？

519、hbase內部機制是什麼？

520、hbase過濾器實現原則

521、描述Hbase，ZooKeeper搭建過程

522、HBase寫數據的原理是什麼？

523、HBase宕機如何處理？

524、hbase怎麼預分區？

525、以start-hbase.sh為起點，Hbase啟動的流程是什麼？

526、請簡述HBASE中compact用途是什麼，什麼時候觸發，分哪兩種compact，有何區別，有哪些相關配置參數？

527、hbase的API都有哪些filter?

528、關係型資料庫是怎麼把數據導出到Hbase 里的？

529、解釋Hbase LSM結構樹

530、hbase怎麼給web前台提供接口來訪問?

531、下面對HBase的描述哪些是正確的?（）

532、HBase依賴( )提供消息通信機制?

533、簡述HBASE寫入數據的過程

534、你們用HBASE存儲什麼數據？

535、HBase如何實現模糊查詢？

536、描述一下Hase的基礎架構--- JD

537、寫出在hbase shell中的命令

a)hbase中查詢表名為test,誰的值=001

b)hbase中查詢表名為test, rowley為 user開頭的

538、Hbase的持久化數據是存放在HDFS上的,並由 zookeeper協助進行集

群管理,這一說法是（）的

539、HBase中的一個表是被劃分為很多 regionserver的,這些regionserver分布式地存放在伺服器上,這一說法是（）

540、HBase可以通過 compact命令操作來做版本間的文件合併,這一說法是的（）

由於篇幅原因，檸檬就給大家介紹到這裡，小夥伴們記得轉發+關注並私信小編：「資料」領取整套550道面試題+答案哦！

我保證，這550道大數據面試題，絕對是HR最常出的面試題+答案

一、Redis

八、Hbase