數據科學家只需要會編程嗎?哈佛大學教授揭露真相

京領新國際 發佈 2020-01-02T10:29:40+00:00

京領藤校科研項目簡介京領藤校科研,即KingLeadAdvanced Research Program,是一個全球化、高端化、專業化的青少年高端科研項目。


麥肯錫全球研究院的報告說:


「2019年,光美國就面臨15萬以上數據分析師和150萬數據管理人才的短缺。「


IBM更是做出預測稱,

到了2020年,數據科學人才缺口將超過


271萬


圖源:IBM


數據科學,被《哈佛商業評論》稱為


「21世紀最熱門的職業」


不僅發展前景光明,各大公司為數據科學人才提供的薪酬待遇也非常可觀。


美國知名求職網站Glassdoor公布的2019最佳職業排名中,Data Scientist(數據科學家) 排名第一,基礎薪資中位數達到10.8萬美元,幾乎是美國人均年薪的兩倍。


圖源:Glassdoor

為何數據人才如此受追捧?


福布斯評論道:


「在今天,每一家公司都應該是數據公司。」


不光是網際網路公司,現在各行各業的企業都已經把數據科學看做自己的最大競爭力。


數據不光可以



提高業務績效和效率,


同時還能使消費者


擁有更好的體驗


圖源:紐約郵報


華爾街頂級投資銀行摩根大通擁有全球31個數據中心、近28000個資料庫和近67000台物理伺服器,大數據是銀行進行風險分析的基本要素,能夠立即評估地緣政治風險升級對投資組合及其在特定市場和資產類別中的影響,同時,銀行還可以使用大數據來分析交易的有效性。



圖源:Google


今日頭條的個性化的內容推薦機制根據用戶的喜好為其推薦個性化的媒體信息,將用戶特徵、環境特徵、文章特徵進行匹配,實現個性化精準分發文章,讓用戶在信息過剩、碎片化的網際網路時代迅速獲取自己所關心的內容。


圖源:Burberry


英國著名時尚品牌Burberry(巴寶莉)商店中的所有產品都有獨特的RFID標籤,當消費者購物時,可以直接在app上瀏覽商品信息。與此同時,員工可以根據客戶的購買歷史、消費喜好,甚至社交媒體數據來提供更加個性化的體驗,從而有助於促進銷售。


圖源:Business Insider



星巴克利用移動應用程式和龐大的數據存儲庫,在客戶到達櫃檯之前向咖啡師顯示訂單。它還可以顯著提高性能,從而在最繁忙的時段加快訂單和服務時間。


數據科學正在改變著我們的生活,這也使數據科學人才成為了企業的剛需,


但是有人卻提出了質疑——


數據科學人才憑什麼獲得高薪?


前段時間,埃隆·馬斯克為其創立的研究實驗室OpenAI的研究人員Ilya Sutskever開出190萬美元的天價薪酬登上了各大網站的頭條。


圖源:teslarati


馬斯克為科技人才開出天價薪酬引發了眾人討論,其中有些人認為,一名工程師拿這樣的薪水有些太高了。


但你以為,這些科技人才僅僅是寫代碼嗎


OpenAI的董事長Greg Brockman這樣評價那位拿到190萬美元高薪的工程師Ilya Sutskever:


「他明顯是一位技術專家,具有廣博的知識和遠見,並且隨時可以深入研究當前系統的局限性和功能。」

(he was a clear technical expert with a breadth of knowledge and vision, and could always dive into the specifics of the limitations and capabilities of current systems.)


美國求職網站Career調查顯示,數據科學方面的人才不光要有數據分析能力、統計學能力,還要具有敏銳的商業嗅覺和統籌能力。


圖源:Career


也就是說,真正的高級數據科學人才不僅應掌握數據分析相關的編程技術,還需要具有


運用數據解決問題的系統思維能力


——他們的一個點子,或許就能夠為公司解決棘手的問題,創造數以億計的利潤。


而這個能力並不是像大家想像的那樣,通過所謂的編程速成班就可以學到的,而是往往通過


1-2年名校專業的訓練


才能達到入門級的水平,這也是真正的數據科學家能夠獲得高薪的原因。


那麼,你想達到世界名校的錄取水準嗎?

你想距離成為數據科學家更近一步嗎?


或許,你離夢想只差一個

哈佛大學現任教授指導的科研項目——


項目導師


盧克·米拉特里克斯

Luke Miratrix


哈佛大學教育學與統計學助理教授,博導

哈佛大學孟德爾頌最佳指導獎獲得者

沃倫·米勒獎最佳論文獎獲得者

帶領開發R, Matlab, C, Java數學統計軟體包

曾任麻省理工學院人工智慧實驗室研究員


研究領域:

大數據清洗和分析;因果分析;數學與編程在複雜教育和社會科學問題解決中的應用


項目主題


運用數據科學與統計學探索發現社會問題


適合方向

對數學、統計學以及教育學等人文社科類專業有強烈興趣,希望成為跨學科複合型人才,通過數據分析、變成建模等技術手段解決教育、社會問題,想從事數據科學,信息科學,統計學,教育學相關專業或研究的高中生或本科生。


項目成果

數據分析綜合項目


項目內容

Miratrix教授特意親自花費數月時間為項目參與者設計了整個項目,並將領導哈佛大學博士生作為助教與教授一起,全程親自帶領項目。


  • 講座與上機實驗課
  • 數據分析綜合項目


講座與上機實驗課

Lecture


隨著計算社會科學領域的興起,社會科學領域出現了數據科學活動的爆炸式增長。


Miratrix教授說:


「這些數據可以告訴我們世界是如何以各種方式運轉的,但前提是我們能夠掌握並分析它們。」


於是,Miratrix教授將以小型講座的方式指導學生掌握數據科學領域的核心工具,包括:


  • 開源程式語言——R語言
  • 網絡刮削
  • 包括數據聚合和操作在內的數據清理
  • 非參數和靈活的統計推斷方法
  • (靜態)數據可視化
  • 機器學習(稀疏回歸和回歸樹森林)


學生將以上機實驗課的形式,在Miratrix教授的親自指導下逐步掌握這些數據科學領域重要的分析方法和工具。



數據分析綜合項目

Project


學生將動手在教授的指導下親自做一個綜合數據分析項目。


學生將獨立編寫代碼,根據自己的研究興趣從網際網路上抓取數據,然後在最終匯報中,展示他們的研究主題以及數據的可視化。


綜合項目將通過三個工作坊課程完成,內容包括:


  • 工作坊 1:不確定性研究和自薦程序
  • 工作坊 2:數據的非參數平滑
  • 工作坊 3:因果關係,匹配,以及隨機實驗



Miratrix教授說:

「本項目將標誌著學生對這些日益重要的數據分析方式的初步掌握。」


教授曾經指導來自美國高中和哈佛大學的學生完成了眾多實際研究項目,鼓勵學生創新。


案例1


教授曾指導一群學生研究有機食品的價格比傳統食品到底貴多少。


他們首先去了幾個不同的食品市場,制定了一些規範化的雜貨清單,以生成有關食品價格的大型資料庫。


然後他們寫了一份報告,研究了這些食品的價格如何隨各種因素的變化而變化,例如商店的類型、食品是否為有機食品等等。


案例2


教授的另一個學生曾為地震後海地的救濟方案進行評估體系的設計。


令人敬佩的是,她不僅只是「紙上談兵」,她真的去了海地,並與在當地的國際救援組織樂施會進行合作,以確保評估方案得以實施。


很多救援組織都沒有意識這類評估工作的重要性,因為它使人們能夠了解哪種援助方案有效。


從數理理論到實踐應用,這些學生都在Miratrix教授的指導下做出了各種非常重要的成果。


Miratrix教授說:


「項目的目的是讓學生通過實踐真正掌握數據分析,而不是僅僅為問題提供可行而非理想的解決方案。」

(The goal is for students to 「get their hands dirty」 with data and to produce workable—rather than ideal—solutions to problems.)


對於想要涉足數據科學領域,運用數據科學解決社會科學問題的青少年來說,這一項目無疑能夠為他們帶來巨大的收穫。


項目規模

5-10人小班


項目類型

線下 2 周


項目時間

2020 年 2 月


項目申請要求

• 能夠進行英語閱讀和口語溝通

• 有編程經歷最佳


為了讓項目參與者對本項目有更加深刻的理解,京領新國際特意採訪了哈佛大學現任教授Luke Miratrix,教授為項目的參與者分享了寶貴的科研經驗。


Q1

京領新國際:你能先談一談您的學術生涯嗎?


Miratirx教授:我的大學教育生涯從計算機和數學開始,當我在麻省理工學院學習人工智慧並忙於論文時,我意識到在全身心投入某個特定領域之前,我想接觸更多的領域以便於真正做出選擇。


我用了七年的時間裡在兩所不同的中學裡教授計算機科學和數學,在這期間我不僅對教育的複雜性有了深刻的理解,而且對教育到底如何發揮作用以及如何發現它們何時起作用充滿了好奇心。


這些問題促使我參加了加州大學伯克利分校的教育博士學位課程,在那裡我了解了教育研究和該領域的主要問題(特別側重於測量和學習)。我很快發現要從該領域中獲得更多的知識需要對許多研究背後的統計方法學進行深入了解。因此,我轉入了第三個研究生課程,這次是統計學。


我的論文工作主要集中在隨機實驗上,同時繼續使用著教育方面的數據。


在畢業之後,我加入了哈佛大學的統計學院,在那裡我吸收更多因果推理方法的知識。哈佛大學的統計學院以擁有眾多該領域的偉大思想家而聞名,是一個完美的訓練場。我開始將我的研究議程重新聚焦到到偏重於能夠實際應用的領域。在此過程中,我獲得了我在哈佛大學教育學院的最新職位。


我現在的工作回歸到了我最初研究的問題,即真正改善教育的研究實踐,以幫助我們的企業了解人們的學習方式,了解教育計劃何時起作用,以及如何改善給每一個人提供的教育。


從某種意義上說,我掌握著兩種「語言」,包括教育學和統計學。這使我可以接觸這兩種學科的文獻,讓我得以與教育學的同事們一起去探究什麼是亟待解決的緊迫問題,然後運用統計學來找出最適合的解決工具和方法。


由於接受了嚴格的統計學訓練,我也有能力在不同類型的教育問題研究中靈活運用這些理論工具。


我現在繼續在哈佛大學進行科研,所學習的知識與經驗不斷推動我的研究向前發展,並將研究對象聚焦到真正重要的問題上面。


Q2

京領新國際:您在數據科學領域有哪些成就與創新?


Miratrix教授:我是一名統計學家和數據科學家,致力於教育和社會科學領域的研究。我希望通過明確的並生成儘可能公開透明的方法來實現這一目標,同時針對給定問題的各種特質量身定製解決方法。


我認為我的角色本質上是提供一種服務:我想通過提供可用於解決問題的工具以及提高科學論述的質量來幫助社會科學家實現他們的目標


我認為我作為教育領域的老師的工作也直接為實現這些目標服務。我主要在大規模隨機實驗的環境下工作,在這些實驗中,我建立了從此類實驗中提取更多信息而又不損害實驗本身完整性的方法。我也將我在這項工作中開發的概念框架帶到了其他與數據科學相關的領域,例如地理或空間數據以及文本分析。


我正在研究一種統計學和定量研究的方式,這種研究建立在明確的假設、著重理解和描述的重要性以及了解存在的局限性的核心原則之上。在我看來,這些原則直接影響統計學研究思維方式以及方法論。我試圖了解我們何時可以對數據進行觀點的提煉,以及如何使用最簡單,最清晰的工具提出這些觀點。


我們只有了解了統計工具,才能適當選擇和使用它。因此,我的許多工作都在研究不同統計方法的使用範圍,以便確定它們何時能夠被使用。我的大部分理論工作都是描述一些研究方法如何被已經存在的概念證實,例如隨機分配機制或採樣機制,而不是關於建模的假設。


我其他的工作還包括研究了靈活的、適應性強的統計制度在實踐中的應用趨勢,通過幫助人們對工具有真正的了解,他們可以最佳地識別和正確使用這些工具。


我設計了這些工具來分析實際感興趣的問題,當這些成果能夠被提供給其他人使用時,幫助人們用自己的數據解決自己的問題,我就實現了我的目標。


Q3

京領新國際:能談談關於您最感到驕傲的一些學生嗎?


Miratrix教授:我有太多令我感到驕傲的學生了,所以我很難去專門挑選出某個學生的故事進行分享,我教過高中生,本科生和研究生,實際上,能夠和那些極度優秀的學生一起度過學習的時間,我感到非常榮幸。


當我還是一名高中老師時,我教授計算機科學和編程的課程。為此,我寫了一本名為「Java, bots, and you」的教科書,這本書用來教授學生的第一門Java編程課程。


通過這種方式,學生可以掌握自己的學習節奏,在課堂上,學生們總是願意嘗試解決超過既定學習範圍的問題,用於拓展和發現。


我的一個學生J對此感到非常興奮,以至於他以最快的速度學完了這本書,得到了非常多的收穫。隨後他便開始「現學現賣」,用實驗室中所有的計算機編寫分布式程序來解決「魔術方塊」(一種數學問題)。


看著他將課程中的工具與資源以及學習後掌握的知識直接應用到解決實際問題上,我真的感到非常高興。


我在哈佛教授統計學課程時,會要求學生在學期末完成一個「最終項目」, 學生將為這些項目做各種令人興奮事情。


我最印象深刻的是,一群學生決定研究有機食品的價格比傳統食品到底貴多少。他們首先去了幾個不同的食品市場,制定了一些規範化的雜貨清單,以生成有關食品價格的大型資料庫。然後他們寫了一份報告,研究了這些食品的價格如何隨各種因素的變化而變化,例如商店的類型、食品是否為有機食品等等。


看著學生們能夠用自己所學的知識與掌握的數據來回答實際生活中的問題,真讓人感到驕傲。


我同時還指導高年級學生們進行論文的寫作,其中一些學生的表現讓驚嘆。


例如,有一個學生曾為地震後海地的救濟方案進行評估體系的設計,令人敬佩的是,她不僅只是「紙上談兵」,她真的去了海地,並與在當地的國際救援組織樂施會進行合作,以確保評估方案得以實施。其實很多救援組織都沒有意識這類評估工作的重要性,因為它使人們能夠了解哪種援助方案有效。


我也為我的所有研究生們感到驕傲,從數理理論到實踐應用,學生們都產生了各種非常重要的成果。


例如,我的一位學生對於非常感興趣我們從針對學生的大規模管理數據中了解到哪些信息,比如說,如果我們知道某些學校正在嘗試一種新的教學方法,那麼我們如何得知該教學方法是有效的呢?


其中一種方法通過分組比較,即找到一些學校,這些學校除了使用新的教學方法外,其他方面與傳統學校相似。然後進行對比分析,以查看學生呈現出的成果是否存在系統性的差異(例如考察學生考試成績)。如果這種方法行得通,那麼這確實可以為學習很多不同的教育實驗打開大門。


但這種辦法行得通嗎?


我的學生正在研究一大堆隨機對照試驗,並將它們作為這些基於比較的方法的基準,以檢查該方法的效果。這是一項令人期待的工作,這需要學生對正在使用的數據以及對評估所必需的統計方法有深刻的理解。


京領藤校科研項目簡介


京領藤校科研,即KingLead Advanced Research Program,是一個全球化、高端化、專業化的青少年高端科研項目。


京領藤校科研由國內外著名大學傑出學者、世界知名公司高管以及教育行業資深專家為主的專家團隊共同發起,旨在推動國際化創新性人才培養,促進社會創新發展!


項目導師


京領藤校科研項目導師以美國哈佛大學現任教授為代表,美國藤校現任教授為主體,美國前30大學現任教授為基準。



項目價值

註:

教授私人推薦信並非教授與項目合同中需要履行的義務。


關注下方公眾號

立即報名與哈佛大學現任教授一起做科研



關鍵字: