為了研究因果關係,原來科學家在這麼多方向上都有嘗試(附連結)

thu數據派 發佈 2020-01-01T13:04:10+00:00

圖3:a)人類的思考方式,從觀察到抽象表征出模型,再基於模型回答相關問題,b)仿照人腦認知的神經網絡架構,其中假設對觀察的表征要儘可能簡潔研究者設計了兩個神經網絡,一個發現規律,一個解釋規律,在沒有進行任何初始假設的前提下,根據太陽系行星的運動軌跡的數據,通過壓縮感知,發現了天體

來源:集智俱樂部

本文約3500字,建議閱讀8分鐘

本文嘗試整理近年來關於因果推斷的代表性研究,梳理出幾個典型的探索方向。

[ 導讀 ]自從休謨喊出「因果是人類的錯覺」,科學家就再也停不下對因果關係的探尋。本文嘗試整理近年來關於因果推斷的代表性研究,梳理出幾個典型的探索方向。

在現代科學到來之前,人們從經驗出發,通過歸納獲得知識。歸納方法受限於觀測,無法產生突破性成果。而現代科學則是先從事實歸納出假設、模型,再根據數據去驗證模型是否正確。而所謂的模型,則是對因果關係的一組假設。現代科學的方法論,追根究底就歸結於到因果關係的判定。

2002 年,加州大學伯克利分校教授亨利·布雷迪撰文整理了因果推斷的各種經典理論,並根據不同假設,將其整理為:新休謨理論、反事實理論、操控實驗理論、機制理論這4類,自然科學和社會科學中許多針對因果關係的檢測方法,都可以歸於其中。

論文題目:

Models of Causal Inference: Going Beyond the Neyman-Rubin-Holland Theory

論文地址:

http://www-personal.umich.edu/~wmebane/midx2003.pdf

而從計算視角,近年來還興起了利用「柯爾莫哥洛夫複雜度」「壓縮感知」的新方法。

本文從這幾個角度出發,簡要梳理近年來關於因果關係檢測,特別是複雜系統中因果檢測的代表性研究。

1. 休謨之問:如何證明

是因果關係而非相關關係

哲學家大衛·休謨最早深刻思考「因果關係」:人們所謂的因果,實質上是對「相關關係」的歸納推理,而相關性無法保證因果性。休謨有言——「因果關係」是我們的錯覺。

之後,以恩斯特·馬赫、伯特蘭·羅素等人為代表的物理學家和數學家,改造了休謨的理論,提出了新休謨式(New Humean)的框架——X如果是Y的原因,那麼X的出現,應該是Y出現的充分條件。

這一類的典型研究是 2012 年 Science 刊載的一篇針對複雜生態系統中因果關係檢測的論文。文中提出了收斂交叉映射算法,綜合考慮 X 推出 Y、從 Y 倒推 X,來判斷其因果關係,效果良好。這類方法所量化的,不是變量 X 和變量 Y 之間因果關係的強弱,而是它們之間存在因果關係的可能性。

論文題目:

Detecting Causality in Complex Ecosystems

論文地址:

https://science.sciencemag.org/content/338/6106/496

相關閱讀:

Science經典論文:如何檢測複雜生態系統中的因果關係?

http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247500394&idx=1&sn=06c5c3579b538ff8d960af0db6edbba5&chksm=e89798e7dfe011f1a01f720f6d0bf67486534a51ca23a1912864d7302e1c80eabcdef7df7f34&scene=21#wechat_redirect

另一個典型的方法,是2019 年 11月 的 Science Advances 一篇論文中提出的 PCMCI 算法。複雜系統中存在大量非線性相互關係,因果作用有較長時間滯後,並且要素之間只在部分情況下會出現因果關係。針對這些特點,這套算法,既考慮到「錯誤檢出因果關係」,也考慮到「未檢出因果關係」,因而模型具有更強的檢測能力。

圖 1:將PCMCI算法應用到全球氣候數據中,檢測WPAC(西太平洋)、CPAC(中太平洋)、EPAC(東太平洋)、ATL(大西洋)之間的因果關係

上圖展示了該方法在全球氣象數據中的應用。圖中的每個圓圈代表的某個地區的氣候系統,圖片下方的顏色深淺代表了因果性/相關性的強弱。左圖展示了不同地區之間的相關關係,右圖是 PCMCI 算法從相關關係中檢測出的因果關係。可以發現,因果箭頭遠遠少於相關箭頭,且相關性的強弱不等於因果性的強弱,這說明了 PCMCI 算法能夠從複雜系統內的眾多關係中,找出真正的因果關係。

論文題目:

Detecting and quantifying causal associations in large nonlinear time series datasets

論文地址:

https://advances.sciencemag.org/content/5/11/eaau4996

2. 反事實——

思想實驗中的因果推斷

如果X沒有發生,那麼是不是Y就一定不會發生?這樣假設事件沒有發生的思想實驗,就是反事實型(count factual)的因果關係檢測。

哲學家大衛·劉易斯,完善了反事實條件語句,把反事實因果推斷的方法推向正軌。這套方法的優點,在於其能夠通過思想實驗,來探討因果關係,而不需要真實場景。

英國歷史學家尼爾·弗格森寫《虛擬的歷史》這本書,探討歷史上的大事件究竟是偶然還是必然。書中是假設在某個關鍵節點上,某件事並沒有發生,歷史的演化會是怎樣。這就是反事實的思想實驗方法。

中文屋的思想實驗,則是美國哲學家約翰·希爾勒提出另一案例。假設一個不懂中文的人,藏在屋裡,Ta能夠通過執行某個關於「如何進行中文對話」的規則系統,騙過人們,讓人們誤以為Ta理解中文。如果你不認為中文屋裡的Ta理解中文,就會形成反事實,從而反駁了圖靈測試中的因果假設——因為電腦可以模擬人腦的某些特定功能,所以可以認為電腦具有人類的智能。

3. 操控實驗——

如何用實驗分析因果關係

隨機雙盲實驗,是醫學界最常用的因果檢測方法。常用語藥物效果檢測,通過將人群隨機分為兩組,使兩組在各種評價指標上都儘可能相似,而唯一不同的是待考察的原因,進而根據兩組之間的區別判定因果關係。

網際網路公司做的AB測試,也是通過給不同組的用戶展示不同樣式的網頁,來判定不同的網頁設計、文章標題等因素和點擊率之間的因果關係。

現實中還有很多場景無法進行隨機雙盲實驗,但可以通過觀察,看到不同行為產生不同的影響。美國統計學家唐納德·魯賓,提出了「虛擬事實模型」,通過計算來檢測因果關係——根據觀察結果,用算法模擬進行雙盲實驗,看會得到怎樣的因果聯繫。

專注因果推斷研究的學者朱迪亞·珀爾則質疑魯賓的虛擬事實模型,他認為自己的因子圖模型(casual diagram)更清晰。但數學家已經證明,珀爾的模型其實是和魯賓的模型是等價的,只是表達形式不同。

圖 2:計算機科學家,圖靈獎得主朱迪亞·珀爾和他的《為什麼》

4. 發現機制——

從原因怎樣一步步推到結果

因果關係,無論怎樣研究,都繞不改因素之間內部的作用機制。找到了一條從原因到結果的影響機理,才能真正判斷因果關係。

比如針對「吸菸是肺癌的原因嗎」這個大問題,一方面,研究者會考察被試人員在吸菸後,肺部組織會發生怎樣的變化,這些變化又是如何導致癌細胞更容易出現的。另一方面,研究者提取出香菸中的尼古丁,再通過體外實驗,最終確定菸草中的尼古丁致癌。類似的研究思路,也被應用在尋找基因變異和疾病之間的關係上。

2019 年初,新刊 Nature Machine Intelligence 的一篇論文,提出一套通用的、無監督且無參數的算法,能夠通過反卷積操作提取模型、進行因果聚類,在對元胞自動機數據和圖網絡數據的處理中,都性能良好。這在機器學習傳統統計方法之外,探索了如何教會機器理解因果關係。

相關閱讀:

Nature機器智能:如何基於算法信息破解因果推斷難題

http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247495957&idx=1&sn=24da64035691500936e9cb6505f60bf1&chksm=e897ab98dfe0228e5b26f7fe3e6dd9a5eadb36c66ab217f58c089325ec4d7a27b977fad88d3d&scene=21#wechat_redirect

論文題目:

Causal deconvolution by algorithmic generative models

論文地址:

https://www.nature.com/articles/s42256-018-0005-0

計算理論的思想,近年來也被引入了因果關係研究中。2019 年 10 月發在 arxiv.org 的一篇預印本是這類研究的典型,研究者基於條件機率下的 Kolmogorov 複雜度不同,推導變量之間的因果關係。

論文題目:

Causal Inference via Conditional Kolmogorov Complexity using MDL Binning

論文地址:

https://arxiv.org/abs/1911.00332

5. 壓縮感知——

因果關係推斷新方向

利用壓縮感知方法,研究因果關係,是新興的一個研究方向。壓縮感知又稱壓縮採樣或稀疏採樣,是信號處理領域的概念,指通過採用更少的信息、來儘可能逼真地重現原始數據中的模式。經過壓縮,噪音和非必要信息被過濾,數據中的因果關係能夠更容易被找到。

根據基因與環境的相互作用數據,找到影響人身高的基因突變位點,該方法能夠找到70%-100%的之前傳統方法(全基因組關聯分析)找到和身高相關的位點,通過改變L1正則項的權重(壓縮的比例),還能夠在尋找相關位點的的過程中,發現能找到的位點數目突然增多(相變現象)。

論文題目:

Applying compressed sensing to genome-wide association studies

論文地址:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4078394/

對於時間序列的數據,可以採用網絡重構的方法找到因果關係,而重構網絡的過程,本質上是對信息的壓縮過濾。在 2014 年發表於 Nature Communications 一篇論文中,研究者基於傳染病傳播的時間序列數據,使用相對較少數據,且在部分節點無法獲取數據的條件下,用重構後的網絡,去除數據中的噪聲,找出了傳播源。

論文題目:

Reconstructing propagation networks with natural diversity and identifying hidden sources

論文地址:

https://www.nature.com/articles/ncomms5323#Sec1

找到因果關係,對於構建可解釋的機器學習模型至關重要。要解釋模型的決策,模型要能回答反事實的what if型問題,這需要機器能構建因果關係模型。

2019 年 10 月發表在 Physical Review Letters 的一項研究,藉助壓縮感知,同時參考了人腦認知設計神經網絡架構,讓機器學到了天體運行背後的因果規律。

圖 3:a)人類的思考方式,從觀察到抽象表征出模型,再基於模型回答相關問題,b)仿照人腦認知的神經網絡架構,其中假設對觀察的表征要儘可能簡潔

研究者設計了兩個神經網絡,一個發現規律(用更少的神經元表征數據中的規律),一個解釋規律(找到因果模型),在沒有進行任何初始假設的前提下,根據太陽系行星的運動軌跡的數據,通過壓縮感知,發現了天體之間的關係——地球繞著太陽轉。

論文題目:

Discovering physical concepts with neural networks

論文地址:

https://journals.aps.org/prl/accepted/9e07eY09T2e1fd7f88ae46166090ef41fa6ad4c34

因果推斷的具體方法,有很多種,然追根溯源,都可以追溯到某一種樸素的假設上。這篇文章整理了對因果推斷方法近年來的一些代表性研究,希望幫你建立對因果推斷研究的粗略認識。

編輯:王菁

校對:王欣

— 完 —

關注清華-青島數據科學研究院官方微信公眾平台「THU數據派」及姊妹號「數據派THU」獲取更多講座福利及優質內容。


關鍵字: