她為何能預測古巴霍亂和伊波拉病毒爆發?

秦朔朋友圈 發佈 2020-01-23T15:39:57+00:00

突然心生不安和焦慮,為什麼我那麼不敏感,為什麼此前年輕一代學者、研究者、媒體人都不敏感,最後扛大旗的人還是抗擊SARS那幫以鍾南山院士為首的老英雄。

· 這是第3110篇原創首發文章 字數 2k+ ·

武漢新型冠狀病毒肺炎疫情最早發現應該是2019年12月8日,現於報端是12月30日,再到全國範圍內引起警覺和高度重視,已經經過了三周時間。

筆者進行了自我反思,作為每天都關注新聞和輿論,曾經有多年的公共事務研究經歷的讀書人,居然對事態的演進沒有預測和判斷。突然心生不安和焦慮,為什麼我那麼不敏感,為什麼此前年輕一代學者、研究者、媒體人都不敏感,最後扛大旗的人還是抗擊SARS那幫以鍾南山院士為首的老英雄。且充滿感慨,中國網際網路界和科技界這麼強調大數據,最後無一應用於社會科學研究和相關事件預測和預警。

於是想起一個科技界的奇女子。一個叫吉拉·拉丁斯基的數據科學家,以色列猶太人,85後。她曾利用大數據預測古巴霍亂和非洲伊波拉病毒。人們給她冠以「先知」之名。這個「科技女巫」,真的很傳奇。

筆者聽過她演講,跟她有一兩句的交流。她說話聲音很平靜,看上去很清瘦,網上的照片應是不上相,穿著打扮就是一個科學家和研究者的模樣。

她原出生於烏克蘭,1990年,蘇聯解體前夕,她4歲時,母親為了讓她在穩定的環境中獲得良好的教育,帶她到以色列定居。而他父親選擇留在烏克蘭,做正統的猶太人,後來就不與她們相往來了。

8歲,她開始學習編程,15歲以史上最年輕的年紀進入以色列理工學院進修,與已經服完兵役的同學們一起讀本科。在本科期間,她還服了兵役,成為某絕密組織的一員。退伍之後,本科也順利畢業了,於是接著完成碩士學業。

為什麼她那麼小就學編程,因為她母親和姑母都有數學和計算機的高等教育背景,有一個說法是,她就出身於數學世家。妥妥的天才基因和完美的教育環境。

2007年,21歲的她被美國麻省理工學院錄取,攻讀博士,主修數據挖掘技術,26歲畢業。讀博期間,在微軟當過研究員,開發應用大數據預測重大事件的算法,包括政局變動和重大流行病。她用來預測古巴霍亂疫情的算法也在這期間初具雛形的。此外,讀博期間,她還在以色列創立自己的公司Salespredict。

至於,她為什麼會創業,主要是受她丈夫的影響。她的丈夫是她的高中同學,兩人都是學霸。以色利科技初創企業的氛圍很濃厚,她丈夫比她先創業,受他影響,她才從學術研究轉到創業中去,並且方向是真正的學以致用,用數據挖掘技術和大數據分析來預測研究重大事件的發生機率和發展趨勢。兩人現在都是以色列的科技新貴。

Salespredict一炮而紅,是因為2013年,她提前幾個月成功預測了古巴百年難遇的霍亂疫情。主要的研究方法是,她帶領團隊挖掘了150年的文獻資料,並發現了諸多歷史事件之間的聯繫,最終準確預測了。歷史規律總是需要不斷復盤,思考,最終用很多事件去印證,但發現一個關鍵信息,並且加深研究,也很重要。比如,有一條信息是這樣的,在孟加拉,1982年發生乾旱之後又有洪水暴雨,隨後發生了霍亂。水多的國家容易發生霍亂。

這種數據挖掘結合文獻研究的做法,真的挺神奇的,為學術研究提供了創新性、普適性的框架。任何一個信息,可能都不是孤立存在的,一定有某種關聯,而要真正找到緊密的因果關係,需要靈感直覺、邏輯推理、及算法算力的支持。

在人工智慧時代,人們總是擔心它比人厲害多了,還能深度學習,將來要替代掉人,很多人都要失業。其實,這種擔心是多餘的,人工智慧遠不能脫離人去研究人類社會,因為它不能像人一樣具有複雜背景的思考能力,因而可以做出更貼合人類社會的因果推理。人工智慧更沒有直覺、靈感等玄妙的力量。

機器只知道簡單的關聯關係和因果關係,而人不僅可以關注複雜的因果關係,還能加入動力學等觀點,進行複合理論研究和推理。

又比如,2011年,她發現在阿肯色斯州,在google上有很多人搜索鳥類死亡,但沒有發現有傳染病傳播的痕跡,後來很多死魚也被衝上了岸。人們紛紛懷疑,是不是動物集體自殺了?或是末日要來了?抑或是要發生地震等自然災害了。

但後來研究發現,都不是,是原油外泄了。這個事故發生在六個月前。這麼久之前的事件,機器是想不出來的、更關聯不上的。只有人具有推理能力,因為氧氣在水中被油完全隔絕,需要3-6個月的時間。也就是說,水中徹底缺氧了,大批魚類才會死亡,鳥沒有魚吃,也會死亡。

還是2011年,日本海嘯,ipad在美國西岸價格升高。什麼原因呢?機器肯定也找不出來。只有人類知道,因為其中一個晶片提供的廠商是位於日本海邊的工廠,造成ipad短缺。要買,就要付高價。

而對於伊波拉病毒,她的團隊曾經開發過一種專門追蹤和分析伊波拉病毒的軟體。通過數據挖掘,他們發現,在非洲的一些地區,人們為了尋找黃金或鑽石,會大面積毀壞森林,使得動物被迫遷徙,流離失所,其中就包括一些攜帶了伊波拉病毒的蝙蝠,而後來據傳有人吃了蝙蝠,這顯著地加大了伊波拉病毒爆發蔓延的機率。

現在人們發現,大部分的病毒都是蝙蝠攜帶的,甚至它們都是SARS的原宿主,本來動物和病毒之間可以相對和平地相處,但自然界裡的平衡隨著人類吃野生動物而打破。人深度參與了還未被完全認知的生態循環之中,是多麼可怕的一件事啊。

吉拉現在在以色列,還在進行各地區犯罪機率高低的預測,比如預測下一個犯罪點是哪裡,用算法,可以影響警察巡邏,從而降低犯罪率(據稱,目前已經降低了12%)。具體的素材(或指標方面)包括:每個地區的收入、廢棄的建築物和車輛的情況,twitter上是否經常討論,還有警方給的犯罪記錄等等,根據這些情況推測下個月可能發生高犯罪率的地方。

關於預測流感,谷歌曾經非常想預測,比如一段時間內搜索的多了,是不是代表流感可能要就爆發了,最好能夠提前兩三周能預測到。但其實光是搜尋引擎這個工具,是達不到效果的。這背後還是一個複雜的社會系統和生態系統的研究。

中國的人工智慧和大數據已經很發達了,真希望有一天,也能夠應用到社會研究上,特別是對於疾病疫情等突發事件的預測。中國現在對於大數據、物聯網、5G、生物醫療產業越來越重視,但其實還應該搭配發達的社會研究。

筆者現在非常擔憂自己直覺和研究能力的退化。半年前的一條看似孤立的信息,都可能是某個事件發生的導火索,但我們竟然對一條幾周前的武漢新型冠狀病毒肺炎的信息,那麼不警覺。特別是一想到,身邊認識的孩子們,呼吸道弱的人越來越多。到處都是支氣管炎、哮喘和過敏性鼻炎患者,本來肺部系統就弱,空氣及飛沫里傳染的東西,真的不能再輕視半分了。

1月17日,世衛組織通過疾病模型推算出了感染的數字,當時看上去比報告的多不少。這幾天一個SIR模型在流傳,用SARS參數模擬武漢新型肺炎傳播途徑。主要結論是50天左右集中爆發(12月8日至1月20日);從病毒爆發後的大概90天達到高峰(3月上旬),4個月左右接近尾聲,5月上旬結束。這個研究也是很實際的。

也感慨,中國什麼時候才能出現吉拉這樣,文理科全通,社會科學和計算機科學全通的人才啊。

最後祝大家都健健康康、平平安安的。

「 本文僅代表作者個人觀點 」

「 圖片 | 視覺中國 」

內容合作、投稿交流:friends@chinamoments.org

關鍵字: