貝爾實驗室和周公「掰手腕」：AI算法解夢成為現實

作者 | 青暮、蔣寶尚

編輯 | 青暮

幾百年前的愛爾蘭。有一對夫妻，他們彼此相愛。丈夫的頭髮是淺棕紅色的、捲曲的，妻子也是捲髮。他們是牧羊人，靠用綿羊毛織布來謀生。妻子甚至把還在羊背上的羊毛直接織成了布。這個冬季對於綿羊而言非常溫暖，因為新的羊毛從緊貼皮膚的編織羊毛下生長出來了。然後，出現了幾個富人，搶走了他們的土地，還砍斷了男人的腿。

上述文字描述了一位三十歲女藝術家的夢境，對於這個夢境報告，下圖給出了評估結果。結果顯示，這個夢境的屬性是想像的、負面情緒的、男性特徵的，以及有攻擊性的，並被歸類為噩夢（紅色）。

你可能會以為這是一個解夢師給出的判斷，但實際上，為女藝術家解夢的，是一個AI算法。

最近，在一篇發表於《皇家社會科學學會》期刊上的研究中，來自諾基亞貝爾實驗室（Nokia Bell Labs）和羅馬大學的三位研究員合力使用AI算法分析了數千個夢，表示AI可以識別並量化夢的特徵，特徵之間的相互關係，以及夢境反映的情緒，從而幫助心理學家快速識別患者中潛在的壓力源和心理健康問題。

這篇文章在Science網站上也有推薦

例如，一位十幾歲的女孩Izzy描述她的夢境：「我當時在家裡，那愚蠢的《Looney Tunes》節目中可怕的紅色怪物正四處走動。」

用AI給出的判斷是負面情緒的、有攻擊性的，並歸類為噩夢，如下圖所示。結合Izzy的年齡，這個夢境很可能是她青春期焦慮的一種表現，反映了她日常的焦慮情緒。

1 夢境解讀基礎：連續性假說

在歷史上，人們一直試圖從夢中提取隱藏的意義。古巴比倫人相信夢境包含了預言，而古埃及人則將其視為神靈傳達的信息。1890年代，西格蒙德·弗洛伊德為夢境中的人物、物體和場景賦予了象徵意義。

今天，大多數心理學家都支持「連續性假說」（continuity hypothesis），認為夢是清醒生活的延續。在文章開頭的夢境中，我們也能看到，女藝術家的夢境反映了審美概念。確實，許多研究表明，夢通常反映了日常生活，可以充當夜間治療師，幫助人們處理心事，並為現實生活中的問題做準備。

諾基亞貝爾實驗室的計算社會科學家、該研究的合著者Luca Maria Aiello說：「如果我們能夠從規模上更好地理解夢境，或許未來也可以量身定製改善清醒生活的技術。」

但是，對於心理學家而言，夢境分析是一項耗時的任務，他們必須將夢境日記提取為組成部分並搜索主題和模式。為了加快這一過程，Aiello和同事建立了一種算法，該算法自動分析了DreamBank.net整理的24,000多個夢境報告。

使用在心理學常用的編碼系統，該算法為每個夢境計算出一系列分數：例如，人物的平均攻擊性，或負面情緒與正面情緒的比率。當研究人員將算法計算出的分數與心理學家計算出的分數進行比較時，發現匹配率高達76％。

研究人員說，該系統可以幫助心理學家快速識別異常夢，異常夢可能預示著壓力源或潛在的心理健康問題。通過將每個夢境的得分與沒有身體或精神疾病報告的人的夢境得分的平均值進行比較，該算法可以識別出異常夢。

該算法還使研究人員能夠根據性別、年齡或精神病狀況分析夢境的差異。Izzy擁有長達13年的夢境日記，在她青春期最初的這段時間裡，經常會出現負面情緒，而這段時間的情緒通常與社交焦慮有關。

當我到達學校時，Samantha和我見面。她給了我一些我在書包里發現的紙，一張紙寫著我對Dylan Moran的愛，而另一張紙則寫著我對Daryl、Eugene、Dmitri和Darius的愛。我真的很害怕，我告訴她不要告訴任何人。她正在和Payton說話，我非常擔心。

這個也是Izzy的夢境，AI判斷這個夢境是男性特徵的、象徵友情的、部分女性特徵的，以及負面情緒的，但耐人尋味的是，AI還將其歸類為美夢。

類似地，被診斷為創傷後應激障礙的越南戰爭退伍軍人的夢境報告的攻擊性高於平均水平。

作為越南戰爭的見證者，我認為戰爭總是離我不遠。我躺在雙層床上，整理某人的物品。這個人顯然已經死了，他收集了一些郵票。我翻閱一本小專輯時，看到了我小時候收集的許多美國航空郵票。突然，附近的一個人被槍擊並倒下。我看到子彈飛過，射向他附近的泥水。兩位身穿紅色和白色條紋連衣裙的護士向他伸出援手，完全背對著敵人。他們的英勇或愚蠢使我驚訝，一名護士照料了那名受了致命傷的男子。

這位越南戰爭退伍軍人的夢境明顯帶有攻擊性特徵，AI將其判斷為想像的、負面情緒的，以及攻擊性的，並歸類為噩夢。

「夢境不僅告訴我們當天的經歷，而且還告訴我們自己是誰」，Aiello說，夢境報告中的模式傾向於反映日常生活中的模式，從而支持連續性假設。

哈佛大學的睡眠精神病學家Robert Stickgold表示，這項研究是對夢境使用自動文本分析的一個「很好的例子」。但他告誡說，不同人群之間夢境的明顯差異實際上可能源於報告差異。例如，女人在夢中不一定會比男人經歷更多的情緒，但她們可能會使用更多充滿情緒的詞語來描述夢境。Stickgold說：「我們對夢境報告之間的差距估計可能要更加保守。」

他還指出，在不了解夢者的情況下，很難將夢境與清醒生活聯繫起來。Aiello表示同意，而且他不認為他的算法會很快使治療師失業。他說：「我認為這個算法為夢境科學家擴大研究規模提供了非常有價值的支持。這並不意味著專家將沒有更準確的方法來評估夢境。」

相較於普通人積極向上的中產美夢，一個平靜的下午對於這位越南戰爭退伍軍人而言已屬難得。

我正在鄉下與我心愛的狗Rusty同行。和往常一樣，我沒有給她套上項圈，她很快樂，儘管有點緊張。我們繼續步行，到達一個富裕的居民區。那裡既安全又安靜，周圍綠樹成蔭。我穿藍色牛仔褲，安心地走路。Rusty按照她的習慣在嬉戲。我們到達一家關閉的商店。我寵愛她，她將胳膊放在我的身上。我感到有一種強烈的幸福感。實際上，愛的感覺是我長期以來最深刻的感受。

可惜的是，AI正確地將其歸類為美夢，但只發現了「動物」的特徵。目前AI只能以關鍵詞標註來判斷夢境特徵，而不能理解其背後的「故事」。

Aiello希望有一天以移動APP的形式從更大規模的夢境報告中提供即時的算法見解。這將有助於增加數據集，並使研究人員更容易得出結論。他說，但夢者本人也可能會因此受益。「這對於更好地了解自己的生活和心理可能會很有用。」

2 五個假設說明現實與夢境的關係

前面也提到，這項研究在近期發表於《皇家社會科學學會》期刊上，由諾基亞貝爾實驗室（Nokia Bell Labs）和羅馬大學的三位研究員合力完成。

在論文中，作者設計一種新的自然語言處理算法，並利用該算法自動分析了 DreamBank.net 資料庫中的 24000 多個夢境。

具體而言，該算法能夠將夢境中的語言分解為更小的片段，把段落化為字句，而後制出樹形圖，通過一定的語法規則幫助人們理解夢境中字句之間的關係。這種算法還可將逐個單詞，單詞之間的相互關係劃分歸類，並將其與積極或消極的情感相聯繫。

在具體算法設計過程中，作者研究了五個因素：1、性別差異；2、處在青春期的年輕人；3、戰爭；4、失明；5、日常暴力。然後根據這五個因素給出了五個假設，整篇論文的工作都是在用AI論證這五個假設：

在性別差異因素探究中，作者引用了之前文化和心理學領域的研究結論，即女性的攻擊行為比男性的攻擊行為更溫和；女性的情緒表達能力比男性的也更強。因此，根據連續性假設，作者得出假設：女性的夢境更加感性，且「攻擊」程度有限。
在青春期因素中，作者考慮到青年的情緒穩定性，與父母的衝突以及社會焦慮等因素，作者做出假設：青少年的夢境以消極情緒為特徵。
在戰爭因素中，作者的考察對象是從戰場中返回的軍人，因此做出假設：退伍軍人的夢境是以消極情緒和攻擊性為特徵的。這個假設在越戰老兵身上得到了驗證，畢竟那群老兵的夢境經常與內疚和暴力相關。
盲人由於看不見，其嗅覺會增強，另外其想像的色彩比一般人要豐富，因此作者給出假設：盲人的夢境大多和虛構的人物以及現實中的照顧者息息相關。
在日常暴力因素中，作者研究的對象是美國，因為美國的暴力犯罪水平在20世紀60年代相當可觀，經過調查得出假設：經歷過「社會動盪時期」的人，其夢境以攻擊性為特徵。這個假設通過調查9.11恐怖襲擊得到了驗證。

3 基於成分的NLP分析

作者在論文中採用的是霍爾和范德卡斯爾夢境編碼系統，這一系統是從《夢的內容分析（The content analysis of dreams）》中提取出來，霍爾和范德卡斯爾系統一共將夢境分為了10個類別：

1、人物：人物、動物或者其他特徵

2、互動：人物之間的社交互動(如接吻)

3、情緒：人物經歷的情緒或表示某種情況的情緒(如悲傷)；

4、活動：角色執行的身體動作和感官體驗(例如嗅覺)；

5、奮鬥：主人公的成功或失敗；

6、(失誤)命運：由於主人公的行為，導致了主人公身上發生了幸運和不幸；

7、設置和對象：場景中存在的物理環境或對象(例如戶外、武器)；

8、描述性要素：物體、人物和動作的屬性和質量(如顏色、大小、速度)；

9、食物和進食：食物的存在或進食行為；

10、來自過去的元素：和主人公過去有聯繫的人物或元素(例如年輕的自己)；

當然，以上10個元素並不是同等重要，其中有三類：人物、社會互動和情緒是最有價值的。因為這三個因素包含了：誰在場，有哪些行動，表達了哪些情感等信息。作者也將重點放在根據反映這三個類別的衡量標準對每個夢境報告進行編碼。編碼結果如下：

有了上述三個指標，作者然後設計算法分析名為「夢庫（Dream Bank）」的大型公共夢境報告資料庫中的24000份夢境報告（DreamBank是一個由經過驗證的研究收集的夢的公共資料庫）。

算法工具在夢的報導例子中的應用。

整個算法的分析過程為：1、通過構建動詞(VBD)和名詞(NN，NNP)樹來解析夢境。然後使用兩個外部知識庫，使得算法能夠識別名詞中的人物、動物和虛構人物；3、根據人物的性別、是否死亡以及是否虛構對人物進行分類；4、識別表示友好、攻擊性和性互動的動詞；5、根據每個動詞的兩個行為者（動詞前的名詞和動詞後的名詞）可識別與否，確定每個動詞是否反映「互動」場景；；6、以及使用Emolex識別正面和負面情感詞。

在具體的自然語言技術上，該算法主要基於成分的分析。即將夢境報告文本進行分解解成部分，然後可以獨立地對其進行分析。這裡的成分指的是：作為連貫單位表現的詞組，它們要麼屬於短語類別(例如名詞短語、動詞短語)，要麼屬於詞彙類別(例如名詞、動詞、形容詞、連詞、副詞)。

隨後將「組成成分」被反覆分割成單個詞水平的「子組成成分」。這個過程的結果是一棵解析樹，即一個樹狀圖，樹的根是初始句子，結點是成分和子成分，葉子是單個單詞。

成分被疊代地拆分為子成分，向下延伸到單個單詞的級別。該過程的結果是語法分析樹，即樹狀圖，其根是初始句子，邊是反映英語語法結構的產生式規則(例如，根據主謂劃分拆分完整的句子)，節點是成分和子成分，而葉子是單獨的單詞。

在所有公開可用的基於成分的分析技術中，作者的算法結合了來自Python NLTK 工具包的StanfordParser（這是一個基於機率上下文無關文法的解析器）。該工具輸出解析樹，並用相應的詞彙或短語類別注釋節點和葉子。

在構建樹之後，通過應用NLTK中的形態函數Morphy，該工具將樹葉中包含的所有單詞轉換為相應的詞條(例如，它將「dreaming」轉換成「dream」)。

Via

https://www.sciencemag.org/news/2020/08/new-algorithm-can-find-hidden-patterns-your-dreams

https://royalsocietypublishing.org/doi/pdf/10.1098/rsos.192080

http://www.social-dynamics.net/dreams/