2019 年上萬篇論文發表,這 14 篇脫穎而出

csdn 發佈 2020-01-25T16:42:47+00:00

《SingleHeaded Attention RNN: Stop Thinking With Your Head》 在這篇論文中,哈佛大學的研究生Stephen調研了自然語言處理方向研究現狀,所使用的模型以及其他替代方法。

作者 | newworldai

譯者 | 劉暢

編輯 | Jane

來源 | AI科技大本營(ID:rgznai100)

人工智慧領域每年發表超過14,000篇論文。這個領域吸引了全球多個重量級的研究小組。諸如NeurIPS,ICML,ICLR,ACL和MLDS之類的AI會議每年都會吸引大量的論文。2019年,論文提交的數量還在增加。今天,我們將分享 2019 年備受關注的 14 篇論文,助大家開啟 2020 年學習旅程一臂之力。

《Single Headed Attention RNN: Stop Thinking With Your Head》 (Stephen Merity, November 2019)

在這篇論文中,哈佛大學的研究生Stephen調研了自然語言處理方向研究現狀,所使用的模型以及其他替代方法。在這個過程中,他從頭到尾拆解了常規的方法,包括詞源。

該作者還表示,機器學習摩爾定律的必要性。該定律是關於計算機的未來,同時還有從頭開始重建代碼庫。這既是一種教育工具,又是學術界和工業界未來工作的強大平台。

《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》 (Mingxing Tan and Quoc V. Le, November 2019)

在本項工作中,作者提出了一種複合的縮放方法,該方法可以指出何時增加或減少某個網絡的深度、高度和解析度。

卷積神經網絡(CNN)是許多機器視覺應用程式的核心。EfficientNets可以以谷歌開源新模型EfficientNet,或成計算機視覺任務新基礎》

《Deep Double Descent By OpenAI》 (Mikhail Belkin, Daniel Hsu, Siyuan Ma, Soumik Mandal, September 2019)

在本文中,作者嘗試了在統一的性能曲線內去平衡傳統的理解和現代的實踐。

「二次下降」曲線可以顯示超出插值點的模型如何提高性能,因此取代了經典的U型偏差方差trade-off曲線。

《The Lottery Ticket Hypothesis Jonathan Frankle》(Michael Carbin, March 2019)

神經網絡修剪技術可以將經過訓練的網絡參數數量減少90%以上,減少存儲需求並提高推理的計算性能,而不會影響準確性。

作者發現,標準的修剪技術自然可以發現子網,這些子網的初始化使其能夠有效地進行訓練。基於這些結果,他們介紹了「彩票假設」:

《On The Measure Of Intelligence》 (Francois Chollet, November 2019)

這項工作總結並批判性地評估了智能和評價方法的定義,同時給出了引導這項工作的人工智慧歷史概念。

作者,也是keras的創建者,介紹了基於算法資訊理論的智能的正式定義。並基於此定義,他針對通用AI基準提出了一套指南。

《Zero-Shot Word Sense Disambiguation Using Sense Definition Embeddings via IISc Bangalore & CMU》 (Sawan Kumar, Sharmistha Jat, Karan Saxena and Partha Talukdar, August 2019)

詞義消歧(WSD)是自然語言處理(NLP)中一個長期存在的研究問題。當前受監督的WSD方法將語義視為離散標籤,並且還用於預測訓練中未曾見過單詞的「最頻繁詞義」(MFS)。

IISc班加羅爾的研究人員與卡內基梅隆大學合作,提出了擴展的WSD結合語義嵌入(EWISE),這是一種通過預測連續語義嵌入空間而不是離散標籤空間的WSD監督模型。

《Deep Equilibrium Models》 (Shaojie Bai, J. Zico Kolter and Vladlen Koltun, October 2019)

由於觀察到許多現有深度序列模型的隱藏層趨於某個固定點,因此卡內基梅隆大學的研究人員提出了一種通過深度均衡模型(DEQ)對序列數據進行建模的新方法。

使用這種方法,無論網絡的有效「深度」如何,這些網絡中的訓練和預測都僅需要固定的內存。

《IMAGENET-Trained CNNs are Biased Towards Texture》 (Robert G, Patricia R, Claudio M, Matthias Bethge, Felix A. W and Wieland B, September 2019)

人們普遍認為,卷積神經網絡(CNN)通過學習目標形狀的複雜表示來識別物體。本文的作者評估了在具有紋理與形狀衝突的圖像上,CNN和人類的結果。他們表明ImageNet-trained CNN強烈傾向於識別紋理而不是形狀,這與人類的識別方式形成鮮明對比。

《A Geometric Perspective on Optimal Representations for Reinforcement Learning 》(Marc G. B , Will D , Robert D , Adrien A T , Pablo S C , Nicolas Le R , Dale S, Tor L, Clare L, June 2019)

作者提出了一種基於價值函數空間幾何特性的表示學習新視角。這項工作表明,對抗值函數展現了其有趣的結構,並且在學習環境表示時是很好的輔助任務。作者相信這項工作為在深度強化學習中自動生成輔助任務的可能性開闢了道路。

《Weight Agnostic Neural Networks》(Adam Gaier & David Ha, September 2019)

在這項工作中,作者探索了在不學習任何權重參數的情況下,僅神經網絡架構是否可以對給定任務的解決方案進行編碼。在本文中,他們基於神經網絡架構提出了一種搜索方法,該方法無需任何明確的權重訓練就可以執行任務。

《Stand-Alone Self-Attention in Vision Models》 (Prajit Ramachandran, Niki P, Ashish Vaswani, Irwan Bello Anselm Levskaya, Jonathon S, June 2019)

在這項工作中,谷歌研究人員證實了基於內容的交互可以服務於視覺模型。本文所提出的局部自注意層在ImageNet分類和COCO對象檢測任務上取得了競爭性的預測性能,同時與相應的baseline卷積方法相比,所需的參數和浮點數運算更少。結果表明,注意力機制在網絡的後半部分尤為有效。

《High-Fidelity Image Generation With Fewer Labels》 (Mario Lucic, Michael Tschannen, Marvin Ritter, Xiaohua Z, Olivier B, and Sylvain Gelly, March 2019)

當擁有大量的標記數據時,目前的模型可以達到非常高的質量。為了解決這種對大數據的依賴性,Google的研究人員發布了這項工作,以證明人們如何從自我學習和半監督學習中受益,從而在無監督ImageNet以及有限時條件的情況下都優於目前的SOTA結果。

所提出的方法能夠僅使用10%的標籤就能匹配在ImageNet上最新條件模型BigGAN的樣本質量,而使用20%的標籤時,則能優於它(BigGAN)

《ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations 》(Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin G, Piyush Sharma and Radu S, September 2019)

作者提出了兩種減少參數的技術,以降低內存消耗並提高BERT的訓練速度,並解決因模型尺寸增加和GPU / TPU內存限制,帶來的更長訓練時間以及模型降級挑戰。

結果,該提出的模型在GLUE,RACE和SQuAD基準上建立了最新的SOTA結果,而參數卻比BERT-large更少。

《GauGANs-Semantic Image Synthesis with Spatially-Adaptive Normalization》(Taesung Park, Ming-Yu Liu, Ting-Chun Wang and Jun-Yan Zhu, November 2019)

Nvidia與UC Berkeley和MIT合作提出了一個模型,該模型具有空間自適應的歸一化層,用於在給定輸入語義布局的情況下合成照片級逼真的圖像。

該模型保留了視覺保真度,並與具有挑戰性的輸入布局保持一致,同時允許用戶控制語義和樣式。

原文連結:

https://www.newworldai.com/top-14-machine-learning-research-papers-of-2019/

關鍵字: