採訪了14位IT公司的創始人,他們如何看待2020年的AI行業?

cda數據分析師 發佈 2020-01-06T13:20:29+00:00

作者 | Gregory Piatetsky 編譯 | 木槿、張大筆茹、楚陽 來源 | 大數據文摘 原文 | Industry AI, Analytics, Machine Learning, Data Science Predictions for 2020 - KDnugge


作者 | Gregory Piatetsky 編譯 | 木槿、張大筆茹、楚陽 來源 | 大數據文摘 原文 | Industry AI, Analytics, Machine Learning, Data Science Predictions for 2020 - KDnuggets

科幻元年2020年馬上就要來了。對於技術行業來說,這一年會有哪些值得期待的變化?

KDnuggets採訪了14位科技前沿的技術公司創始人,並匯總了他們眼中的2020年:關於人工智慧、數據分析、數據科學、機器學習行業中的一些最具創新性的公司的預測。

Alluxio創始人兼CTO李浩源:一個機器學習框架適合任何場景

帶有模型的機器學習已經到了一個轉折點,各種規模和各個階段的公司都在努力訓練他們的模型。朝著實施其模型培訓工作的方向發展。儘管有幾種流行的模型訓練框架,但領先的技術尚未出現。

就像Apache Spark(專為大規模數據處理而設計的快速通用的計算引擎)被認為是數據轉換工作的領導者和Presto(Facebook開發的數據查詢引擎)逐漸成為交互式查詢的領先技術一樣,PyTroch和Tensorflow同樣會作為2020年的競爭者來主導機器學習廣泛的模型訓練領域。2020年可能是我們看到領先者的一年,它打敗PyTorch和Tensorflow作為,並將在更廣泛的模型培訓空間中占據主導地位。

K8s法分析堆棧

儘管容器和K8s在無狀態應用程式(例如Web伺服器和自包含資料庫)上表現出色,但在高級分析和AI方面,我們還沒有看到大量的容器使用。

在2020年,我們將看到在Kubernetes(簡稱K8s,提供了應用部署,規劃,更新,維護的一種機制)領域承擔AI和分析工作負載將變得更加主流。K8s法分析堆棧將意味著通過將數據從遠程數據孤島移到K8s集群中來解決數據共享和彈性問題,以實現更嚴格的數據局部性。

AI和分析團隊將合併作為一個新數據組織的基礎

昨天的Hadoop平台團隊是今天的AI和分析團隊。隨著時間的流逝,出現了許多獲取數據見解的方法。人工智慧是結構化數據分析的第一步。過去的統計模型已經與計算機科學融合為人工智慧和機器學習。

因此數據、分析和AI團隊需要合作,從他們共有的數據中獲取價值。這將通過構建正確的數據堆棧來完成,在本地或雲端或同時部署存儲孤島和計算將成為規範。2020年我們將看到更多組織圍繞此數據堆棧建立專門的團隊。

Alteryx首席數據和分析官Alan Jacobson:數據民主化脫穎而出

2020年將是數據最終實現民主化的一年。在經歷了過去幾年的醞釀之後,數據分析從數據科學團隊轉向各行各業並趨於飽和整個業務的全面飽和,這一趨勢最終將會陷入僵局。這種自適應的數據項自助服務革命將改變各個行業組織與數據交互的方式,彌合具有業務知識的人與具有數據知識的人之間的鴻溝。

藉助易於使用的API和大量數據源的結合,自主助服務分析將應用於成為數字轉換最重要的階段之一,數據集成。典型的數據工作者開始從IT領域轉移到業務領域,從而導致大量的工作者執行數據任務。結果將是處理更多的數據,進行更多的分析,最終對業務產生更大、更積極的影響。

Appen的首席技術官Wilson Pang

NLP的進步使聊天機器人得以廣泛採用,並為用戶提供在線問答等服務

今年和去年,我們已經看到了NLP(自然語言處理)的一些突破。例如,BERT擴展了NLP模型現在可以實現的功能。我們將在2020年看到越來越多的AI應用程式,如服務聊天機器人、在線問答、情感分析等。

機器學習工具和AIOps在企業中獲得了更大的吸引力

在過去的幾年中,我們目睹了整個機器學習和AI工具生態系統的成熟。圍繞整個技術堆棧的工具,比如數據注釋、模型訓練、調試、模型服務、部署和生產監控。這些工具明年將會大量增加。

為了幫助管理所有這些工具,更多的公司將在2020年轉向AIOps(基於人工智慧的智能運維)的實踐。大型公司的平台(例如AWS,GCP和Microsoft Azure)已經具有支持AIOps的良好工具,但是許多財富500強公司仍對部署到這些平台所在的雲中持謹慎態度。

安全和道德最佳實踐推動了更多本地AI部署

隨著越來越多的組織針對其AI計劃試驗更多數據,對AI的安全性和符合道德規範地使用將變得越來越重要。在這個領域中,最主要的擔憂是數據泄漏,尤其是個人身份信息(PII),新產品構想和專有信息。這些擔憂將導致出現更多用於保護AI創造建的本地解決方案,包括數據注釋和實現利用多元化人群的數據保護安全措施的解決方案。

確保安全的數據實踐只是越來越符合道德規範的AI使用方法的一部分。這種方法還將包括關心人群的健康,並更仔細地考慮AI應用程式將如何影響使用它們的人,或者說,AI將如何讓提升人們的生活質量旨在改善人們生活的方式。

Caserta的創始總裁Joe Caserta

2019年企業領導者認識到僅使用最強大的分析平台來創建報告是不夠的。2020年將從人員,流程和技術的角度來實現更深入的成熟度分析。企業將開始發掘創新如何進行數據發現和實現商業智能(BI),並開始使用數據蜘蛛,機器人,人工智慧和NLP來查詢數據並更快地獲得見解。我們即將迎來一場數據革命,它將徹底改變當前的格局,並把推動現代數據工程的發展推向其高潮。

機器數據智能平台Circonus的CEO,Bob Moul

物聯網數據的價值的實現-大規模分析物聯網數據所產生的決策將帶來巨大的商機,有助於降低成本,減少停機時間,並在問題發生之前採取措施預防問題。

容器可觀察性-在過去的幾年中,許多人深入研究Kubernetes,學習並進行概念驗證。到2020年,我們將看到大量此類部署上線,並與企業內部的DevOps(數據化運維)功能緊密結合,需要注意的是容器環境會發出大量指標,許多傳統監控產品將因無法滿足處理高基數的要求而無法使用。

物聯網的增長需要一種創新性的存儲解決方案,Gartner預測到2020年將有大約200億個物聯網設備。隨著物聯網網絡的膨脹和技術上的突飛猛進變得越來越先進,管理它們的資源和工具也必須做到這一點。公司將需要採用可擴展的存儲解決方案來適應數據的爆炸式增長,這個解決方案的存儲容納、處理數據以及提供洞見的能力都要遠超現在的技術。

監視基礎結構的複雜性增加-在諸如藍綠色部署(是一種可以保證系統在不間斷提供服務的情況下上線的部署方式)之類的DevOps技術實踐的推動下,我們將看指標量將大幅度增加。

當你想利用這些技術並將其與快速CI(Continuous Integration,持續集成)/ CD(Continuous Deployment持續部署)結合使用您採用這些實踐並將其與快速CI/CD結合使用時,你會發現已經有好幾種組合版本供你挑選了。您會看到一些敏捷組織今天發布了十幾種版本。然而,我們仍需要對這些技術工具進行重大改進以適應現代化進程更改以幫助支持這些用例。

dotData CEO兼創始人,Ryohei Fujimaki

在2019年,AutoML受到了越來越多的關注,因為各個機構組織已經意識到自動化機器自動學習(AutoML)儘可能多的數據科學的潛力能力和需求。但是傳統的AutoML還受到高度人工化手動和巨大時間消耗的成功設計AutoML所需功能的過程所花費的大量時間的限制和阻礙。

2019年也是AutoML 2.0興起的一年,也它是AutoML的新起點:體驗的新疊代,它使用AI來利用關係數據集中的原始業務數據來自動創建特徵並進行測試,評估和評分功能,然後自動和傳統的機器學習算法做一比較。然後根據機器學習算法對其進行評估。

隨著越來越多的組織機構供應商加入AutoML 2.0培訓,我們預計到2020年數據科學全周期自動化的趨勢將加速。2020年的另一個大趨勢將是ML管道的運營和產品化,在已經進行的早期MLOps試驗中,儘可能多地實現自動化變得越來越重要。

Infoworks CEO, Buno Pati

使用數據的能力將加速整個經濟領域的洗牌,比過去更快地分出勝負

新挑戰者的崛起速度將比未來十年更快,而現任領導人的崛起速度也將與之前一樣。BCG(波士頓諮詢公司,是世界領先的商業戰略諮詢機構)的研究表明,如今,對於大型公司而言,過去、未來的財務狀況和多年的競爭績效之間的關聯現在越來越少。

目前,所有行業的數據科學家都將80%的時間花費在低價值活動上,例如提取數據,增量更新數據,組織和管理數據,優化管道以及將數據交付給應用程式。數據科學家僅將20%的時間用於開發應用程式,以實現業務的進一步增長和增加競爭優勢。那些通過新的,自動化的數據操作和方法來使用數據功能的人將會蓬勃發展,因為他們將其數據科學的天才人才應用在創造業務價值上。

數字化轉型的影響將在整個經濟領域體現:預期的(技術,金融服務,零售/電子零售等)和意想不到的(農業,家居裝修,公共部門等)方面。

隨著下個十年隱私法的發展,消費者對「個人」數據的更具控制力

GDPR和CCPA(加利福尼亞消費者隱私法案)只是保護消費者和消費者的數據的冰山一角。在接下來的十年中,隨著政府和監管機構制定新的隱私法規,消費者對個人數據的控制有望大大提高。

隨著時間的流逝,這些監管措施可能會使消費者對個人數據有完全控制權,並為消費者提供直接將其數據貨幣化或交換商品和服務的機會。

清潔能源運動將在下一個十年創造大量的數據和新的分析方法

現在,美國增長最快的行業是太陽能和風能,未來十年中,這些行業的就業增長預計將是其他行業的兩倍。(來源:加州第十七國會區的美國代表Ro Khanna)這些行業的技術進步使成本下降,並引發了清潔能源運動,在過去九年中使全球可再生能源產能翻了兩番(來源:環境署)。

這比美國每個發電廠的總和還要多,它將創造大量的數據和新的分析方法,以期在未來十年最大化收益並優化利用這些技術發展。管理和利用這海量的數據將需要用於操作和編排的複雜系統,這些系統將超越過去的人工密集型方法,數據驅動的流程和見解使數據科學家能夠專注於最佳和最高水平的智慧的人才使用,推動行業的持續增長。

來自Izenda

如果2019年重點在機器,那麼2020年將更關注於用戶。今年,數據分析中的AI和機器學習產生了比以往更快(更有價值)的結果。下一步是使該過程民主化:降低高技能工人的數據項目負擔,賦予非技術用戶同樣的數據處理分析能力。

未來,無需雇用其他分析師,無需培訓查詢語言,用戶將能夠像使用Google一樣輕鬆地瀏覽數據。

數據科學的民主化

通過文本或語音進行自然語言處理將有助於促進「公民數據科學家」的發展。儘管一些BI工具已經在其平台中添加了NLP功能,但仍有一件事不確定:定價。

2020年,將開始出現人們負擔得起的SaaS(Software as a Service,意思為軟體即服務),即通過網絡提供軟體服務BI工具,擁有售價價值數萬美元的工具的功能。機器學習和自助服務的完美結合,將為各種規模的企業提供在數據中發現可行計劃的能力。

Lexalytics執行長Jeff Catlin

作為以經營文本為中心的AI/ML業務的人,2019年出現了兩種趨勢:BERT和XLNet等模型逐漸的滲透到該領域,同時,數據科學家的重心從自己動手轉向更多地利用AI工具或平台解決問題。以及數據科學家從自己所編寫的內容開始的樞紐—使用AI工具和平台解決問題。

這兩種趨勢兩者是相關連的:雖然BERT可以通過改變一小部分訓練數據來提供出色的結果,但它卻改變了遊戲規則,要精通它是很難的技術提升,因此,它成為包含所有內置管道的平台的關鍵。雖然BERT模型作為遊戲規則的改變者可以僅使用小部分訓練數據就得到出色的結果,但是,它是如此的複雜以至於技術人員很難掌握,於是,對各種AI工具和平台的熟悉就顯得很有先見之明。

2020年,人工智慧將鞏固其作為下一個十年的決定性技術的地位。玩家將找到到「神奇」的角度,傳達正確的信息,即AI可以幫助人類更快,更好地完成工作。此外,NLP也將成為RPA(Robotic Process Automation,機器人流程自動化)的重要組成較大部分,因為供應商在NLP中非常落後。隨著企業自動化程度的提高公司自動執行更大的流程,NLP供應商將提供本地+混合雲服務來滿足用戶需求:易於集成的API,可定製性的,快速的ROI。

MathWorks產品管理高級經理Bruce Tannenbaum

AI輕鬆貫穿整個工作場所

隨著與AI相關產業行業的進一步發展,AI不僅將會在該技術將超越數據科學領域,而且會在並對醫療設備、汽車設計和工業場所安全等領域方面產生深遠影響。

AI將涉足低功耗,低成本嵌入式設備

明年,我們將見證AI涉足在低功耗,低成本設備。人工智慧通常使用浮點運算數學來簡化模型訓練並提高結果的準確性和簡化模型訓練,因此它和但它不能使用定點數學的低成本,低功耗的定點運算設備不兼容。軟體工具的最新進展現在支持具有不同級別的定點數學的AI推理模型。不過,如今的軟體已經支持AI模型進行好幾種級別上的定點運算了

強化學習從遊戲領域轉向現實工業應用領域

2020年,強化學習(RL)將從遊戲領域轉向支持現實世界的工業應用,尤其是自動駕駛技術,控制設計和機器人技術。可以預見的是,強化學習將會在改善自動駕駛系統領域取得巨大成功。將RL用作改進大型系統的組件時,例如在自動駕駛系統中提高駕駛員性能將會成功。

仿真數據提升降低成功採用AI的難度-數據質量

根據分析師的調查,數據質量差是成功使用AI的最大障礙。正常的日常系統的一般運行操作會生成大量可用數據。但是,從異常值或關鍵或故障臨界值條件中查找數據往往更有價值。訓練準確的AI模型需要大量此類數據,而仿真數據降低成功採用AI的難度此時,仿真模型生成的數據不僅降低了數據收集的成本還在很大程度上提高了數據質量。

Percona首席體驗官Matt Yonkovit:資料庫將更自動化

在資料庫領域,尤其是在雲領域存在技能短缺問題。越來越多的公司希望利用他們的數據,但發現很難以他們想要的速度成功地運營。選擇資料庫與應用程式一起運行的開發人員只希望它們能夠工作而無需承擔管理職責。因此,必須成為DBA才能實現這一目標。

在管理和維護資料庫系統尤其是雲端資料庫系統的過程中存在技術短板。更多的企業想從數據中發掘有用信息,然而往往並不如願。這些企業把數據迫切地收集來想要得以致用而缺少專業的資料庫管理員來合理地管理這些數據。

過去,資料庫供應商已通過啟動更多託管服務來解決問題,但是,這會將問題轉移到其他地方。儘管企業已經通過委託一些管理機構來解決此問題,但是,這本身也會產生一些問題。

今年,公司開始討論如何自動化資料庫管理並使其具有自主性和自我修復能力。這是今年甲骨文大會Oracle客戶會議上的一個重要議主題,而我們已經在Percona資料庫上做了一些嘗試已經啟動了自己的計劃,以使雲中的資料庫更加「自治」。企圖使雲端資料庫的管理更加自動化。

明年,更加智能的資料庫管理服務將變得可行並更上發展速度。然而,我們更應該關注這種自動化服務程序的設計和普適性能,因為即使再優秀的程序也無法面面俱到。

Sisu執行長Peter Bailis

眼下是數據科學的黃金時代,通過與客戶的交流,我們預見了2020年的四大轉變趨勢:新的數據堆棧分析將崛起、對數據的深入診斷將代替淺顯的數據挖掘、會出現更實用層面的數據需求以及新的崗位角色——運營分析師。

更新更靈活的分析堆棧的興起

從對Redshift,Snowflake和BigQuery之類的雲數據倉庫進行投資開始,公司還將採用現代化的數據管道和ETL工具(如Fivetran和Stitch)將更多數據集中到這些結構化存儲解決方案中。下一步呢?重建其診斷工具,以應對大量數據的湧入。Redshift, Snowflake, and BigQuery等平台的出現表明企業已經開始向雲資料庫投資了,接下來企業將接納更多的現代化數據管道以及類似於Fivetran和Stitch的ETL(Extract-Transform-Load,即將數據從來源端經過抽取、轉換、加載至目的端的過程)工具將更多的數據匯集到這些結構化的存儲方案中。因此,下一步,企業將要重建診斷軟體來處理大量湧入的數據。

企業一般需要實時的處理同時來自數個數據源的數據,數量之大可想而知,IT和數據團隊可以從以下幾個層面來優化分析構架:

  • 雲端數據倉庫,例如Snowflake,BigQuery,Redshift或Azure
  • 數據流水線工具,如Fivetran和Stitch
  • 靈活的查看和報告工具,例如Looker
  • 診斷分析工具以增強分析師和商業智能團隊的能力

2020年以後,數據治理將重歸前沿回到最前沿。隨著分析和診斷平台的擴展,從數據中獲取的信息將在企業中更廣泛無縫地共享,數據管治理工具會將有助於確保數據的機密性,使用合理性正確使用和完整性。2020年,公司使用和感知分析方式將會轉變。

診斷工具

隨著結合這種基礎結構的變化,董事會會開始關注指標為何更改以及這些更改對於日常業務運營意味著什麼。有效使用數據來構建(和交叉)壁壘將是成功的公司的競爭性資產。在有效利用數據方面,企業之間已形成競爭局面,數據已經成為企業的競爭性資產而非被動資產。

運營分析師的崛起

數據分析的未來是運營分析師的崛起。數據不再只屬於數據科學家。企業員工開始像數據分析師一樣工作,針對特定業務的新技術能和工具即將出現。分析趨勢,變化並使用數據做出有影響力的決策將成為對新的員工要求和期望,而不再局限於業務分析師或市場營銷分析團隊。

StreamSets產品副總裁Kirit Basu:DataOps將在2020年獲得認可

隨著企業2020年以後開始大規模擴張以及野心的增長,DataOps將被視為克服與分析現代數據變化的速度,分散性和趨勢軌跡的有力工具。在Gartner上,「DataOps」的搜索量在2019年翻了三倍。此外,已經可以通過StreamSets(強大的數據清洗平台),我們發現了有大量用戶已經接受了DataOps。

一些企業公司正在通過DataOps進入這一領域,還有一部分企業他們通過收購小規模公司來,建立以數據管理為核心的業務。許多DataOps職位開始出現,人們在實踐中加深了對「DataOps」這個專業術語的理解,並使之成為了數據驅動組織的代名詞。所有這些依靠對「DataOps」的新理解和對術語的認識,以此來成為數據驅動型企業。

StreamSets聯合創始人兼CTO,Arvind Prabhakar:企業需要填補Apache Spark技能的空白

2020年,越來越多的可以解決公司核心業務問題並從數據中發現價值的技術將會應運而生,且無需對Apache Spark做技術深入了解。企業將無需具備專業技能便能利用Apache Spark之類的工具。這將使其實現對數據的連續讀取和監測,並分析每個商業決定和應用對業務帶來的影響。

關鍵字: