來了!來了!數據集搜尋引擎終於來了

讀芯術 發佈 2020-01-12T19:13:37+00:00

我近來最愛的谷歌搜索新成員,就是數據集搜尋引擎Dataset Search。點擊這裡嘗試使用Dataset SearchDataset Search所體現的公眾數據讀寫覆蓋程度如果沒人使用的話, GoogleImages和Google Scholar之類的谷歌垂直搜尋引擎是不會長

全文共4401字,預計學習時長13分鐘


文章開始之前,我們先看一組錯誤的數據搜索工具。


隨著算法和大數據的爆炸式發展,百度谷歌等搜尋引擎變得越來越強大。


漸漸的不光是文字、圖片,現在數據集也可以搜索啦。


是的,你沒聽錯。現在搜索數據集就像搜索圖片一樣方便了!


我近來最愛的谷歌搜索新成員,就是數據集搜尋引擎 Dataset Search。



Dataset Search所體現的公眾數據讀寫覆蓋程度


如果沒人使用的話, GoogleImages和Google Scholar之類的谷歌垂直搜尋引擎是不會長久的。


所以,它們的變化可以從某種程度上體現人們在網絡上的搜索傾向。


圖片、視頻和新聞都不難想像。但是數據集呢?數據集搜尋引擎的出現讓大家知道,和數據集有關的人並不是什麼遙遠雪國里與世隔絕的三兩位教授。


數據集的影響力其實很大……而且與日俱增。


數據集存在什麼隱患嗎?並沒有。它和谷歌的圖片和學術搜索沒什麼不同,只不過搜索的是數據集罷了。目前,超過兩千萬數據集已經編入索引以供查找……而且數量在迅速增長。


如今,兩千萬數據集輕鬆易得,而且數目還在日漸增多。


既然知道了它的存在,現在你就可以在這裡試試。或者,你也可以多看看文章,了解數據集搜尋引擎是如何運作的,它對數據科學乃至人文社科等行業又意味著什麼。


我最近使用Dataset Search時的截屏。在讀研時,我會不計一切代價求別人告訴我如何像上圖一樣找到數據。(事實上讀研時確實得這樣做:寫長篇郵件乞求別的實驗室施捨他們的數據,而且往往徒勞無用。現在的新途徑太方便了,哭哭。)


加速分析的革命


數據科學中,分析學是需要快速獲得靈感的學科。和統計學或機器學習不同,速度是分析學中最重要的一點。(穩妥起見,好的分析師在跟進新的數據前,不會讓自己莽撞得出結論。)


獲得數據的速度更快,你的分析能力就越強。


方便獲取數據集的好處是什麼?更快速的分析!


Dataset Search能以驚人的速度提升所有專業分析師和數據科學家的工作效率。(但是記住,如果你容易隨便下結論的話,一定要用統計學方法仔細跟進。)


說的都對,那它有什麼陷阱嗎?


如果在你的成長中,數據集非常罕見、珍貴,而且僅由教授或者數據提供者建立的話,你很可能會覺得提供數據的人會對數據質量負責(或許提供者還有一兩個博士學位),而我們大多數人都是這樣想的!如果你頻繁在學習或科研中使用數據集,那你可能也會覺得所有數據集在你經手前都已經被仔細整理好了。


真正的數據科學是荒野求生,而不是由教授們悉心培養的聖地。


暫時將這些見解拋開,想像另外一種:外行人對數據崇拜所帶來的負面影響。任何會認真說出「數據」兩個字的人都可能會覺得,用結構化形式包裝的所有信息都真實可用。


醒醒,數據不是魔法。不要迷信文章書籍,也不要迷信數據集。這裡可以了解更多關於數據本質和數據崇拜的信息。


如果你的生活中,大多數人給你的數據都有信譽擔保,或者有人教你要崇拜數據和科學,那你的世界可能要崩塌了。


告訴你一個可怕的消息,數據集可能只是一堆結構化的垃圾。它可能已經不能用了,也可能是假的,還可能是60億個零,什麼都有可能。就和文字一樣!


「書里寫的肯定都是真的……」


說到文字:「書里寫的肯定都是真的……」對嗎?錯了!那更近/進?一步:「網上寫的都是真的……」好的,我看到你們生氣的臉了,我很滿意。你們肯定開始懷疑這句話了,沒有的話也應該有。那這句呢?「數據集裡寫的肯定都是真的……」你怎麼想呢?



在這個世界,人們想寫什麼就寫什麼,所以垃圾到處都有。比起直接相信所看到的東西,為什麼不花點時間想想東西的來源?很好,這個習慣將也會保證你在跟數據科學打交道時安全無虞。


如果對數據的信任甚至超過了文字,那就要小心了。


如果對數據的信任甚至超過了文字,那就要小心了。這個習慣的養成很可能悄無聲息。


不要覺得數據是什麼大寫加粗的牛逼玩意。重新培養搜索谷歌圖片和使用整個網際網路的習慣。谷歌並不擁有或者編輯那些貓貓照片或者隱身藥水製作方法(大家都知道隱身藥水是沒用的,對吧?),而且網絡資源質量參差不齊,不管讀到什麼,都要自己批判性地思考來源再決定是否可信。網際網路上東西五花八門,但是已經不會有人輕易受騙。呃,大多數人不會吧。即使是智者也會偶爾點進那些「一周減十斤」之類的連結或者怪異故事。


如果將日常上網的批判態度用在數據集搜索上,那你肯定不會中招。


對待數據集搜索結果的態度要像對待其他網絡搜索結果一樣。比如工具能幫你篩選草籃,但是貓貓拖著的草籃質量好不好還是需要自己反覆確認。


但是,如果要在一個數量龐大、內容豐富但質量有別的貓貓圖片集,和3張精美的貓貓圖片集中選,我無論如何都會選前一個。(好吧我兩個都會選,因為我很貪……當然你也可以。搜索工具又不實行一夫一妻制。)


網絡基本由垃圾組成


網上的一切並不都是好的。但是谷歌已經盡力杜絕垃圾,優先推薦真實可信的結果了。對,人們會將垃圾數據集放在網上吸引注意力,打分也是為了能夠篩選出優質的東西。就像普通的搜尋引擎一樣。但是這些肯定都無法保證完美。


想要讓別人搜索你的數據集,只需要將涵蓋數據集的每個網頁中加入schema.org的元數據。


想要讓別人搜索你的數據集,只需要將涵蓋數據集的每個網頁中加入schema.org的元數據。任何人都能這樣做,這就跟寫博客一樣簡單。裡面的內容可能很爛,所以要仔細判斷。


在即將跳入茫茫數據大海前,頭腦一定要清醒。不要相信所有讀到的東西。


怎麼上傳數據集,schema.org又是什麼?


2011年,一個由谷歌、必應、Yandex、微軟和雅虎等知名企業一同誕生了組織schema.org的想法。這些公司懶得去猜扒下來的網頁內容,所以想創建一個讓提供者說明提供內容的常見詞彙表。這個詞彙表能嵌入到HTML中來指示每個部分描述的是事件、地址、食譜還是其他各種東西。


它就是一個小小的概要(正如其名!),能夠描述各種類型的信息。如果將schema.org加入網頁,並向它說明該網頁擁有數據集,那麼這個數據集就有資格出現在Dataset Search的搜索結果里了。


數據提供者使用schema.org來告訴大家他們的網站有數據集,並描述了一些有關的元數據。


這並不是什麼谷歌特有的魔術,而是任何人都可以出一份力的開放社區。許多公司多年來一直悄悄使用它。


谷歌獨有的貢獻是用DataSearch引擎來搜索數據集。數據提供者能使用schema.org來告訴大家他們的網站有數據集,並介紹了相關的元數據。而Dataset Search就像是普通的搜索工具,但是搜索結果僅限於聲稱擁有數據集的網頁。它簡潔又有用。

如何加入分享數據


少數幾個大提供者把控了數據的來源,而且他們負責仔細建立好每個數據時(比如說政府和大學),其他小型的提供者便會缺乏分享的渠道。


想像一下這個畫面:一群女高中生正在鑽研課外的機器人項目。她們收集了大量數據,這些數據可能會幫到有相同愛好的人,而且她們甚至還願意分享這些數據(她們人真好)。她們在高中學校的官網上放了數據的連結,而這些數據正是你製作原型所需的。然後呢?



如果她們的數據集無法被搜索,你永遠都不會找到它。如果這些數據必須要由一個組織者(比如政府)來建立才能夠流通,她們肯定要慢慢排隊來……而且可能永遠排不到前面。將稀缺資源用於繁重的信息綜合處理的數據提供者只有有限的時間和精力,優先分享的地方也很少。結果呢?大家永遠不知道自己錯過了什麼。


這就是為什麼數據集搜索有很高的價值。(沒有中間人告訴你趕緊滾的)分享數據意味著人們能夠發現並提供優秀的資源,即便各人口味獨特……或者將數據放在了難找的高中官網上。


要想分享能被搜索的數據:


1.得先有數據。

2.通過schema.org表明數據的存在(這一步可以自己來,也可以放在Zenodo等資料庫里自動進行)


其他陷阱


要想達到上述兩個條件並分享數據,各領域間的完成條件是有區別的。比如,政府會將他們的數據集編入索引。所以政府傾向於收集的大量數據集(有人收集天氣數據嗎?)是很好的備選數據,而專有的、收集代價高昂的數據則很難獲取。儘管如此,數據每天都在增加,搜索服務同時為免費和付費數據敞開大門。(有點像谷歌圖片中有水印的專有圖像。)選擇權在你,判斷付費是否有價值的權力也在你手上。


人類的遠景


在數據集搜索等方面,龐大的用戶群是人類在數據科學和數據素養方面進化的象徵。人類正在作為一個物種成長,同時又擴展感官運用的方式和信息交流的方式。


數據分析變成了每個人的玩具。


曾經的人們打開一個網頁就會感到驚奇,之後就變成了在瀏覽器中打開50個選項卡,每個數據點一個。現在,人們渴望的越來越多。比如能用編碼工具(Python和R等)快速構建和總結來進行工作的數據集。現在的社區中,數據是通用語,數量龐大。有越來越多人懂得數據技能,並且不再滿足於用圖片覆蓋書寫的頁面。(比如你正在看的這個頁面,哈哈。)



數據讀寫的進化


就在你消化這篇文字的時候?,你需要讀寫能力,才能讓大腦從閱讀的東西中整理出信息。這個技能大家都覺得理所當然。如果擁有這種技能的人很少,本文就不會存在。谷歌可能也不會存在。


Dataset Search表明數據讀寫的民主化趨勢正在上升。


同樣,Dataset Search表明數據讀寫的民主化趨勢正在上升。整體的發展就像是攀登和練瑜伽。「處理數據不再是徹頭徹尾的小眾技能了!」它不再像是幾個文士將象形文字雕鑿成泥板那樣了。(不對,這不就是寫作嗎。意思沒區別啦。)


在線數據集提供了自我表達的新工具,它遵循網際網路的普適規則。


數據集搜尋引擎能在石頭中挑出寶石。


數據集正在成為一種廣泛的交流形式,就像一種美麗的新語言,很多人都能流利使用,而且每天都在學習更多的知識。對於我們這些從小就在講數據的人來說,能夠用我們的語言獲得搜索結果是一種極大的欣慰。


所以我對Dataset Search的看法很直接:「終——於來了!」


我迫不及待要去繼續享受數據搜索帶來的快樂啦!

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後台留言,遵守轉載規範

關鍵字: