大數據的過去、現在和未來:萬字長文解讀《大數據四十二條》

工信智媒 發佈 2020-01-17T08:47:28+00:00

這讓我想起中國古代哲學的一個特點,就是「言有盡而意不窮「。語言的作用不在於它的固定含義,而在於它的暗示,引發人去領悟道。現在我這個登徒子就要去破這個道了,在嘗試解釋的過程中,筆者發現自己對於大數據的過去,現在和未來竟然多了些體會,下面我們就開始吧。第一條:每個時代的人,都會認為自

飛總聊IT

The following article comes from 與數據同行 Author 傅一平

與數據同行

傅一平博士創辦的公眾號,500強大數據技術團隊負責人,致力於大數據價值挖掘和變現,圍繞數據平台、數據建模、數據分析、機器學習、人工智慧、數據產品、數據變現、數據中台,數據管理及運營,分享數據驅動業務的實戰思想、方法、舉措和效果,助你不斷進步


它山之石可以攻玉,何寶宏博士就是一個吧。



何所思(ID:gh_9820d1a2e9ef)是一個非常有特點的公眾號,它的主人叫何寶宏,這個公眾號這樣介紹自己:一個從事網際網路研究20餘年的老兵,對技術和產業的思考。


然後網上搜索了下:中國信息通信研究院雲計算與大數據研究所所長。最近他還出了本書:《風向》。


自己不認識何寶宏,偶然看到他的這篇《大數據四十二條》文章,覺得有趣有料,本來想轉載的,可惜找不到聯繫方式。


由於沒有轉載權限,我只得在這篇文章的基礎上擴展出我的理解,直到繞過騰訊原創的檢測,沒想到一擴展就成為了萬字長文。


《大數據四十二條》是何博士關於大數據本質的一些總結和思考,每一條都是簡單的一句話,共42句,但每一句似乎都意味無窮。


這讓我想起中國古代哲學的一個特點,就是「言有盡而意不窮「。語言的作用不在於它的固定含義,而在於它的暗示,引發人去領悟道。


現在我這個登徒子就要去破這個道了,在嘗試解釋的過程中,筆者發現自己對於大數據的過去,現在和未來竟然多了些體會,下面我們就開始吧。


第一條:每個時代的人,都會認為自己所面對的數據太大了

第二條:每個時代對大的理解都不同,古漢語中「三」就很大了,後來是「九」


這兩條其實要表現類似的思想,筆者就一起解釋了。


從人類誕生以來,人類社會至少已經經歷了四次意義重大的信息傳播革命,每次革命的起因都是因為信息量的海量增長導致需要用新的技術去處理它,每一次信息傳播革命都把人類文明推向一個新的發展階段。


第一次信息傳播革命是語言傳播的誕生:提高了人類信息傳播的質量、速度與效率。


第二次信息傳播革命是文字傳播的誕生:使得人類的信息傳播革命第一次突破時間、空間的限制,得以廣泛流傳和長期保存。


第三次信息傳播革命是印刷傳播的誕生.報紙、雜誌、書籍等印刷品大眾媒介迅速普及.第四次信息傳播革命是模擬式電子傳播的誕生


特別是20世紀以來,伴隨著信息化、網際網路、移動互聯、物聯網的發展,生成數據的基礎設施、採集數據的基礎設施,連接數據的基礎設施大幅增加,產生了超過以往歷史總和的海量的數據,為了更好的從數據中獲得知識,這個時代發明了各種大數據技術+人工智慧算法來處理這麼龐大的數據。


從筆者個人的經歷也可以很明顯看出來,讀中學的時候覺得幾K就很大,讀大學的時候覺得幾M的軟盤很大,大學畢業了覺得上G的光碟好大,工作幾年覺得幾百G的數據倉庫好大,工作10年幾十T的數據覺得傳統的數據倉庫已經撐不住了,現在面對的是幾十上百P的數據,你突然發現還是太大了。


第三條:所謂大數據,就是一個如何將數據變小的過程


大數據的一個特點就是價值密度低,需要從海量的大數據中獲取你需要的東西,就是一個從數據到信息到知識再到智慧的讓數據不斷變小的過程,比如數據倉庫的分層設計就是這樣,數據越偏向應用,最後留存的數據就越小,基於越小的數據才能歸因業務做決策。


我們從海量的1T的數據中挖掘到的知識最後往往只要用1bit就可以表示,即1或者0。


第四條:2019年,大數據的「大」已不再是核心問題,核心是如何更快,比如流計算


大數據的四個特點中,處理速度快正在成為核心,為什麼?


一個當然是人工智慧時代深度學習等算法需要更強的算力,傳統的技術架構已經很難滿足,另一個是數據在時效性上的價值越來越大,筆者在很多文章中都提到了實時數據中台的建設,流處理已經不僅僅是個獨立應用的問題,而是海量的實時應用如何快速開發部署的問題,當然這個快還包括了分析查詢的快,即時計算的快等等,這些都需要諸如麒麟、易鯨節等引擎的支持等等。


信通院在2019年的《大數據白皮書》中提到大數據技術的一個關鍵詞是融合,融合的目的就是適應各種場景的快,包括:


(1)算力融合:多樣性算力提升整體效率,如GPU、FPGA、ASIC等等


(2)流批融合:平衡計算性價比的最優解,如Flink


(3)TA融合:混合事務/分析支撐即時決策,如OLAP與OLTP的整合


(4)模塊融合:一站式數據能力復用平台,阿里叫作大數據產品全鏈路化,比如浙江移動的DM平台,貫通了從數據採集到應用的全過程


(5)雲數融合:雲化趨勢降低技術使用門檻,大數據基礎設施雲上遷移勢不可擋,如我們的PaaS都是雲上集成,業界比如阿里的數加等等


(6)數智融合:數據與智能多方位深度整合,如我們的敏捷挖掘平台,不再需要在數據和AI兩種平台之間搬數據



第五條:數據大了價值不一定就高,價值更可能被大噪音淹沒掉


其實反過來說也一樣,而且更具韻味,數據量越大,數據的價值密度不一定就越低,兩者之間並沒有必然的關係,這個結論有以下的一些解釋:


(1)從採集的角度來看,傳統數據基本都是結構化數據,每個欄位都是有用的,價值密度非常高。大數據時代,由於存儲的價格越來越低,越來越多的半結構化和非結構化數據都可以隨便存儲,這些數據在採集的時候很多時候都沒想清楚有什麼用,相對來說就成了干擾價值數據的噪聲。比如網站訪問日誌,裡面大量內容都是沒價值的,雖然數據量比以前大了N倍


(2)從挖掘的角度來看,從更多的數據中挖掘出規律,顯然面臨著更大噪聲的挑戰,因為數據越多可能形成的模式就越多,意味著訓練的時候尋找匹配模型的代價就越高,因為噪聲增加了。


第六條:主張讓大數據放棄追求因果關係,就是要讓我們回退到巫術時代


這句話我是認同的,《大數據時代》這本書提到要追求相關關係,其實是大數據以用為上的特定階段的功利性表現。


從短期來講,由於技術上的便利性使得追求相關關係可以獲得當前較高的經濟性價比,但從長期來講,理解因果關係始終是提升效率的最高辦法,因果關係是本質,相關關係是表象,理解了因果你就可以有更正確的做事邏輯,可以進行大量的遷移學習,而相關關係只能在一種特定的場景中使用。


萬有引力定律也是模型,首先是有相關關係,然後還挖掘出了更深層次的因果關係,否則牛頓也許只能將這個相關關係應用在蘋果落地的場景,而根本不可能衍生到萬事萬物。


只能理解相關關係一定程度是業務能力不夠的表現,比如業務的解釋,理解了啤酒與尿布的業務本質可以讓我們移情換位,起碼你能推測出英國男人也許還需要順帶購買些奶粉。


商業領域,科技領域,科學領域與哲學領域對於大數據的要求是不一樣的,比如追求因果是科學領域始終的夢想和要求,從來不會改變。


第七條:主張大數據不再採樣而是全集,只是技術外行的YY而已


一方面受限於我們的能力,我們採集的任何數據都是有限的,而且數據能否採集全到最後其實是個哲學問題,比如首先要解決這個世界到底是連續的還是離散的問題,其次要解決我們能否具備完備的採集條件問題,最後還要解決採集設備的能力問題,因此當前其實所有的採集都是採樣,只是程度不同而已,我們只能說利用新的傳感器採集的數據維度多了,粒度細了,而不能說是全集。


第二方面是大數據機器學習的基礎是統計學、機率論,你還是在基於採樣的基礎理論來進行實際的數據分析工作。


第八條:大數據主張用數據說話,但數據也會說謊,而人類更喜歡聽故事


面對同樣的數據分析,可以給出不同的結論,關鍵點除了數據,還在於做數據分析的這個人和使用數據的那個人,學霸和學渣的區別大多時候可不在於看得東西不一樣,而主要在於思考的能力,在社會上,當然還包括道德水平。


關於人類更喜歡聽故事是因為基因的設定,理性的一本正經的闡述和聲情並茂的具有畫面感的闡述顯然後者更容易吸引人,即使邏輯不堪一擊。因此我們要努力跟基因的設定進行多抗。


有大量的書在闡述這個道理,比如《統計數據會說謊》,可惜我們還是會不自覺的陷入這種困境。筆者就不太信任這類媒體,時常用不標註數據來源和統計方法的方式來給出一個譁眾取寵的結論。


第九條:數據的內涵在不斷豐富中:數據是信息,數據是資產,數據是隱私,數據是可回收垃圾(如大數據),數據是有害垃圾(如DDOS攻擊、垃圾郵件)等


數據是信息是因為數據管理體系會為裸奔的數據賦予業務含義,數據是資產是因為當前數據已經具備了資產的三個特徵或接近這三個特徵:企業擁有和控制;能夠用貨幣來衡量;能為企業帶來經濟利益。


當然企業擁有和控制還面臨數據確權的問題,用貨幣對這些數據進行衡量也是個複雜的問題,但基本上,數據列入企業的資產負債表可能只是時間問題。


數據是可回收的垃圾是因為用過的數據還是能迅速回來繼續創造價值,其回收的速度相對於一般的實體真是快太多了,數據是有害垃圾是因為人的原因,跟數據本身沒有關係。



第十條:數據的內涵日益豐富,將導致管理技術必然走向碎片化、層級化或分布式


這裡僅僅從技術的角度去理解內涵。


數據技術的碎片化是因為數據的使用場景太豐富了,為了滿足特定場景需要採用不同的數據技術引擎,無論是離線的還是流處理的,是在線計算還是在線查詢的等等。


數據技術的層級化是為了滿足不同層次的業務需要,比如數據倉庫的基礎層標準化是為了書同文車同軌,保留最大的細節和支撐的可能性,融合模型層是為了靈活快速的滿足前端應用的需要,應用模型層是為了直接滿足應用的需要。


數據技術棧的日益複雜和增多使得層級化的管理方式越加必要,比如數據採集、數據存儲、數據處理、數據服務、數據查詢、數據應用等等,合理層級劃分的目的是為了管理簡單,提升最終效率,比如是否要拆分出服務,數據存儲和數據處理是否要合併等等。


現在如火如何的數據中台就是希望用層級化的切分方式最高效率的為前端賦能,現在到處可以聽到「前店後廠」,「大中台,小前台」,「前台,中台,後台」的概念,都是層級化思維的體現。


數據技術的分布式是主流了,現在沒有分布式能力的技術引擎越來越難看到了。


第十一條:數據管理技術正在:1)底層數據模型,2)業務方向,3)架構方式和4)處理時效性,從四個維度四散開來


底層數據模型強調數據標準,構建一套完整的數據標準體系是開展數據標準管理工作的良好基礎,有利於打通數據底層的互通性,提升數據的可用性,近期筆者參與的《數據標準管理實踐白皮書 》就力圖做些指導。


業務方向很容易理解,現在大數據早從Garner曲線消失了,說明其已經從一個時髦的技術概念演進到了應用階段,你公司建設完大數據平台的第一天,就要考慮大數據創造價值的問題,這可比建一個大數據平台難多了。


架構和處理時效性前面已經說了,這裡不再累述。


第十二條:分布式的浪潮最早發生在分析型和非關係型領域(即傳統大數據),現在殺了個回馬槍,回到事務型和關係型了


傳統的業務應用在做技術選型時,會根據使用場景的不同選擇對應的資料庫技術,當應用需要對高並發的用戶操作做快速響應時,一般會選擇面向事務的 OLTP 資料庫;當應用需要對大量數據進行多維分析時,一般會選擇面向分析的 OLAP 資料庫。


隨著數據越來越大,傳統的數據倉庫已經難以有效應對數據處理和分析的挑戰,以hadoop(NoSQL)為代表的分布式計算框架應運而生,它們能有效解決海量的離線分析的需求,這就是所謂的傳統大數據的分布式浪潮。


但在數據驅動精細化運營的今天,海量實時的數據分析需求已經提升日程,無論是實時營銷或是實時風控,都需要OLTP系統具備對於海量數據的實時分析能力,即事務和分析一體化,離線的分布式大數據框架在時效性上已經難以達到生產的要求。


混合事務/分析處理(HTAP)是 Gartner 提出的一個架構,它的設計理念是為了打破事務和分析之間的那堵「牆」,實現在單一的數據源上不加區分的處理事務和分析任務。


這種融合的架構具有明顯的優勢,可以避免頻繁的數據搬運操作給系統帶來的額外負擔,減少數據重複存儲帶來的成本,從而及時高效地對最新業務操作產生的數據進行分析,比如行列資料庫的優化等等。


不知道我的解釋是否切題?


第十三條:數據分析技術的幾個發展趨勢:向上與AI融合,向下與雲和異構計算結合,中間正流批結合、分析事務融合和一體化等


從分析方法的角度看,大致有三個層次:統計分析(對比/分組/趨勢/結構)、數據分析(相關/方差/驗證/回歸/時序)、數據挖掘(分類/聚類/關聯/異常),可以預見,未來的數據分析對於算法的依賴會越來越高,在數據挖掘中大量的引入AI是顯然的。


從處理能力的角度看,雲化趨勢降低數據使用門檻、多場景要求多樣的分析引擎、OLAP與OLTP緊密融合滿足在生產流程中實時的業務分析要求也是大勢所趨,這個在前面也已經提到過。


第十四條:大數據是因為數據大,區塊鏈是因為數據貴


「大」是大數據的一個明顯特徵,當然大也是相對的。區塊鏈為了解決數據可信分布式帳本問題,本質上就是個緩慢、昂貴的資料庫,你去看看區塊鏈處理數據的成本就能理解為什麼區塊鏈上的數據這麼貴:


(1)開發更嚴格、更緩慢:創建一個可證明一致性的系統並非易事,所有這類系統一開始設計時就確保一致性。區塊鏈中沒有「快速行動,打破陳規」(move fast and break things)一說。如果你打破了陳規,就喪失了一致性,區塊鏈就會損壞,毫無價值。你可能會想,為什麼就不能修正資料庫或重新開始、繼續前進?這在集中式系統中很容易實現,但在去中心化系統中很難實現。你需要共識,即系統中所有參與者達成一致,那樣才能更改資料庫。


(2)獎勵結構很難設計:增設正確的激勵結構,並確保系統中的所有參與者無法濫用或破壞資料庫,這同樣是需要考慮的一個重大因素,為了一次記幾個BIT數據的帳,你去看看我們為了挖礦耗用了多少計算資源就知道了。


(3)維護成本非常高:傳統的集中式資料庫只需要寫入一次,區塊鏈需要寫入數千次。傳統的集中式資料庫只需要核查一次數據,區塊鏈需要核查數千次數據。傳統的集中式資料庫只需要傳輸一次數據以便存儲,區塊鏈需要傳輸數千次數據。


(4)擴展起來確實很難:擴展起來其難度比傳統的集中式系統至少高出幾個數量級。原因很明顯。同樣的數據要放在成百上千個地方,而不是放在一個地方。傳輸、驗證和存儲的開銷很大,因為資料庫的每個副本都要承擔這筆開銷,而不是在傳統的集中式資料庫中只要支付一次那些成本。


比特幣這個應用能流行是因為不需要太多升級改變,傳輸的數據又很少,區塊鏈中如果你要讓海量的數據上鏈,基本上屬於天方夜譚。



第十五條:數據可視化是因為機器看懂了但人看不懂,AI是因為人看懂了機器看不懂


機器對數據是很敏感的,而人對數字天生不敏感,需要用畫面感來刺激大腦關注,因此何博說了這是做數據可視化的原因。


而人工智慧反過來,比如人對於貓能快速的識別而機器就不行,它需要訓練。當然這裡就存在不公平性,其實人出生的時候也不認識貓,只是訓練後了才認識的,而且人出生的時候基因天然就帶了粗糙的認知框架,比如嬰兒看到蛇天生就會還害怕,這顯然不是後天訓練出來的。


但考慮到認知,意識等能力到現在為止人工智慧還搞不定,因此這句話還是沒錯。


第十六條:開源已經壟斷了大數據生態


我們原來沒多少原創是公認的事實,其實也蠻好,師夷長技以制夷嘛,當然這句話放到現在的確有點絕對化,換個詞:開源和閉源並駕齊驅。


第十七條:雲計算的優點主要被城裡的數據享受了,環境破壞的代價卻留給了村裡的數據,於是就有了邊緣計算


雲計算對於帶寬,時延有非常高的要求,距離雲比較近的數據可以享受著雲計算帶來的各種便利,但處在遠方的數據由於昂貴的帶寬和時延導致無法有效享受這個紅利,因此它們考慮就近利用一些本地的設備來做些數據的加工(顯然這對本地的設備要做大量的改造),然後將加工後的極小的數據傳送到雲端去做處理,這樣帶寬和時延就都能滿足,所謂邊緣計算。


第十八條:大數據被夾在兩座大山中,一邊是隱私要保護,一邊是資產要流通

第十九條:一年來,GDPR帶來了全球隱私保護立法的熱潮

第二十條:你不能在擁有100%安全的情況下,同時擁有100%的隱私和100%便利性


這三句話都很好理解,隱私和變現是雙刃劍,但誰能走好這根鋼絲?立法的平衡點在哪裡?


第二十一條:現在,每個人的數字化身都是數字奴隸,沒有歸宿的靈魂在數字世界裡飄蕩

第二十二條:現在電話號碼是隱私,而30年前,會公開刊登在郵局的黃頁上

第二十三條:你沒有隱私, 忘記這事吧

第二十四條:1993年,」在網際網路上,沒有人知道你是一條狗」。而在大數據時代,沒有人不知道你是一條狗

第二十五條:現在,人與人見面打招呼「你還記得我啊」,是一種幸福。將來,打招呼時說「我還記得你啊」,是一種威脅


這五句話也在講隱私,只是從多個角度去看隱私的變遷,考慮到你的私人數據都是記錄在別人的電腦里,你竟然在法律上還無法確認這個權利,只能任由你的數字孿生被別人開採蹂躪,而且還可以通過這個數字孿生對你這個本體產生影響,似乎有點匪夷所思。


而過去由於號碼清單的商業價值不大,比如量很小,打電話又很昂貴,獲得的收益肯定還沒電話費多,因此即使是隱私也沒人會用,都是利益驅動造的孽。


第二十六條:數據資產化,資產數據化,數據託管化(雲)


數據幫企業賺取利潤的過程就是數據逐步資產化過程,資產數據化大概就是指數字化貨幣吧,比如比特幣,資產你不需要實體,只要擁有一個靠得住的大家都認可的一個數據就可以了,數據託管化就是你自己的數據以後不用存在自己電腦上,也不需要買,統統上雲讓別人幫你保管,啥服務都有,而且比你自己買的成本還低。


第二十七條:2019年,業界從關注數據技術,轉向了關注數據資產


大數據技術早就從Garner消失了,現在大家都希望找到大數據應用的場景,直接創造經濟效益,加速數據資產化的過程,現在說得最多的就是數字化轉型和產業網際網路。


第二十八條:以前數據更多的是信息,現在數據更多的是資產


信息是數據經過加工處理後得到的另一種形式的數據,這種數據在某種程度上影響接收者的行為,具有客觀性、主觀性和有用性,信息是數據的含義,數據是信息的載體,現在數據轉化為信息已經不夠了,懂含義可能沒啥用,大家能希望將數據轉化成知識或智慧從而產生經濟價值。


第二十九條:傳統的三大數據管理框架,都假設數據是信息,而不是資產


三大管理框架是dama、cmmi-dmm、dcmm,不知道對不對?


第三十條:就像河伯還沒遇見大海時,任何企業所擁有的大數據其實都是小數據


企業必然是屬於某個行業,而這個行業的經營業務範圍決定了其擁有的數據邊界,阿里帝國無論如何膨脹,最多把數據粒度做的更細,而無法做到無限寬。


第三十一條:數據流通,還處於男耕女織的時代

第三十四條:亟需數據流通的經濟理論突破,這個問題是諾獎層級的,當然也可能是圖靈獎的


在數據的歸屬問題未解決前,在數據的標準化未建立之前,在數據的價值未有效衡量之前,在數據的壁壘未有效打破之前,在數據的道德規範未建立之前,圍繞這些問題相關的法律法規未制定之前,數據流動只能採用小作坊的探索方式,風險也是很高的,誰能解決這個問題當然是牛逼的很。


第三十二條:比特是計量數據規模的基本單位,不應作為計量數據流通價值的基本單位


筆者寫過一篇文章《數據的價值到底如何評估》來衡量數據價值,即用供需來判斷這個數據的價值,當然還有很多方法,包括周期、頻度、成本等等,但數據的可複製性決定了不可能按量計費。



第三十三條:經濟學是建立在工業經濟的假設上的,而現在已經是數字經濟了


生產要素是人們從事商品和勞務生產所必備的基本資源,是一個歷史範疇。英國著名經濟學家威廉·配第曾指出:「土地為財富之母,而勞動則為財富之父和能動的要素。」這恰如其分的闡明了農業時代的生產要素——土地和勞動。


18世紀60年代,以「機械化」為基本特徵的第一次工業革命爆發,人類社會進入工業時代,機器設備這一物質資本成為決定經濟社會發展的第一生產要素。


19世紀下半葉,以「電氣化」為基本特徵的第二次工業革命爆發。隨著社會化大生產的發展,資本的作用進一步強化。同時,資本所有權與經營權日益分離,企業家從勞動大軍中脫穎而出,成為一個新的群體。企業家才能開始成為獨立的生產要素。


上世紀80年代開始,信息通信技術蓬勃發展,數字革命開始興起。特別是當前以雲計算、移動物聯網、人工智慧為代表的新一輪科技革命席捲全球,信息技術與經濟社會以前所未有的廣度和深度交匯融合,人類社會正在被網絡化連接、數據化描繪、融合化發展。


知識和信息的充分挖掘和有效利用,推動了諸多領域重大而深刻的變革,極大改變了人們的生產、生活和消費模式,對經濟發展、社會生活和國家治理產生著越來越重要的作用。數字化的知識和信息作為關鍵生產要素,推動人類社會進入全新的數字經濟時代。

下表顯示了生產要素的變遷規程:



第三十五條:信息技術革命前人類是信息的餓漢,就像工業革命前人類是食品的餓漢


這個很好理解。


第三十六條:擁有知識的不一定是知識分子,也可能只是個知識的吃貨


引用何博的自己以前文章的解釋:


其實就是在講信息革命前由於傳播困難,很多知識分子利用信息不對稱占盡優勢,但信息革命後,吃再多知識的胖子,也沒有網際網路知道的多,因為知識富足後人類需要的是智慧,大腦的CPU快燒掉了,神經網絡快堵住了,內存快失效了,消化不了這麼多知識了,出現了信息焦慮,連接恐懼。


遍地都是知識的吃貨,知識的胖子,卻越來越缺乏獨立思考和智慧。為給知識胖子減肥,減少垃圾知識的攝入,需要提高知識的消化能力,是當務之急。


第三十七條:數據是21世紀的石油,但別忘了20世紀前石油不是戰略資源

第三十八條:石油應用也曾經歷過至暗時期:當洛克菲勒讓石油(煤油)主要用於照明時,愛迪生髮明了電燈。石油的主要用途轉向動力,是因為汽車的發明和亨利福特將其平民化


這兩句話隱含的含義是數據如果沒有應用的極大普及,就沒有戰略價值,正如動力應用讓石油成為了戰略資源一樣,但現在廣告和金融已經讓數據先飛起來了。


第三十九條:記憶是例外,忘記是常態,於是我們發明了文字、書籍和大數據來當人腦的外設。人類社會的諸多規則和習慣,是建立在人人都有健忘症的假設上的,但這個假設正在被大數據連根拔掉


有了數字孿生,你所有的信息都被自動記錄,因此未來靠記憶獲取的任何優勢都將灰飛煙滅,比如讓孩子練習心算純粹是浪費時間,以前的這些規則和習慣也許逐步會成為一種藝術展示,陶冶情操而已,現在你提筆忘字有很大問題嗎?


第四十條:算法是數字世界的運行規則


算法是處理信息的本質,因為程序本質上是一個算法來告訴計算機確切的步驟來執行一個指定的任務,是一系列解決問題的清晰指令。


算法代表著用系統的方法描述解決問題的策略機制。在數字世界中,算法就是權力,是虛擬世界中的法律和制度。


事實上,整個世界的運行規則都是由算法決定的,不同的學者從不同的角度也對算法進行了詮釋。


《未來簡史》中,提到了生物是算法,並從生物的生存和繁衍兩個角度進行論證。


《原則》中,作者認為自己能取得成功的原因並不是自己知道了多少,而是自己在無知的情況下,知道如何做。作者在生活和工作中對遇到的問題進行不斷地總結反思,從而形成做事情的一系列步驟,而這些原則推動了作者取得了今天的成功。


人生腳本中,提出人的命運也是有腳本的,形成於童年時期,他有開始、展開、高潮、結束和尾聲。我們後期的人生中,會根據人生腳本不斷進行重複。



第四十一條:算法沒有偏見,只有人才會有


加納裔科學家Joy Buolamwini一次偶然發現,人臉識別軟體竟無法識別她的存在,除非帶上一張白色面具。有感於此,Joy發起了Gender Shades研究,發現IBM、微軟和曠視Face++三家的人臉識別產品,均存在不同程度的女性和深色人種「歧視」(即女性和深色人種的識別正確率均顯著低於男性和淺色人種),最大差距可達34.3%。


今日頭條創始人張一鳴所信奉那句「算法沒有價值觀「,但今日頭條很多算法的結果卻引來了爭議,筆者的文章《數據分析師的算法推薦是否會陷入「真實的謊言」?》、《談談大數據時代的別被算法困在「信息繭房」》也討論過這個問題。


那麼,算大到底有沒有偏見?


我的理解是這樣:雖然算法並不會生而歧視,工程師也很少刻意將偏見教給算法,但算法的製作過程不可避免摻雜了偏見,比如數據集的構建缺乏代表性,數據特徵的選擇有偏頗、人工打標帶入的主觀性等等,在從人到機的遷移中,偏見習得了某種「隱匿性」與「合法性」,並被不斷實踐和放大。


因此,機器從未獨立創造偏見,但只要有人的參與,偏見就不可避免,從結果來看就是這樣。


第四十二條:電磁介質的普遍壽命是5-30年,1000年後「它們」如何考古呢?


這個我倒不怎麼擔心,定期備份更新唄,比如我5年換一次機器,硬碟也順便搗鼓一次,新的硬碟裝新老數據,只要你的新硬碟容量足夠大。

關鍵字: