數據應該如何定價 - 經濟觀察報

【超級平台】

陳永偉/文

先定產權還是先定價格

近年來，隨著大數據、人工智慧、雲計算等技術的發展，人們搜集、存儲、分析數據的能力獲得了極大提升，數據開始從單純的傳遞信息的載體逐步變成了一種重要的生產要素。如何才能更好地創造、交易、使用這種要素，讓它們能更好地提升效率、創造價值，成為了人們熱議的話題。

為了更好地激勵數據資源的創造，讓既有的數據資源得到更為有效的配置，市場化的手段是必不可少的。只有數據可以在市場上被充分交易，這種資源才能真正地流動起來，其價值才能在流動中被發現。

不過，要真正實現數據資源的市場化配置並不是那麼簡單的，人們需要先解決很多制度配套問題。其中，最為關鍵的問題大致上有兩個：第一個是數據的產權到底如何去劃分；第二個是在交易中，數據應該如何被定價。

作為一個數字經濟的研究者，我參與過很多有關上述問題的研討會，聽過、學習過很多專家的高論。在大多數專家看來，在以上兩個問題中，數據產權的界定問題是需要優先解決的。原因很簡單——如果這一問題不解決，那麼交易的前提就難以保證。通俗地說，你怎麼可以去拿別人的東西賣錢呢？正是由於這種「共識」，幾乎所有關於數據要素市場建設的研討會最後都會開成關於數據產權建設的研討會。

唯一的一個例外是去年參加過的一個研討會。在那次會上，一位資深的法學家提出了一個非常不同的分析角度。在他看來，界定數據產權這個問題固然重要，但由於數據這種要素太新了，和傳統的要素相比又有太多的不同，因此在短期之內，我們可能很難在這個問題上達成共識。然而，推進數據的市場化配置，讓數據流動起來這個任務是十分迫切的，所以我們並不能安心地等到產權的問題完全解決後再來考慮這個問題。因而，他主張，應該在進一步研究數據產權問題的基礎上，把模糊產權問題下的數據定價問題提上日程，通過「兩條腿走路」來推進要素的市場化。

可能是因為這個研討會的參與者主要是法學學者，也可能是因為這位專家的觀點在其他人看來過於離經叛道，因而他的講話在當時並沒有引起很大的共鳴——當然，礙於其資歷和地位，現場並沒有人去直接反駁他，大家只是很自覺地迴避了他的觀點，最後還是一如既往地把會開成了關於數據產權問題的研討會。不過，在我看來，這個被大家刻意忽略的觀點，其實是非常值得挖掘的。

我後來越回味這個觀點，就越覺得這個觀點雖然出自一位法學家之口，但其實是非常符合經濟學的觀點的。事實上，只要我們回顧歷史，就會發現沒有一樣要素的產權是可以「畢其功於一役」，通過一個先天的設計而確定下來的。大多數的產權交易規則要在不斷的交易中去磨合、去完善，最後才能成為一個公認的規則。這個產權規則形成的過程，其實是無數人參與的結果。那麼，在什麼時候，人們會有積極性去參與產權規則的設定呢？那就是，他們認識到，界定產權給自己帶來的好處要大過界定產權給自己帶來的成本，而要讓他們認識到這一點，就必須讓他們認識到他們要素本身的價值。

以數據為例，現在關於數據產權應該怎麼界定，爭議非常大。一種比較有代表性的觀點是，應該把初始產權分配給對數據的估價較高的人，比如在搜集數據的平台和平台的用戶之間，就應該把產權交給平台。這種觀點是有理由的，由於數據本身的特徵，它在平台手裡通常能發揮出更大的作用，創造出很高的價值；而相比之下，不少實證研究都表明，即使那些號稱非常在乎隱私的人，也願意以非常低的價格出售和自己相關的數據。那麼這個觀點有短板嗎？當然是有的。其中的一個重要問題就是，如果平台的用戶都沒有機會認識到與自身相關的數據的現實價值，他們對這些數據給出的估價就很可能是過低的。因而，按照以上的實證分析結果簡單地把數據產權界定給平台，就有可能是一個錯誤前提下的錯誤結果。這裡，我無意對以上關於數據產權的觀點本身再作進一步的展開，只是想借這個例子說明，優先探索數據的定價和價格形成機制，再反過來思考數據產權，或許可以幫助我們理清很多原先難以搞明白的問題。

在那次研討會後，我一直在期待那位法學家能夠撰文進一步闡述自己的觀點。然而，直到現在，我還沒有等來這個文章。倒是在不久前，我看他發表了一篇文章，說應該把數據產權的界定作為數據市場建設的首要問題——不知道為什麼，他又和其他的專家們達成了共識，而我也不知道究竟是應該為這種共識感到欣喜還是感到遺憾。

數據交易場景下的市場設計問題

既然法學界的前輩沒有沿著自己提出的觀點繼續走下去，那麼就讓我這個經濟學出身的後輩順著他指出的路，往下探一探吧！

在討論數據的定價問題前，我想先對價格這個概念本身進行一些討論。價格是什麼呢？從根本上講，它是供求雙方議價的一個結果。對於任何一件東西，它的供應者和需求者都可能存在著一定的估價差異。比如說一個杯子，持有這個杯子的人內心認為這個杯子值30塊錢，低於這個價格不賣，而想買杯子的人內心則認為這個杯子最多值50塊錢，高於這個不買，那麼最終這個杯子將會以多少價格成交呢？答案是：我們並不知道，因為我們並不了解買家和賣家之間的相對談判力量到底有多大。但有一點是可以肯定的，這個價格一定會在30塊到50塊之間，否則兩人中就至少有一人不會願意進行交易。從這個角度看，商品供給方的保留價格和需求方的意願支付將分別是兩人可能達成交易的最低價格和最高價格，至於實際的成交價，應該在這兩者構成的區間內產生。如果一個市場充分發達，那麼同一個商品的供給者和需求者都不止一個，每一個需求者都有不同的意願支付，而每一個供給者都有不同的保留價格，正是這種差異化的存在，最終導致了所謂的需求曲線和供給曲線的形成，而這兩個曲線的交點則會形成所謂的均衡價格。

對於大多數商品來說，由於它們的供給者和需求者都很多，交易量非常充分，因而價格通常是通過上面所說的供求曲線的交叉所決定的。對於這樣的商品，我們無需多花心思，只要允許人們自願交易，均衡價格就會自然顯現出來。

對數據這種商品，有一些交易場景是比較符合以上特徵的。例如，在物聯網發達的環境下，可能有很多數據的採集者通過傳感器在不斷採集實時數據，而與此同時，又有很多企業需要這些數據。在這種場景下，我們就可以放開交易，讓供求自己去尋找價格。這時，數據的價格就可能會隨著時間的變化而不斷波動，以此來體現供求關係的變化。

不過，在現階段，以上的交易場景依然是比較少見的。事實上，在更多的情況下，市場上既沒有那麼多的數據供給者，也沒有那麼多的數據需求者，他們之間的交易也不會那麼頻繁。在這種情況下，整個交易在更大程度上就會退回到點對點的形式。正如前面指出的，最終的價格會在一個區間內產生。但是，這裡有一個問題。當供求雙方的數量都很少時，它們就各自成為了一個壟斷者，因而都具有了巨大的談判力量。他們不僅可能濫用自己的談判力量去為自己爭取價格上的優勢，還可能會隱瞞自己的實際信息，來欺騙交易對象。這時，整個市場上的交易效率就可能會非常低。在這種情況下，一個良好的市場應該能夠幫助數據供求雙方儘可能地去披露信息，然後通過一定的市場設計來誘導價格的形成。

那麼在數據的交易中，什麼信息是最為關鍵的呢？很顯然，一個是供給者的保留價格，而另一個則是需求者的意願支付。有了這兩個信息，市場上的哪些主體之間可能交易就可以被確定了，供求雙方的彼此談判也才有了目標。當然，按照我們的交易習慣，一般都是需求者去尋找供給者，所以在以上兩個信息中，最為重要的是供給者的保留價格。有了這個信息，很多的交易就可以啟動了。

從理論上講，數據供給者的保留價格當然是其主觀決定的，但在很多情況下，數據供給者都會利用成本加成的思路來決定保留價格，即在自己提供數據的成本基礎上加上一個比例來作為自己的保留價格。和所有的商品一樣，提供數據所需要的成本也可以分為固定成本和可變成本兩個部分。固定成本是為了搜集、製造數據所必須投入的。例如你要搜集工業機器的實時數據，就必須鋪設傳感器，這一筆投入就是固定成本。當這些固定的投資鋪設完成後，每多搜集一筆數據又需要投入一筆新的資金，這些資金就構成了可變的成本。根據不同的交易模式，數據供應者可以根據這些信息，採用不同的方式來在成本加成的基礎上構建自己的保留價格。具體來說，如果數據交易是一次性的、整筆的，他的數據生產成本就是整個固定成本和可變成本的總和，在這個基礎上加上一個比例，就可以作為保留價格。而如果數據的交易是按量進行的——例如讓數據的使用者調用，按照調用次數付費，那麼他要考慮的成本就是調用一次數據所需要的邊際可變成本，以及固定成本的分攤，然後再在這個數值的基礎上加上一個比例作為保留價格。

相比於數據提供者的保留價格，數據需求者的意願支付可能是更難決定的。從理論上看，對於數據的需求者而言，數據的價值應該等於其能為自己帶來的邊際貢獻——換言之，有這個數據還是沒有這個數據，究竟能給自己帶來多少好處，這個好處就是他們所願意為數據支付的費用的上限。這個思路看起來非常簡單，但在現實中卻很難執行。事實上，在很多情況下，即使數據的使用者自己，也很難知道多使用一些數據能對自己的分析有什麼改進，而這些改進究竟能帶來多少經濟收益，更是難以評估。在這種狀況下，要精確獲知他們的意願支付將是十分困難的。好在在現實的交易當中，他們在交易前並不需要提供這些信息。通過交易程序的設計，我們可以誘導他們認識、披露這些信息。

那麼市場交易機制應該如何設計呢？這需要取決於交易數據的特性。

一般來說，如果數據的潛在買家比較多，數據的排他性也不太強，一個人使用數據並不影響其他人使用，那麼直接將數據供應者的保留價格設定為市場的價格就是一種比較好的價格。在這種設定下，所有願意支付超過這個保留價格的用戶，都可以獲得數據，所有潛在的需求都能得到滿足。從社會福利的角度看，這是一個比較好的結果。對於數據供給者來說，也能帶來比較豐厚的收益，這是一個共贏的結果。在現實中，類似類型的數據有很多已經在採用這種模式進行交易。例如一些數據公司提供的研究數據，以及一些諮詢機構提供的報告（在報告中往往有很多特別製作的數據），都是採用這種模式進行交易的。

當然，如果數據的潛在交易對象較少，數據本身的排他性又很高，那麼以上的市場設計就不再適合了。舉例來說，假設A、B兩個公司都在嘗試獲取一套數據，如果這套數據被其中一家公司獲取，則可以幫助公司制定有效的策略，帶來巨大的價值，而如果這套數據被兩家企業所共享，那麼這個數據將一文不值。顯然，在這種情況下，如果數據的供應者再按照上述策略來實施交易，這筆交易就不會達成。為了促進交易的達成，他可以採用一些變通的方法，例如設計一個拍賣機制，將保留價格作為底價，讓A、B兩家公司對數據進行競拍，價高者得。通過拍賣制度，不僅A、B兩家公司可以更好地通過對手的出價信息來認識數據的價值，最終還能保證數據落到對它評價最高的那家公司手裡。顯然，這比單純的設定價格要有效得多。當然，拍賣制度的設計本身就是一門學問，關於這些技術問題，限於篇幅，在這裡先不作展開。

總而言之，在數據的交易過程中，數據價格的生成機制應該根據其交易模式來設計。對於供需雙方數量都較多，交易比較頻繁的交易，可以更多地放任市場供求自行確定價格。而當供求中的至少某一方數量相對較少，在容易出現因供求雙邊壟斷而導致交易無法進行的情況下，則應該引導數據供給者先披露其保留價格，然後根據交易數據的特徵，設計一定的交易機制來促進數據競爭的效率。通過這些設計，數據價值就能更好地被發掘，數據資源本身也能夠得到更有效率的配置。

無交易場景下的數據資產估值問題

到目前為止，我們對於數據價格的討論依然集中在交易的場景之下。但還有很多時候，我們需要在交易本身並不能發生的前提下去為數據估價。

一種場景是數據驅動的併購案件。在這些案件中，被併購的公司所擁有的實物資產可能很少，就只有幾台電腦，但它們卻通過自己的技術，掌握了一些獨一無二的數據。在這個時候，如何給這些數據估價就成了一個難題。一個現實的案例是2016年時，谷歌對職業社交網絡公司領英（LinkedIn）的收購。當時，谷歌開出的高於領英市值50%的高溢價讓整個市場都震驚不已，谷歌對此給出的一個重要理由是，領英擁有獨一無二的數據，這些數據能夠在未來為谷歌帶來豐厚的回報。不過，谷歌這筆錢究竟掏得值不值，到目前為止依然有很大的爭議。

另一個場景是涉及數據侵權的案件。舉例來說，這幾年涉及網絡爬蟲的案件非常多。一些數據公司為了獲取數據，經常編寫各種爬蟲程序，去企業的網站上爬取數據，這很可能對這些公司造成侵權。當這類案件發生時，應該如何評估這些被爬取的數據的價值，又應該如何計算相應的損害賠償，都會成為很大的問題。

對於以上這些場景，數據本身並沒有發生交易，甚至沒有發生交易的機會。那麼，在這些情況下，又應該如何對數據來進行估價呢？在我看來，面對類似的情況，我們不妨將數據視為一種廣義上的資產，然後根據通用的資產價值評估來設定數據的價格。

在資產評估中，常用的估值思路有兩大類：直接法和比較法。其中，直接法是試圖從資產本身入手，去進行估價；而比較法則是與已有的類似交易對比，在類似交易所產生的價格基礎之上進行修訂來確定資產的價格。這兩種思路，都可以被借鑑到數據資產的估價當中來。

先看直接法。在資產估值中，直接法可以分為不同的角度。例如，我們可以從成本的角度來看資產，在成本加成的基礎上確定一個價值。這種思路，其實就像是前面所提到的數據供給者對保留價格的確定，只不過在這兒，估價會是由一個獨立的第三方給出的。與成本相對的，我們也可以從收益的角度來看資產。具體來說，無論是對於數據，還是其他的什麼資產，但凡是一種資產，其價值的最終決定因素就是其未來收益流的貼現。對於評估機構，它們可以藉助定量的方法，測算出數據可能為潛在者在未來各期帶來的現金流改變，然後將這些現金流用一個比較公允的貼現值貼現到現在，就可以得到數據資產的價值。

在現實當中，數據究竟能給使用者帶來怎樣的回報，具有很強的不確定性，其實現會依賴很多因素。為了綜合考慮這種因素，我們可以考慮引入實物期權（realoption）的觀點來對其進行評估。在這種方法下，我們可以把數據分析工作視為一種風險投資，而購買的數據則可以被視為是在未來一段時期內從事或不從事這項活動的一種選擇權（option，在英文中，它和期權是同一單詞。也有些文獻直接把期權譯為選擇權）。

相比於直接評估數據本身帶來的收益，評估數據分析活動本身可能產生的價值是要更為容易的。一旦我們知道了數據分析活動可能的結果的機率分布，以及所有結果所對應的機率分布，我們就可以借用金融學中的期權定價方法來計算它。如果這些收益是連續的，且被假設服從正態分布，那麼我們可以使用布萊克-肖爾斯（Black-Scholes）公式來直接得出估值；而如果收益是離散的，我們也可以用二叉樹分析或者其他的方法來獲得結果。或許有人會問，這種公式所計算出的價值靠譜嗎？這取決於我們怎麼定義「靠譜」。事實上，即使在期權交易中，布萊克-肖爾斯所計算的期權價格也未必和真正的成交價符合，但重要的是，它可以提供一個認識的「聚點」，在一定程度上消除人們對期權估值的分歧。我想，在數據資產的估價問題中，實物期權的思路也可以扮演類似的角色。

再看比較法。這種方法的優缺點都很明顯。優點在於，它的思路很直接，也很符合金融中的「無套利」原則。如果現實中已有能夠比較好地進行參照的交易，那麼這種方法執行起來也很容易。而這種方法的缺點則在於，在事實上，對於任何一種數據交易，我們都很難找到一個完全可比的例子進行參照。現實中，數據是一種非常個性化的資產，看起來相似的數據，它們的成本可能很不一樣；而即使是同樣的數據，對於不同人的價值也差異巨大。因而，在採用這種方法時，如何在既有的交易價格上進行調整是一個亟待解決的問題。

在我看來，在處理這類問題時，我們或許可以根據經驗，出台一套對既有交易價格進行修正的原則，這樣至少可以讓人們在估價時有章可循，從而減少很多交易成本。人們在討論標準必要專利的許可費問題時，曾提出過一套Georgia Pacific方法。這套方法的基準是從一個已經授權的標準必要專利的許可費出發，然後加入現實中需要考慮的十五個要素去修正這個許可費。我想，在分析數據估值問題時，我們也很有必要去開發一套類似的標準。

除了具體的評估方法外，我還特別想強調一點，那就是相比於其他要素，數據要素之間的互補性是非常重要的。比如為什麼谷歌願意為領英出這麼高的價，原因就在於它擁有的社交網絡數據可以很好地和谷歌自身的搜索數據形成互補，因此，對於谷歌來講，它可能值這麼多價，但對別人而言，它可能就不值得。考慮到這一問題，在進行數據價值評估時，我們必須將這個問題考慮在內。當然，怎麼在具體中去體驗這種互補性，這本身還是一個難題。在我看來，一種比較好的思路是引入合作博弈中「沙普利值」（Shapley Value）的概念，這一概念可以很好地測定一個人從參與合作中所能獲得的回報。如果我們把使用數據視為參與數據分析這項「博弈」，那麼其沙普利值就可以被視為數據在這個問題中的具體價值了。