臨床大數據如何推動藥企業務？資深產品專家高飛這樣解釋

1月7日，國家藥監局發布了2020年的1號文《真實世界證據支持藥物研發與審評的指導原則（試行）》，旨在釐清藥物研發和監管決策中真實世界證據的相關定義，指導真實世界數據收集以及適用性評估，為醫藥界和監管部門利用真實世界證據支持藥物研發和監管決策提供參考意見。

真實世界研究是指針對預設的臨床問題，在真實世界環境下收集與研究對象健康有關的數據（真實世界數據）或基於這些數據衍生的匯總數據，通過分析，獲得藥物的使用情況及潛在獲益-風險的臨床證據（真實世界證據）的研究過程。當前，臨床大數據和真實世界研究非常火熱，但實際情況中，卻存在商業模式不清晰、盈利困難的情況。

隨著一系列改革措施推進落實，藥物研發快速發展，新藥加速上市，同時對藥物研發工作的質量和效率提出了更高的要求。接下來，我們將探討藥企對於臨床大數據的應用和變現情況，以及真實世界研究的應用場景。

臨床大數據與藥物數據或健康數據不同，臨床數據的獲取具有極高的門檻，從這個角度來講數據本身就具有較高價值。換句話說，誰擁有了數據誰就擁有了發展臨床數據應用的絕對主動權。當前臨床大數據主要服務於政府、藥企、醫院、保險四個類別。這四個類別用戶相對典型，本文僅以討論臨床大數據在藥企的應用和變現模式。當然這四個類別也經常聯動，例如藥企-醫院，就是一對典型的聯動體系，臨床大數據同時服務於藥企與醫院才能構成完整的商業模式。

藥企是臨床大數據重要的服務對象，對於藥企而言無非是兩個方面的應用場景。其一是有利於藥品研發；其二是有利於藥品營銷。藥企相對資金比較雄厚，對上述兩個方面有價值的臨床大數據產品或服務，企業則有興趣推進。

臨床大數據的服務也圍繞著藥品研發與藥品營銷兩個方面展開。

藥物研發階段可做的工作很多。首先藥物研發分為臨床前階段、臨床階段、上市階段。本文只討論臨床大數據的應用，所以臨床前階段不在討論範圍之內。對於臨床階段而言，由於該階段的大量研究屬於前瞻性研究，數據需要基於試驗設計進行入組採集分析。在臨床階段，已有的臨床數據對於前瞻性研究利用價值有限，但通過已有數據尋找患者入組的確是非常有效的。其次，通過臨床數據是確定藥物立項的有力證據。包括是否需要開展新藥研發立項，是否對新品種進行引入（Licence In）等。

藥物營銷階段，臨床數據有充分的用武之地，包括藥物上市後評價、真實世界研究、營銷知識圖譜、健康監控與隨訪等。例如通過真實世界研究得到某款藥物的有力證據，不但可以公開發表，甚至可以寫入該藥物的說明書中。這些對於藥企營銷具有莫大的好處。

一、藥物研發

藥物研發分為兩個過程，藥物臨床前研究與藥物臨床研究，如下圖所示。對於臨床前研究，主要是處於實驗室階段，臨床數據能夠發揮的餘地很小。在新藥臨床階段，主要以前瞻性研究為主，即為了完成一個臨床終點而招募一批患者進行入組實驗。在藥物臨床實驗中，所有的數據基本都是新產生的，這樣我們已有的臨床數據對於新藥臨床實驗本身並沒有太大價值。但是，對於臨床實驗而言，入組人群往往具有較高要求，臨床數據可以幫助研究機構尋找合適的入組受試者。

臨床試驗入組

臨床試驗入組有多重方式，當前主要的方式有以下幾種：

（1）確保受試者符合倫理已批准的最新方案所規定的所有入選標準，且不符合任何一項排除標準；

（2）招募廣告：可以通過張貼已獲得倫理委員會書面批准的招募廣告；
（3）對所有就診患者進行普遍篩選；
（4）在門診等待合格受試者前來就診；
（5）建立專科、專病門診。

這些方式總體來講是一種招募行為，缺乏精準性，效率也較低。通過臨床數據可以較為精準的檢索到患者的相關信息，可以提高招募受試者的效率。但是由於我國電子病歷數據互通性很差，區域內很難進行電子病歷的融合，在規範用語方面也很難統一，使得數據零散難以檢索。

二、藥物營銷

1.真實世界研究

藥物上市後，最重要的問題就是藥品營銷。藥物上市後臨床研究，以及真實世界研究對藥企的最大利益，就是能夠促進該類產品在市場中的地位。所有藥企的研究方向一定是希望獲得自身有利的結果，如果得到不利證據也會積極調整公司策略，儘可能的避免損失。所以從藥企利益的方面考慮，將這部分內容放在藥物營銷中進行討論。

不過真實世界研究並不是只針對藥物，在醫療費用控制、醫療質量方面也有相應的研究路徑。但是為什麼當前會有這麼多與藥品有關的真實世界研究？

原因很簡單，有商業模式的研究工作才是一個穩定的模式。由於與藥品相關的研究與藥企商業利益直接相關，這些研究費用會被藥企買單。如此這般，當前市場上有關真實世界研究的項目大多與藥品相關。

真實世界研究還有一個大方向是醫療費用控制，當前醫保壓力很多，所以國家也在醫保控費方面投入了大量研究金費。不過在醫保控費方面，真實世界研究並沒有與商保企業產生相對明確的商業模式，所以自然研究的場景沒有藥品豐富。臨床大數據與保險有關的內容將在未來的文章中進行討論。

所謂真實世界研究，學術界有兩種不同的劃分方法。

第一種意見認為所有回顧性研究都屬於真實世界研究，簡而言之就是對所有真實醫療或醫療周邊產業產生的數據的研究，都屬於真實世界研究。這些數據是在診療過程中自然產生的，而不是通過人為設計某種實驗而得到的。

第二種意見認為真實世界研究是所有傳統臨床醫學研究之外的部分。傳統醫學研究是隨機對照實驗、隊列研究、病例對照研究、橫斷面研究等教科書里傳統臨床研究類型之外的研究。

針對上述兩個學術界的看法，筆者更傾向於第一種看法。在筆者看來，真實世界研究的本質是數據的來源問題。經過嚴格的實驗對象篩選獲得的數據（例如傳統臨床實驗），則不能稱為真實世界研究。只有在非刻意性的基礎上獲得數據，才能稱為真實世界研究。

所以真實世界研究沒有研究對象的評選標準，所有數據完全是在現實中產生。在FDA的指南中，對「真實世界數據」的定義強調了兩個點：定期收集（routinely collected），數據來源多樣（from a variety of sources）。

（1）優效、等效、非劣效研究

藥物療效驗證是藥企最感興趣的項目之一，為了驗證自己的藥物在醫療環境中的地位，藥企願意投入大量資源開展真實世界研究工作。所謂優效性試驗是為了驗證藥物是否優於另外一種藥物；等效性試驗，即檢驗一種藥物是否與另一種藥物具有相同的療效；非劣效試驗，即驗證一種藥物不差於另外一種。

藥物優效、等效、非劣效研究屬於傳統研究範疇，可以通過試驗設計進行試驗。不過從本質上而言，該實驗更適用於真實世界研究。只有在實際診療中產生的數據才能較好的做出客觀評價。

通常來講，進行該類試驗應該選取一款市場上廣泛認可的藥物作為陽性對照藥，通過與該藥物的對比，得到優效、等效、非劣效的相關結果。由於被選中陽性對照的藥品，通常都是較強的競爭對手，所有企業自然希望得到優效的結果。

對於優效性試驗而言，其假設檢驗為：

原假設

備擇假設

其中δ是一個臨床具有意義的數值，稱為優效性界值。πT為測試藥物的總體有效率，πC為對照藥物的總體有效率。優效性的主要目的就是需要確定測試藥物療效需要超過對照藥物的優效性界值，且不能低於0點。

對於等效性試驗而言，其假設檢驗為：

原假設

備擇假設

公式中的相關指標與前文中的一致。在等效性實驗中，需要測試藥物與對照藥物的有效性在一個界值中間，即可從統計學上判斷兩者的等效性。等效性更多的用於仿製藥與原研藥物的一致性評價中。

對於非劣效試驗而言，其假設檢驗為：

原假設

備擇假設

非劣效實驗重點在於確定測試藥物與對照藥物的療效之差不低於下屆，單側檢驗就可以確定非劣效。下圖很形象的說明了三種實驗的關係。如果測試藥物的療效低於對照藥物療效的下線界值，那麼則無法得出結論。

在傳統的生物統計中，以上三種試驗可以通過人為設計、招募受試者等方式完成。對於真實世界研究，我們需要完全採用真實產生的數據而並非利用人為設計試驗數據。

完成以上工作有兩個難點：第一是如何選擇數據，第二是如何制定臨床指標δ。

首先討論如第二個問題，定臨床指標δ從來都是一個難題，選大了會使得區間變大使得測試藥物優效性可能降低，或達不到等效的藥物被判定為等效；如果δ選的較小，則會增加相反機率發生的可能性。具體情況還需要針對藥物適應症因素確定。常用的指標有生化指標、生物等效性（EB）等。

第一個問題是如何選擇數據，這對於真實世界研究非常重要。選擇數據有兩種情況，一種是針對於已有的醫療數據進行回顧性研究，另一種情況通過對服用兩種藥物的人群進行隨訪獲得數據，屬於一種前瞻性的研究。

從藥企角度出發，通常希望快速得到相應的結論，不但可以解決成本，對藥品營銷推廣也有好處。回顧性研究的問題在於臨床數據是已經產生的數據，這些數據質量較差並且獲得困難，並不一定能夠達到對應的試驗目的。前瞻性研究的問題在於隨訪時間周期長，花費成本巨大，藥企很難長時間支持這樣一個只投入無結論的項目。

當前臨床數據遇到最大挑戰是數據轉換（ETL）及合併，也可以說是數據治理的內容。在回顧性的真實世界研究中，什麼樣的臨床數據才是有價值的，我們給出三條建議：

1.明確臨床事件的發生順序；

2.明確患者身份標識；

3.使用統一的編碼規範。

明確臨床事件的順序在於確定患者的病程及處理情況，大量臨床數據無法得到應用的原因在於無法看到一個患者，在一段時間內的臨床處置及相應的結果。臨床數據應用，並不一定要求在同一時間段內的患者，但需要明確順序因素與時間間隔。

明確患者身份標識，這一點很好理解。我們做真實世界研究大多數以患者為單位進行，即使研究某個藥物或療法，也需要根據患者個體進行分析。

使用統一的臨床編碼規範，這是醫療大數據應用中老生常談的問題。在這裡不進行過多的討論，希望各家醫院能夠儘量遵守。上述三個基本要求如圖所示。

對於真實世界的研究結論，良好的結論藥企可以寫入自己的說明書中，不利的結論企業應該立刻調整自己的市場布局，躲避不利因素。

（2）藥物不良反應監測與藥物警戒

藥物不良反應監測更多的是一種責任與義務。在國外很多不良反應監測工作由藥企完成，在國內更多的是由政府及相關部門進行監控。

藥物不不良反應監測更多的是一種企業責任，特別是在新藥上市之後，可以通過不良反應監測根據完善藥品說明書，讓用藥更加安全。從藥企利益的角度考慮，藥企更應該主動進行藥物不良反應監測，以降低由於不良反應而產生的高昂賠償費用。

藥物不良反應的發生機理是比較複雜的，歸納可分為甲型和乙型兩大類。

前者是由於藥物的藥理作用增強所致，其特點是可以預測，一般與藥物劑量有關，其在人群中的發生率雖高，但死亡率低。後者與正常藥理作用完全無關的一種異常反應，通常很難預測，常規毒理學篩選不能發現。

常用的流行病評價方法同樣也有回顧性研究與前瞻性研究兩種，這兩者分別對應了病例對照研究與隊列研究。前者是已知發生了某不良反應後，追查由某藥物引起的可能性大小；後者是對研究對象追蹤隨訪一段時間，比較暴露於藥物的研究對象中不良反應的發生率是否較不暴露於藥物的研究對象更高。藥物不良反應往往從真實世界數據中發現，通過傳統臨床試驗等方法確認。

藥物不良反應與藥物警戒在全球已經研究了很多年，不僅提出了多種算法，數據分析種類也由醫療數據分析轉向醫療數據、社交數據共同分析的方法。當前大數據、機器學習等多種算法都應用於藥物不良反應信號的發現。在藥物不良反應與藥物警戒中，有兩項核心工作：藥物不良反應資料庫構建和不良反應數據挖掘。

藥物不良反應資料庫是一個多數據源的資料庫，也就是說並不只來源於臨床中產生的數據，還包括蛋白、靶點等藥物數據。當前的不良反應數據大多數以不良反應上報為主，在未來的發展中，可以藉助人工智慧等技術手段構建疑似不良反應資料庫。該資料庫直接來自於臨床過程產生的數據，將一些臨床症狀與用藥情況疊加進行判定，主動挖掘一些不良反應事件。

藥物不良反應算法方面研究也同樣非常深入。主要分為三個大類：比例失衡分析算法(DPA)、邏輯回歸算法(LRM)、關聯規則挖掘算法(ARM)。

在AI與機器學習發展的今天，決策樹、聚類、神經網絡等算法都會用作藥物不良反應的挖掘工作。具體的算法內容本文不進行細節展開。

探索藥物不良的試驗方法有四種：差異法、協同法、共變法、類比法。這四種方法也可以作為臨床數據研究的理論依據。

差異法就是從相同中尋找不同的因素，這種不同的因素就有可能是引起醫學事件的原因。例如有一人群患有心律失常，當應用傳統的抗心律失常藥物無效時，停藥後又改用胺碘酮，結果有部分患者不僅原有的心律失常未得到控制，卻又發生了扭轉性室速。同屬一組人群，在使用胺碘酮前和後可找出的不同因素正是胺碘酮，因此，可以假設胺碘酮會引起扭轉性室速。據此，便可再作進一步的分析性研究。

協同法適用於在不同的時間、不同的空間或不同人口統計學的人群中的某些人出現了同一種醫學事件，就可以採用這一方法提出假設。例如調查食物中毒就可以使用這種方法。

共變法適用於某種醫學事件的發生頻率，隨著某種客觀因素的數量變動成正比地相應變動，這種數量變動的客觀因素就可能是引起醫學事件的原因。轟動全世界的「反應停事件」就是通過這一方法提出假設的，研究者們巧妙地將相關年代反應停的市場銷售信息與醫學事件聯繫起來，繪出一個銷售總量與病例數的時間分布曲線圖。

類比法是把原因不明的醫學事件和另一已十分清楚的客觀因素進行比較，如有相似之處，說明這種客觀因素可能就是引起醫學事件的原因。例如瑞氏綜合徵（Reye’s syndrome）的研究中，有人發現水楊酸中毒的臨床和組織學改變很類似該綜合徵，於是通過邏輯推理提出了假設。

藥企可以藉助臨床數據對藥物不良反應進行主動性研究。首先確定使用本公司某種藥物的相關人群。對於人群中發生的任何相關的臨床現象進行聚類，按照診療的事件數據進行分。藥物不良反應的研究成果，一般以平台或系統形式呈現。該平台可以進行不良事件檢索、不良事件相關藥物檢索以及相關的不良事件組合檢索。

2.藥物情報知識圖譜

藥物營銷之前依靠醫藥代表，現在各個醫院對醫藥代表管理嚴格，各大藥企的藥物推廣更多的變更為專家型營銷方式，通過對醫生、患者的教育，使他們了解自己公司的產品，以知識的方式傳遞營銷思路。現在的醫藥代表往往會手持一個pad，裡面有藥物的所有資料以及相關的臨床證據，甚至是一些醫藥有關的問答系統。這樣一個醫藥知識的檢索平台或者說問答系統就可以利用知識圖譜技術進行構建。

針對藥企而言，在營銷方面醫療知識圖譜可以說是一個最直接的應用，針對藥物臨床、臨床前的學術檢索，也是知識圖譜的一大應用場景。

醫學知識圖譜構建技術歸納為五部分，即醫學知識的表示、抽取、融合、推理以及質量評估。通過從大量的結構化或非結構化的醫學數據中提取出實體、關係、屬性等知識圖譜的組成元素，選擇合理高效的方式存入知識庫。醫學知識融合對醫學知識庫內容進行消歧和連結，增強知識庫內部的邏輯性和表達能力，並通過人工或自動的方式為醫學知識圖譜更新舊知識或補充新知識。

知識圖譜的數據來源非常多樣，臨床大數據只是知識圖譜數據來源的一個方面，下圖就表現了知識圖譜數據來源的多樣性。

從變現方面來講，知識圖譜更多的是以知識庫的形式提供服務，當然可以擴展為問答機器人等業務應用。知識圖譜在企業內部可以提高藥企的營銷水平，協助營銷人員更好的推介產品。知識圖譜對外是一套知識庫體系，可以通過售賣帳號獲取年費進行變現。

這篇文章主要針對於藥企討論臨床大數據的應用與變現情況。對藥企而言，它不同於醫院，企業的最終目的是盈利，所以，藥企必將參與到其商業模式中。藥企對於臨床大數據的應用可以說是一個正向的推動力，只有具備商業利益的模式才是一種穩定的模式，也會將臨床數據應用推向新的高度。

作者：高飛（筆名：白白）

資深產品專家。擁有數學、計算機、藥學交叉學科背景。在大數據與人工智慧領域專注於行業與技術的結合，擁有超過7年的AI算法與產品經驗，對產業網際網路的相關業務與商業模式具有深度研究。

曾任職於中國科學院化學研究所及Pharmaron藥物公司從事小分子藥物研發工作，高級科學家（Senior Scientist）。2014年開始從事AI算法研究及產品研發工作，主持研發了國內首個藥物臨床前智能數據平台，得到國家新藥評審中心（CDE）高度認可。多次主持研發了區域電子病歷及健康檔案大數據平台，服務於江西、山東等省份。曾應邀主持國際頂級雜誌科學(Science)中國年會，醫療與腦科學分會。曾應邀參與協和醫院「協和百年」信息規劃項目，提供臨床科研智能平台設計方案。

現任國家慢病防控信息技術委員會理事，中國藥學會高級會員，中國衛生信息協會常務理事。