史上最大規模乳腺癌研究：近500個科研機構合作研究了21萬人，發現191個乳腺癌相關基因

本文轉載自「BioWorld」。

乳腺癌（breast cancer）是一類因乳腺上皮細胞增殖失控而導致的惡性腫瘤，其發病率常年位居女性惡性腫瘤首位，因此它也被稱為「粉紅殺手」！

在我國，乳腺癌的發病率呈逐年上升趨勢，每年有30餘萬女性被診斷出乳腺癌，在東部沿海地區及經濟發達的大城市，乳腺癌發病率上升尤其明顯。

截至目前，乳腺癌因異質性等因素，其具體病因尚未完全清楚。所幸，隨著基因組大數據分析的發展，人類對乳腺癌等惡性腫瘤相關基因突變的認知愈漸增多。全基因組關聯研究（GWAS）已在150多個基因組區域發現與乳腺癌風險相關的基因變異。然而，這150多個基因區域裡僅有不到20個區域被詳細研究，驅動這些關聯的大多數變異和基因仍然是未知的。

近日，《Nature Genetics》刊發了一篇有關乳腺癌靶基因精準定位的研究論文。該研究規模空前，由劍橋大學、哈佛大學領銜，458家科研單位的近500位科研人工共同完成。

研究人員利用密集基因型數據對所有已知的乳腺癌風險區域進行精細繪製，數據涉及超過217000名參與者——基因型數據來自乳腺癌協會聯合會（BCAC）和BRCA1/2修飾子研究者聯盟（CIMBA）。通過人群大數據分析以及基因晶片分析，在150個乳腺癌高風險區域精準定位了191個可能的靶基因。

這些新發現的乳腺癌基因將幫助我們更詳細地了解乳腺癌是如何產生和發展的，但目前已知的起作用的基因數量之多，恰恰突顯了乳腺癌的複雜性！

https://doi.org/10.1038/s41588-019-0537-1

所有樣本均使用OncoArray或iCOGS晶片進行基因分型，並採用逐步多元邏輯回歸方法識別各區域的獨立關聯信號，並在每個信號中定義可信因果變量(CCVs)。研究者發現基因組特徵與CCVs有明顯重疊，緊接著，他們使用貝葉斯方法，整合基因組特徵和遺傳關聯從而精簡可能的因果變量集，並計算它們的後驗機率。

最後，研究人員整合了遺傳、表觀遺傳表達以及染色質構象數據，以推斷每個信號的可能靶基因。

研究流程圖

1、確定每個風險區域的可信因果變量(CCVs)

研究者對GWASs發現的150個乳腺癌風險區域進行了多次互補分析，發現了362個獨立的風險信號，其中205個具有較高的可信度。他們觀察到，大多數風險區域包含多個獨立信號，ESR1（雌激素受體）及其共調控基因周圍區域的數量最多（9個）。

研究者使用了兩種互補的方法來確定每個乳腺癌風險區域內的CCVs：PAINTOR（一種貝斯葉方法）和傳統的多項式回歸方法。CCVs支持由多項式回歸發現的大多數關聯，並且還確定了額外的變體。具體來說，貝葉斯方法強調了15個很可能是因果關係的變量（HPP≥80%）。從這些方法中，我們在每34個信號中分別識別出一個可能是因果關係的單一變量。

在其他信號中，我們也發現了四個之前被認為有害的編碼變化：無義突變rs11571833（BRCA2）；兩個CHEK2編碼變體（移碼突變）；和剪接變異體（TERT中的rs10069690，導致端粒酶活性降低、端粒縮短和DNA損傷反應增加等）。

2、揭示CCVs在DNA水平上的功能，並預測它們的目標基因

值得注意的是，在150個乳腺癌風險區域中，許多與ER陽性（乳腺癌ER陽性率在50%~80%左右）乳腺癌風險相關的CCVs存在於標記為開放和活躍的ER陽性乳腺細胞的基因調控區域，而不存在於其他類型的細胞中。此外，相當一部分潛在的CCVs與轉錄因子蛋白的結合位點以及協同調節因子相互重疊。

9種蛋白（CREBBP、EP300、ESR1、FOXI1、GATA3、MEF2B、MYC、NRIP1和TCF7L2）也出現在高可信度靶基因列表中。這些基因編碼的大多數蛋白質在雌激素信號傳導通路中發揮作用。CREBBP、EP300、ESR1、GATA3和MYC也是已知的在乳腺腫瘤中經常發生體細胞突變的癌症驅動基因。

3、與ER陽性信號相比，ER陰性信號豐富的基因組特徵更少

研究者們發現相較於ER陽性信號，ER陰性信號乳腺癌關聯基因更少。BCAC和CIMBA機構的ER陰性腫瘤患者中，不到20%的基因組信號意味著更大的er陰性乳腺癌風險。除此之外，ER陰性乳腺癌細胞系的ChIP-Seq公開數據很少和ER陰性腫瘤的異質性等因素也限制了這方面研究的展開。

儘管如此，本研究還是找尋到35個ER陰性乳腺癌可能的靶基因。其中一些已經有功能證據支持：CASP8和MDM4。然而，目前大多數靶點在ER陰性乳腺癌的發生髮展中沒有報導。

4、研究靶基因最常存在的基因本體通路

免疫、炎症和腫瘤發生之間的聯繫已被廣泛研究，而值得注意的是，14%(25/180)的高可信度靶基因和19%的ER陰性靶基因被預測定位於免疫系統途徑中，如T細胞活化、Toll樣受體級聯複合物以及I-κB/ NF-κB等信號通路。5個ER陰性高置信度靶基因（ALK, CASP8, CFLAR, ESR1 和 TNFSF10）位於I-κB/ NF-κB信號通路中，有趣的是，與ER陽性細胞相比，ER陰性細胞具有更高水平的NF-kB活性。此外，最近對乳腺癌腫瘤組織的表達甲基化分析也發現了兩個與DNA甲基化水平相關的基因簇：一個富集於ER信號基因，另一個富集於免疫通路基因。

本研究的領導者，劍橋大學Alison Dunning博士認為，這些令人難以置信的新發現的乳腺癌基因為我們提供了更多的基因進行研究，這將幫助我們更詳細地了解乳腺癌是如何產生和發展的，但目前已知的起作用的基因數量之多，恰恰突顯了乳腺癌的複雜性！

總的來說，本論文的研究分析為200多個獨立的乳腺癌風險信號提供了強有力的證據，確定了許多高可信度的乳腺癌靶基因。雖然每一種基因變異只會使患乳腺癌的風險增加非常小的一部分，但綜合起來，這些基因變異將讓女性更清楚地了解自己的患病風險，這也將使醫生和臨床醫生能夠就降低乳腺癌風險提供最佳策略。

End

參考資料：

[1] Fine-mapping of 150 breast cancer risk regions identifies 191 likely target genes