備戰主網上線|星際大陸伺服器上架紀實

ipfs星際大陸 發佈 2020-02-05T04:22:55+00:00

上架視頻:https://v.qq.com/x/page/i3055pklukd.html今天是春節之後,為防控疫情宅在家的第十天,湖北仍在最前線與病毒決戰,全國井然有序地開展保衛戰。有的人已經看完了幾部長篇連續劇,有的人躺睡幾天之後終於受不了開始了抖音拍攝之旅。

上架視頻:https://v.qq.com/x/page/i3055pklukd.html

今天是春節之後,為防控疫情宅在家的第十天,湖北仍在最前線與病毒決戰,全國井然有序地開展保衛戰。有的人已經看完了幾部長篇連續劇,有的人躺睡幾天之後終於受不了開始了抖音拍攝之旅。但對於星際大陸礦場部運維團隊來說,卻沒有什麼區別,一直在忙碌,只不過從線下轉移至線上。


星際大陸礦場運維團隊對星際大陸所有業務進行基層支持。有關基礎IT資源的一切,包括設備採購的需求對接、機房伺服器上架、作業系統部署、伺服器運維保障等都是他們來完成實現的。沒有他們,線上業務就沒有了物理基礎,他們承載了伺服器設備從上架安裝到交付使用的全部環節。


元宵過後,Filecoin測試網第二階段、主網上線接踵而來,這是分布式存儲生態參與者的「狂歡」之日,也是礦場運維團隊肩負重任之時。全球分布式存儲伺服器,被分為多個批次和多個時間點,從各大廠商發貨,無論是空運還是陸運,最終都會先交付給運維的同事們。



伺服器上架的五個階段


設備運輸到礦場之後,伺服器上架前後的工作是重要而繁重的。據星際大陸礦場部負責人Daniel 介紹,伺服器上架要分五個階段。


第一階段:兩條線。第一條:供應鏈採購元器件,交給工廠組裝成伺服器,經過檢測,運輸到機房。第二條:運維要完成網絡耗材和網絡設備的採購,之後要在機房布好網線。


第二階段:伺服器在機房上架、安裝硬碟、點亮測試。


第三階段:網絡設置。


第四階段:系統化檢查。


第五階段:運行業務。


伺服器上架之前:機房環境改造工程



在設備上架之前,首先要完成的就是機櫃驗收、綜合布線等準備工作。運維同事使用業內先進儀器,完成機房內綜合布線的數據探勘,再進行機房綜合布線的施工改造,最終交付給機房團隊和網絡團隊使用。


Barry Li是礦場部最早的成員之一,結婚前二天和蜜月都是在IDC機房中度過的。據他介紹,在機房投入使用之前,先要完成機房網絡的綜合布線工作,機房輸出和網絡規劃輸出後,工程師會先做機房的綜合布線工程探勘,根據網絡核心機櫃的規劃、網絡架構的規劃及現場機櫃物理環境的分布,完成綜合布線耗材的測量工作,然後提交線纜耗材的採購申請。


測量數據包括:線纜數量、長度、各個橋架的線纜走線方向等。還要根據網絡的規劃及現場機櫃弱電橋架的走向,進行合理的改造建議。因為每個機房物理環境都不太一樣,這樣提前探勘是為了保證綜合布線數據的準確性,以及在確保方案正常實施的同時,減少不必要的資源浪費。


這些工作一般在設備到達現場之前半個月到一個月就要開始準備了,網絡綜合布線完成後,再繼續解決排障線路等問題。



再者,在伺服器上架之前,還需要事先根據機櫃的尺寸以及用電量來規定每個機櫃伺服器的台數。


中心機房的機櫃都是有一定的規格,不同的規格放置的伺服器台數也不會相同。


一般來說,一個42U的機櫃,1U伺服器會放置16台左右;2U尺寸的伺服器,一般是放置12台左右;4U大尺寸的伺服器一般會在7台上下。在進行伺服器布置的時候,要考慮到伺服器之間的散熱問題,因此一般來說,伺服器與伺服器之間會有一定的空隙位置,大概也就是1U這樣大的尺寸空間,這樣是便於很好的進行散熱,保障伺服器的正常使用。


伺服器上架機櫃的時候,還需要考慮機櫃裡面涉及到的交換機空間的大小,以及PDU位置等。這些設備都是會占據伺服器機櫃的一定空間,會導致可上架伺服器的台數相應的減少。


機櫃一般還會有一個額定的電源量。當超出了規定的電源量的時候,即使伺服器機櫃還有空間,也不能再上架伺服器了。否則會導致其他的伺服器用電量不足等情況的發生。


伺服器上架,時間緊任務重


機房物理環境準備完畢後,開始上架伺服器。


Daniel Cao具體介紹了他們的工作:


「設備上架工作內容十分龐雜。我們日常要對機房內的所有動作進行嚴格把控和管理,比如設備移動、設備的硬體擴容、機櫃內布線、設備信息反饋以及日常的維護工作等。」



設備到貨後,要開始拆箱、驗收、上架、硬體配置、連線、測試一直到最後的交付。每一環節單列出來都是一份耗時耗力、需要耐心的工程:


驗收:按照廠商當天的到貨數量、硬體配置信息、外觀驗收等,進行現場逐一核對;


測試:主要測試帶外管理的連通性測試、測試設備可以正常加電開機運行。


……


為了正常交付、保障業務正常運行。在伺服器上架期間,團隊成員必須加班加點地工作。


「到時,我們不僅沒時間吃飯還可能經常睡機房。」Daniel笑著說道。


伺服器上架後 工作只進行到一半



據運維部同事了解,其實伺服器上架後,工作才進行到一半。所有新上架的伺服器都要進行以下檢查工作:


修改主機名,並做相關初始化(磁碟,時間,nrpe,snmp等)


備份並修改機器列表


增加信任關係


增加防火牆配置


crontab檢查


關聯關係更新


文檔更新


日誌檢查,負載檢查


單點備份及預案


搭建好環境測試後,再加相關監控。


注意伺服器情況


配置時間伺服器


確認主從是否同步


檢查確認iptables


任何步驟都需要先備份


確認日誌正常滾動,無錯誤日誌


確認supervisor正常


確認無遺漏機器


日誌備份,日誌切割腳本修改


系統服務開啟檢查


網卡 路由檢查


磁碟檢查


……


工作環環相扣,任何一項都需要專人負責。


雲存儲爆發在即 伺服器備戰正當時



隨著數字化、網絡化的發展,越來越多的公司構建在以數字組成的產品服務之上,蘋果、亞馬遜和微軟等公司已經超越以物質為主進行建設的傳統公司。數字化、網絡化的建設過程中,公司和個人正在產生越來越多的數據。據統計,從2010年到2020年,世界每年創造的數據在以42%的複合增長率增長;到2020年將達到每年44ZB的數據量。


5G落地帶動新一輪數據浪潮來襲,Filecoin等分布式存儲項目作為當前最讓人期待的大數據存儲解決方案,將在5G時代迎來大發展,而分布式存儲伺服器作為產業鏈核心環節必將率先受益。


其實,從2017年開始,星際大陸礦場運維團隊就開始對全球IDC機房進行了深入的考察和對比。團隊分為兩大組,一組與研發部合作,對Filecoin挖礦原理和網絡進展進行研究討論,不斷完善伺服器礦場運維方案。一組分成幾撥人馬,同時在不同的機房進行高效率、高質量、低成本的工作。



當爆發期真正到來之時,礦場運維還將遇到哪些的挑戰呢?


「我們必須具備充足的人員、大規模精細化的採購、穩定精細的運維軟體、千錘百鍊的挖礦方案、運維現場的人事協調和穩定。任何一個環節都必須重視,不能掉以輕心。不過運維部同事一直是在實戰中敢於面對、不停地一個個解決問題。」Barry Li說道。


Daniel最後表示:「生態參與者越多,我們壓力越大,但我們敢於迎接挑戰,現在的團隊大都是具備十幾年經驗的資深運維人員。團隊里任何一個人都有能力獨挑大樑!保證伺服器的運維安全,提高伺服器的性能是我們工作中的重中之重,伺服器備戰正當時,我們一直在行動!」

關鍵字: