深耕雙11突變型峰值場景10年,阿里雲獲得國家技術發明獎

第一財經 發佈 2020-01-10T04:55:36+00:00

1月10日上午,2019年度國家科學技術獎勵大會召開,阿里雲參與的兩個項目分別獲得國家技術發明獎和國家科技進步獎。

1月10日上午,2019年度國家科學技術獎勵大會召開,阿里雲參與的兩個項目分別獲得國家技術發明獎和國家科技進步獎。

其中,阿里雲聯合上海交通大學開展的「面對突變型峰值服務的雲計算關鍵技術與系統」獲得國家技術發明二等獎。獲獎名包含阿里巴巴技術委員會主席、達摩院院長、阿里雲智能事業群總裁張建鋒和阿里巴巴資深技術專家林昊,後者2007年加入阿里巴巴,曾是阿里巴巴技術保障部研究員,並擔任過系統、中間件和研發效能負責人。阿里雲與清華大學共同研發的編碼攝像關鍵技術及應用獲得國家科技進步二等獎。該技術在軟硬體兩方面解決了傳統成像在「大縱深場景全清晰、複雜場景的精確深度感知和傳感數據高效表示與重建」三個方面面臨的挑戰。

阿里雲此次獲得國家技術發明二等獎的項目是「面對突變型峰值服務的雲計算關鍵技術與系統」。突變型峰值,即網絡流量洪峰導致的用戶請求驟然增長,這會導致用戶請求響應慢、系統崩潰等問題,常見於「春運搶票」、「秒殺」以及「春晚」、「雙11」、「跨年」等大型場景。

「阿里巴巴是一架高速飛行中的飛機,我們成功在此過程中換上了全新的引擎。」去年11月11日,張建鋒對包括第一財經記者在內的媒體表示,用公共雲來承載這樣一個萬億規模的核心系統,阿里雲是第一個做到的,「很多雲廠商自己的業務系統,不在自己的雲上,今後阿里全部系統都在阿里雲上。」

突變型峰值問題背後,是全球IT界和網際網路界都曾面臨的技術難題:面對網絡流量洪峰,傳統IT及雲計算技術呈現出雲中低算力節點負載高,調度不均衡;存儲設備擴展故障劇增,恢復不迅速;服務鏡像倉庫網絡擁塞,分發不及時;專家經驗演進和查詢慢,分析不智能等四大問題。

此次發明獎背後的核心技術主要是「阿里雲百萬級規模容器的集群管理能力」,包含:突發流量下的極致彈性能力;世界第一的雲原生鏡像分發技術;以及大幅提升數據中心資源利用率的混部能力。

雙11是阿里雲各項核心技術的集中能力體現,包括混部能力,極致彈性,大規模的鏡像分發能力等。其中以混部為例,通過內核隔離,資源調度融合以及數據能力建設,實現不同的業務進行混合部署,做到數據中心的利用率大幅提升。在2019年雙11期間,阿里雲承載的訂單創建峰值達到54.4萬筆/秒,而實現如此高峰值背後,通過阿里雲的混部技術能力以及雲的極致彈性能力,做到資源成本減半。

促使阿里雲取得如此成績的故事要從2008年說起。

2008年,在阿里的IT架構中,淘寶和支付寶使用的絕大部分都是IBM小型機、Oracle商業資料庫以及EMC集中式存儲。當年用戶激增,數據越來越多,每天早上八點到九點半之間,伺服器的處理器使用率都會飆升到98%。

當時全球企業的資料庫基本都是Oracle,而阿里巴巴擁有亞洲最大的Oracle集群,計算規模達百TB級別。按照當時淘寶用戶量的增長速度,Oracle集群很快將無法支撐業務發展,而最核心的問題就是算力不足。儘管當時阿里已開始把數據遷移到更大規模的Greenplum,但後者在百台機器規模時就遇到瓶頸,給業務增長造成極大阻礙。此外,Hadoop之類的開源技術在可靠性、安全性上也遭遇了天花板。

2008年9月,阿里雲創始人王堅帶著解決大規模算力瓶頸的任務加入阿里。他發現,無論是Oracle還是Greenplum、Hadoop,都不是大規模數據計算的最優解,要研發一套新的技術架構來換掉阿里巴巴的舊引擎。

新的架構需要足夠便宜,而且為了滿足阿里巴巴龐大的計算任務,這套系統至少要比IOE表現更好,能同時調度數千台計算機。王堅需要從零開始建立這個雲計算系統。2008年10月,這套雲計算系統被團隊定名為「飛天」。

隨著「去IOE」的實施,阿里IT發展策略逐漸從依賴「商業軟體」、到擁抱「開源軟體」最終演變為自主技術和雲計算服務能力,更為2009年「阿里雲計算有限公司」的成立埋下伏筆。

「如今,飛天作業系統能夠在10萬台級別以上的伺服器裡面做調度,今年(2019年)雙11有非常多的應用,但是它並不是說每一個時間點,所有應用負載都是一樣的。」張建鋒表示,他們在零點把大部分計算機資源分配給交易等應用,過了凌晨1點之後,把數據分配給數據處理系統,2017年當天處理了300PB的數據,2018年處理了600PB的數據,2019年要處理970P左右的數據。

目前,這些技術已由阿里雲賦能給各行各業與世界各地,提高了全球網絡「抗洪」能力。例如,中國郵政核心系統上雲後,承載了超平時5—10倍的業務「洪峰「,東南亞最大電商平台拉扎達(Lazada)則在雙11活動期間承載了超平日15倍的峰值。

關鍵字: