siemens x
云計算

阿里云原生十年演進史

2025China.cn   2021年03月29日

  編者按:

  從“去 IOE”到虛擬化架構的全面升級,從初涉容器到全面容器化,從支撐雙11到疫情期間創(chuàng)下擴容紀錄,阿里云原生體系不斷演化,形成了龐大的“計算”家族。

  十年,阿里云原生重構“計算”,未來十年,阿里巴巴希望真正釋放云的紅利,讓更多的人用上云或理解云,為企業(yè)和社會創(chuàng)造更大的價值。

  導語

  十年前,“IOE”穩(wěn)坐 IT 架構C位不容置疑;十年后,上云成為大勢所趨,無人不識云原生。依托高彈性可擴展、高性價比、高可靠性等優(yōu)勢,云計算顛覆了傳統(tǒng)IT 架構成為主流。

  對于企業(yè)而言,云計算已經成為企業(yè)發(fā)展的必選項,引用Gartner的說法,“Cloud is not a strategy,it is a tactic”,云計算已經不再是戰(zhàn)略問題,而是戰(zhàn)術問題。

  對于國家而言,云計算是搶占未來信息化制高點的重要的途徑和戰(zhàn)略制高點,各國針對云計算紛紛出臺政策,甚至上升到國防戰(zhàn)略高度。

  阿里云的“去IOE”主張帶動了一批公司從傳統(tǒng)IT架構向互聯(lián)網(wǎng)架構轉型,并逐漸從互聯(lián)網(wǎng)企業(yè)蔓延到傳統(tǒng)企業(yè)。以阿里云為代表的國產云計算不斷追趕,不僅縮短了和國際巨頭的差距,還形成了龐大的“計算”家族。

本文通過梳理阿里云原生演技的重要節(jié)點,嘗試還原阿里云十年“計算”重構史。

阿里云原生演進 VS 云原生行業(yè)大事記

  從零開始,攻堅云計算

  2008年-2015年,從“去IOE”到虛擬化架構的全面升級,從初涉容器到全面容器化。

  1. 去IOE,建立“飛天”團隊

  2008年,隨著電商發(fā)展,淘寶業(yè)務激增,阿里巴巴對計算的需求呈現(xiàn)指數(shù)級增長,并與業(yè)務的增長之間產生了鴻溝。靠當時主流的IOE,IT基礎設施將成為業(yè)務發(fā)展的瓶頸。

  在這樣的背景下,阿里巴巴提出“去 IOE”,研發(fā)自己的技術架構,2008年10月,這個想象中屬于中國的云計算系統(tǒng)被團隊定名為“飛天”,源自中國神話中的形象,是阿里云計算探索的開始。

  I(IBM,服務器提供商,他們提供的服務器俗稱“小型機”)

  O(Oracle,數(shù)據(jù)庫提供商,他們的軟件是著名的“甲骨文商業(yè)數(shù)據(jù)庫”)

  E(EMC,存儲設備提供商,他們提供的是“集中式存儲”)。

  從字面義上看,“去IOE”只是換掉傳統(tǒng)IT基礎架構,而從更深的層次來講,是驅動了IT基礎架構的變革。除此以外,“去IOE”的另一重象征意義在于,自研創(chuàng)新的道路就此開啟,后續(xù)阿里巴巴的成功讓大量中國的服務器廠商、軟件平臺和應用軟件廠商,以及立足自主研發(fā)的存儲廠商看到了實現(xiàn)跨越式發(fā)展的契機。

  2. 阿里云成立,陸續(xù)推出產品

  2009年,阿里云成立。當時的云計算是不太可能使用 VMWare 這樣的商業(yè)化軟件,所以就采用了當時比較流行的開源虛擬化軟件 Xen。第二年,阿里云就推出了首個彈性計算產品 ECS。

2009年 阿里云成立

  除此之外,阿里云網(wǎng)絡產品也開始有了聲音,AVS 和 SLB 相繼上線。但是,從技術產品上來看,阿里云早期的“計算”家族還是比較單薄的,也存在一些限制,云計算的概念在業(yè)界基本處于萌芽階段,玩家不多。

  2011 年開始,各種各樣的云開始出現(xiàn),更強更新的 CPU 帶來了云上虛擬機計算能力的提升和換代,阿里云的計算產品家族逐漸豐富,接連推出 ECS 2.0、ECS 企業(yè)級產品家族,從對 Xen 架構研發(fā)過渡到 KVM 架構,并為 12306 提供了技術支持。

  2013 年,淘寶最后一臺小型機下線,阿里自研的飛天云操作系統(tǒng)開始支撐集團業(yè)務。隨后不久,洛神 1.0 發(fā)布,這是國內首發(fā)自研 SDN 系統(tǒng)。

  雖然捷報頻傳,但當時阿里的虛擬化技術,已經滿足不了云計算發(fā)展的步伐,要做到把自有業(yè)務也遷移到云上面來,就必須變革虛擬化技術。

克服云計算“缺陷”,開啟云原生時代

  1. 降低虛擬化損耗,自研容器技術

  虛擬化損耗是云計算自誕生以來就有的缺點。阿里云一直以來都在降低云計算虛擬化的損耗,逼近極致。

  2011 年,隨著云計算的普及,阿里巴巴走過物理機時代,全面邁向虛擬機,為了緩解巨大的虛擬化損耗,淘寶研發(fā)出了阿里第一代容器——T4,容器調度技術開始逐步支撐阿里集團的在線業(yè)務,云原生時代開啟。

  2015 年底,阿里云正式發(fā)布了企業(yè)級容器服務 ACK,正式對外開放容器技術,整個集團也開始實現(xiàn)全面容器化,推動了整個應用開發(fā),交付和運維方式的變革。

  阿里業(yè)務逐年爆發(fā),容器規(guī)?;?,跑在云服務器上是必然趨勢。 阿里云的飛天操作系統(tǒng)已經可以成熟調度數(shù)萬臺物理機,但因為虛擬化損耗,容器依然只跑在物理機上,無法享受到上云便利。

  為了給容器打造最合適的底座,2016 年雙 11 的技術復盤會上,時任阿里巴巴集團 CTO 張建鋒提出了極為苛刻的要求——由彈性計算團隊打造神龍服務器,將虛擬化損耗降低為0。

  從上層的容器到下層的資源底座神龍,如此,阿里便能構建敏捷、高效的業(yè)務運行體系。

  2. “0”虛擬化開銷,自研神龍架構

  把虛擬化開銷降低到0,這看似是違背能量守定律的,即便在學術界也沒有相關研究。最終阿里云想出了新的解決方案——通過專用芯片來解決虛擬化開銷。

  從技術的實現(xiàn)思路看,研發(fā)團隊需要重構一套計算架構,通過研發(fā)一個新的芯片組來為每個節(jié)點提供功能性和管理性的需求支持,在此基礎上,再研發(fā)出一套新的服務器硬件,和配套的系統(tǒng)軟件;然后再將這套技術架構融入到現(xiàn)有的產品設計中去。

  軟硬協(xié)同架構設計的理念已然飄向了云端,體量大的云廠商服務器部署規(guī)模達到百萬級別,意味著可以定制任何硬件,而云廠商也開始重新審視芯片、硬件和軟件的協(xié)同創(chuàng)新。要想收獲軟硬融合的技術紅利,重要的前提是可以自定義芯片,自主研發(fā)硬件。

  2016 年,阿里云開始規(guī)劃下一代虛擬化技術,也就是神龍,2017 年,神龍架構問世。它真正使用軟硬融合、軟硬件協(xié)同設計的模式,改變了傳統(tǒng)虛擬化技術和當前的計算架構不友好的地方。

神龍架構的靈魂:阿里巴巴自研MOC卡

  與“神龍”的意義類似,阿里云這一年推出了全球首個云企業(yè)網(wǎng) CEN,引領了業(yè)界云上網(wǎng)絡互聯(lián)產品的發(fā)展方向。阿里云網(wǎng)絡產品大爆發(fā),先后上線了遷移 VPC 方案、VPN 網(wǎng)關、共享流量包、共享帶寬、全球加速以及云企業(yè)網(wǎng)。

  這一年,云網(wǎng)絡也邁入了云原生時代,推出云原生 SDWAN,并全面支持 IPv6。

  至此,整個阿里云“計算”家族已經相當完善且龐大,并嘗試在雙 11 中進行應用。

全面云原生化

  2016-2019 年,阿里云“計算”家族從初涉雙 11 到全面支撐,從這場畢業(yè)大考中取得優(yōu)異成績。

  1. 支撐雙11,核心系統(tǒng)100%上云

  2018 年的雙 11,阿里嘗試將部分流量用神龍架構來支撐,2019 年,阿里巴巴將核心交易系統(tǒng)全部搬到了云上。這些系統(tǒng)對存儲 IO 能力、計算能力、網(wǎng)絡延遲等的要求相當于將神龍的能力榨取到極致。雙 11 大促如果可行,服務超大型客戶也將成為可能。

  在 2019 年的這場大考中,整個阿里云“計算”家族順利畢業(yè),拿下了 2500 億的交易額,同年發(fā)布的洛神 2.0 系統(tǒng)也在這次雙 11 中完美首秀。

  這一年雙 11,集群的規(guī)模超過百萬容器,單容器集群節(jié)點數(shù)量過萬,數(shù)據(jù)庫的峰值超過 54 萬筆每秒,對應 8700 萬查詢每秒,而實時計算每秒峰值處理消息超過 25 億條,消息系統(tǒng) RocketMQ 峰值處理了超過每秒 1.5 億條消息。

  在總結會上,阿里云智能總裁張建鋒表示:過去的一天,20 個小時是阿里技術上最經受考驗的一次。阿里云承載阿里巴巴 100% 的核心系統(tǒng),這是我們全球第一個做到的,我們有自己自研的飛天操作系統(tǒng)、神龍架構、云原生的數(shù)據(jù)庫、計算存儲分離的架構、全球第一個大規(guī)模 RDMA 網(wǎng)絡。

  經此一役,阿里云“計算”家族的技術能力被廣泛認可。然而,突如其來的疫情再次將其拉回備考狀態(tài)。

  2. 疫情突襲,創(chuàng)下擴容紀錄

  2020 年一場疫情打破了很多人生活的節(jié)奏,如果說“雙 11”是一場畢業(yè)大考,疫情就是一場臨時小考。為應對疫情中在線辦公和在線教育場景下激增的流量,阿里云迅速幫助釘釘在 2 小時內緊急擴容一萬臺云服務器,這個數(shù)字也創(chuàng)下了阿里云快速擴容的新紀錄。

  借助自身的大規(guī)模集群管理能力,在短短幾天之內,阿里云幫助百家云團隊有效升級了原有的架構方案,實現(xiàn)了數(shù)十倍的擴容,大幅提升了其性能與穩(wěn)定性,并擁有了應對爆發(fā)性規(guī)模的能力,用戶毫無察覺。

  “隨著阿里云計算能力不斷發(fā)增強,我們已經能夠一分鐘擴容 1000 臺虛擬機,彈性容器實例平均啟動時間僅為 10 秒?!?/FONT>

  這一年,阿里云又迎來了數(shù)據(jù)湖分析、實時計算、大數(shù)據(jù)分析等產品基于容器或者 Serverless 服務的方式對外交付,此時已經可以看到 Serverless 成為新的可能。

  3. 升級戰(zhàn)略,成立云原生技術委員會

  2020 年 9 月 18 日,2020 杭州云棲大會上,阿里巴巴正式成立云原生技術委員會,云原生成為阿里技術新戰(zhàn)略。在云原生技術委員會成立之后的雙 11,雙 11 核心系統(tǒng)又實現(xiàn)了全面云原生化。

  截至 2020 年,經過 10 多年的技術實踐,阿里云已經擁有國內最豐富的云原生產品家族,覆蓋 10 多個類別 100 余款產品,涵蓋底層基礎設施、數(shù)據(jù)智能、分布式應用等,可以滿足不同行業(yè)場景的需求,為企業(yè)數(shù)字創(chuàng)新打造最短路徑。

  2021年,阿里云將投入20 億優(yōu)選合作 10000 家伙伴,共同服務百萬客戶,加速百行千業(yè)實現(xiàn)數(shù)字化轉型。同時,阿里云還啟動了“云原生人才計劃”,三年內產教融合進入 300 所高校,新增培養(yǎng) 100 萬云原生開發(fā)者。

2020年云棲大會,阿里云原生全景圖發(fā)布面向下一個十年的技術儲備

“ Serverless 是云計算的未來”

  隨著以 Kubernetes 為代表的云原生技術成為云計算的容器界面,Kubernetes 成為云計算的新一代操作系統(tǒng)。因為屏蔽了服務器的各種運維復雜度,Serverless 讓開發(fā)人員可以將更多精力用于業(yè)務邏輯設計與實現(xiàn),而逐漸成為云原生主流技術之一。

  Serverless 計算可以分為 Serverless 運行時和后端服務( Backend as a Service)。其中 Serverless 應用運行時在阿里云上有非常豐富的產品選擇:如面向事件驅動應用的函數(shù)計算 FunctionCompute,提供了極簡的編程和運維體驗;面向微服務應用的 Serverless 應用引擎(SAE),對于傳統(tǒng)微服務架構應用無需任何修改即可以輕松上云。

  此外,阿里云還提供了Serverless容器的產品,比如彈性容器實例 ECI 和 Serverless Kubernetes(ASK),它們提供了標準的Kubernetes界面,不但可以讓用戶享受到極致的彈性能力,并且是完全免運維的。它們在過去一年有了 9 倍的高速增長。

動態(tài)、混合、分布式的云環(huán)境將成為新常態(tài)

  上云已是大勢所趨,但對于企業(yè)而言,有些業(yè)務出于對數(shù)據(jù)主權、安全隱私的考量,會采用混合云架構。

  此外,邊緣計算將成為企業(yè)云戰(zhàn)略的重要組成部分,為應用提供更低網(wǎng)絡延遲,更高網(wǎng)絡帶寬和更低網(wǎng)絡成本。我們需要有能力將智能決策、實時處理能力從云延展到邊緣和 IoT 設備端。隨著云平臺成為企業(yè)數(shù)字化轉型的創(chuàng)新平臺,一個變化隨之產生——云正在靠近它們。在分布式云中,公有云的服務能力可以位于不同的物理位置,而公共云平臺提供者會負責服務的運維、治理、更新和演變。

軟硬一體化全面升級

  云計算的發(fā)展推動了整個計算架構的演進,面向數(shù)據(jù)中心的芯片層出不窮,計算密度得到了大幅提升,如果將其與 Serverless 結合能夠全面提升計算效率和資源利用率;過去,我們已經經歷了 CPU 和存儲資源的池化,如今我們可以看到越來越多的 GPU 資源池化,開發(fā)者可以按需創(chuàng)建彈性的 GPU,大幅降低 AI 的計算成本,資源池化使得整個計算能力的彈性進一步增強,可以讓 Serverless 計算場景覆蓋更多的領域。

  此外,Serverless 也在全面推動軟硬一體化的進一步升級。阿里云“計算”家族的整體性價比不斷提升,企業(yè)用云的成本逐步下降,底層硬件對上層應用的支持越來越強,可以理解為下一代神龍是以應用為中心的,對上層的函數(shù)計算等應用的支持將越來越好,效率提升的同時大幅降低成本。

無處不在的計算催生新一代容器實現(xiàn)

  針對不同計算場景,容器運行時會有不同需求。KataContainer、Firecracker、gVisor、Unikernel 等新的容器運行時技術層出不窮,分別解決安全隔離性、執(zhí)行效率和通用性三個不同維度的要求。OCI(Open Container Initiative)標準的出現(xiàn),使不同技術采用一致的方式進行容器生命周期管理,進一步促進了容器引擎技術的持續(xù)創(chuàng)新。

結語

  從無到有、從有到多、從多到精,在中國還沒有自己的云計算的時候,有人選擇了這條無人小徑,走的人多了,它便成為了通往未來的通天大道。

  云原生還會有更多的創(chuàng)新,有更多的產品技術。從企業(yè)客戶和開發(fā)者角度,云原生是云計算釋放紅利的最短路徑,是企業(yè)數(shù)字化的最短路徑。

  而在云原生時代,云計算會持續(xù)地向前演進。未來十年,阿里巴巴希望真正釋放云的紅利,讓更多的人用上云或理解云,降低IT 開發(fā)或研發(fā)門檻,通過開發(fā)者的手為企業(yè)和社會創(chuàng)造更大的價值。

  編輯:阿里云研究中心 張楠

(轉載)

標簽:阿里云 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質領航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿易展覽會,本屆展覽會... [更多]