編者按:
從“去 IOE”到虛擬化架構(gòu)的全面升級,從初涉容器到全面容器化,從支撐雙11到疫情期間創(chuàng)下擴容紀錄,阿里云原生體系不斷演化,形成了龐大的“計算”家族。
十年,阿里云原生重構(gòu)“計算”,未來十年,阿里巴巴希望真正釋放云的紅利,讓更多的人用上云或理解云,為企業(yè)和社會創(chuàng)造更大的價值。
導語
十年前,“IOE”穩(wěn)坐 IT 架構(gòu)C位不容置疑;十年后,上云成為大勢所趨,無人不識云原生。依托高彈性可擴展、高性價比、高可靠性等優(yōu)勢,云計算顛覆了傳統(tǒng)IT 架構(gòu)成為主流。
對于企業(yè)而言,云計算已經(jīng)成為企業(yè)發(fā)展的必選項,引用Gartner的說法,“Cloud is not a strategy,it is a tactic”,云計算已經(jīng)不再是戰(zhàn)略問題,而是戰(zhàn)術(shù)問題。
對于國家而言,云計算是搶占未來信息化制高點的重要的途徑和戰(zhàn)略制高點,各國針對云計算紛紛出臺政策,甚至上升到國防戰(zhàn)略高度。
阿里云的“去IOE”主張帶動了一批公司從傳統(tǒng)IT架構(gòu)向互聯(lián)網(wǎng)架構(gòu)轉(zhuǎn)型,并逐漸從互聯(lián)網(wǎng)企業(yè)蔓延到傳統(tǒng)企業(yè)。以阿里云為代表的國產(chǎn)云計算不斷追趕,不僅縮短了和國際巨頭的差距,還形成了龐大的“計算”家族。
本文通過梳理阿里云原生演技的重要節(jié)點,嘗試還原阿里云十年“計算”重構(gòu)史。
阿里云原生演進 VS 云原生行業(yè)大事記
從零開始,攻堅云計算
2008年-2015年,從“去IOE”到虛擬化架構(gòu)的全面升級,從初涉容器到全面容器化。
1. 去IOE,建立“飛天”團隊
2008年,隨著電商發(fā)展,淘寶業(yè)務(wù)激增,阿里巴巴對計算的需求呈現(xiàn)指數(shù)級增長,并與業(yè)務(wù)的增長之間產(chǎn)生了鴻溝。靠當時主流的IOE,IT基礎(chǔ)設(shè)施將成為業(yè)務(wù)發(fā)展的瓶頸。
在這樣的背景下,阿里巴巴提出“去 IOE”,研發(fā)自己的技術(shù)架構(gòu),2008年10月,這個想象中屬于中國的云計算系統(tǒng)被團隊定名為“飛天”,源自中國神話中的形象,是阿里云計算探索的開始。
I(IBM,服務(wù)器提供商,他們提供的服務(wù)器俗稱“小型機”)
O(Oracle,數(shù)據(jù)庫提供商,他們的軟件是著名的“甲骨文商業(yè)數(shù)據(jù)庫”)
E(EMC,存儲設(shè)備提供商,他們提供的是“集中式存儲”)。
從字面義上看,“去IOE”只是換掉傳統(tǒng)IT基礎(chǔ)架構(gòu),而從更深的層次來講,是驅(qū)動了IT基礎(chǔ)架構(gòu)的變革。除此以外,“去IOE”的另一重象征意義在于,自研創(chuàng)新的道路就此開啟,后續(xù)阿里巴巴的成功讓大量中國的服務(wù)器廠商、軟件平臺和應(yīng)用軟件廠商,以及立足自主研發(fā)的存儲廠商看到了實現(xiàn)跨越式發(fā)展的契機。
2. 阿里云成立,陸續(xù)推出產(chǎn)品
2009年,阿里云成立。當時的云計算是不太可能使用 VMWare 這樣的商業(yè)化軟件,所以就采用了當時比較流行的開源虛擬化軟件 Xen。第二年,阿里云就推出了首個彈性計算產(chǎn)品 ECS。
2009年 阿里云成立
除此之外,阿里云網(wǎng)絡(luò)產(chǎn)品也開始有了聲音,AVS 和 SLB 相繼上線。但是,從技術(shù)產(chǎn)品上來看,阿里云早期的“計算”家族還是比較單薄的,也存在一些限制,云計算的概念在業(yè)界基本處于萌芽階段,玩家不多。
2011 年開始,各種各樣的云開始出現(xiàn),更強更新的 CPU 帶來了云上虛擬機計算能力的提升和換代,阿里云的計算產(chǎn)品家族逐漸豐富,接連推出 ECS 2.0、ECS 企業(yè)級產(chǎn)品家族,從對 Xen 架構(gòu)研發(fā)過渡到 KVM 架構(gòu),并為 12306 提供了技術(shù)支持。
2013 年,淘寶最后一臺小型機下線,阿里自研的飛天云操作系統(tǒng)開始支撐集團業(yè)務(wù)。隨后不久,洛神 1.0 發(fā)布,這是國內(nèi)首發(fā)自研 SDN 系統(tǒng)。
雖然捷報頻傳,但當時阿里的虛擬化技術(shù),已經(jīng)滿足不了云計算發(fā)展的步伐,要做到把自有業(yè)務(wù)也遷移到云上面來,就必須變革虛擬化技術(shù)。
克服云計算“缺陷”,開啟云原生時代
1. 降低虛擬化損耗,自研容器技術(shù)
虛擬化損耗是云計算自誕生以來就有的缺點。阿里云一直以來都在降低云計算虛擬化的損耗,逼近極致。
2011 年,隨著云計算的普及,阿里巴巴走過物理機時代,全面邁向虛擬機,為了緩解巨大的虛擬化損耗,淘寶研發(fā)出了阿里第一代容器——T4,容器調(diào)度技術(shù)開始逐步支撐阿里集團的在線業(yè)務(wù),云原生時代開啟。
2015 年底,阿里云正式發(fā)布了企業(yè)級容器服務(wù) ACK,正式對外開放容器技術(shù),整個集團也開始實現(xiàn)全面容器化,推動了整個應(yīng)用開發(fā),交付和運維方式的變革。
阿里業(yè)務(wù)逐年爆發(fā),容器規(guī)?;螅茉谠品?wù)器上是必然趨勢。 阿里云的飛天操作系統(tǒng)已經(jīng)可以成熟調(diào)度數(shù)萬臺物理機,但因為虛擬化損耗,容器依然只跑在物理機上,無法享受到上云便利。
為了給容器打造最合適的底座,2016 年雙 11 的技術(shù)復盤會上,時任阿里巴巴集團 CTO 張建鋒提出了極為苛刻的要求——由彈性計算團隊打造神龍服務(wù)器,將虛擬化損耗降低為0。
從上層的容器到下層的資源底座神龍,如此,阿里便能構(gòu)建敏捷、高效的業(yè)務(wù)運行體系。
2. “0”虛擬化開銷,自研神龍架構(gòu)
把虛擬化開銷降低到0,這看似是違背能量守定律的,即便在學術(shù)界也沒有相關(guān)研究。最終阿里云想出了新的解決方案——通過專用芯片來解決虛擬化開銷。
從技術(shù)的實現(xiàn)思路看,研發(fā)團隊需要重構(gòu)一套計算架構(gòu),通過研發(fā)一個新的芯片組來為每個節(jié)點提供功能性和管理性的需求支持,在此基礎(chǔ)上,再研發(fā)出一套新的服務(wù)器硬件,和配套的系統(tǒng)軟件;然后再將這套技術(shù)架構(gòu)融入到現(xiàn)有的產(chǎn)品設(shè)計中去。
軟硬協(xié)同架構(gòu)設(shè)計的理念已然飄向了云端,體量大的云廠商服務(wù)器部署規(guī)模達到百萬級別,意味著可以定制任何硬件,而云廠商也開始重新審視芯片、硬件和軟件的協(xié)同創(chuàng)新。要想收獲軟硬融合的技術(shù)紅利,重要的前提是可以自定義芯片,自主研發(fā)硬件。
2016 年,阿里云開始規(guī)劃下一代虛擬化技術(shù),也就是神龍,2017 年,神龍架構(gòu)問世。它真正使用軟硬融合、軟硬件協(xié)同設(shè)計的模式,改變了傳統(tǒng)虛擬化技術(shù)和當前的計算架構(gòu)不友好的地方。
神龍架構(gòu)的靈魂:阿里巴巴自研MOC卡
與“神龍”的意義類似,阿里云這一年推出了全球首個云企業(yè)網(wǎng) CEN,引領(lǐng)了業(yè)界云上網(wǎng)絡(luò)互聯(lián)產(chǎn)品的發(fā)展方向。阿里云網(wǎng)絡(luò)產(chǎn)品大爆發(fā),先后上線了遷移 VPC 方案、VPN 網(wǎng)關(guān)、共享流量包、共享帶寬、全球加速以及云企業(yè)網(wǎng)。
這一年,云網(wǎng)絡(luò)也邁入了云原生時代,推出云原生 SDWAN,并全面支持 IPv6。
至此,整個阿里云“計算”家族已經(jīng)相當完善且龐大,并嘗試在雙 11 中進行應(yīng)用。
全面云原生化
2016-2019 年,阿里云“計算”家族從初涉雙 11 到全面支撐,從這場畢業(yè)大考中取得優(yōu)異成績。
1. 支撐雙11,核心系統(tǒng)100%上云
2018 年的雙 11,阿里嘗試將部分流量用神龍架構(gòu)來支撐,2019 年,阿里巴巴將核心交易系統(tǒng)全部搬到了云上。這些系統(tǒng)對存儲 IO 能力、計算能力、網(wǎng)絡(luò)延遲等的要求相當于將神龍的能力榨取到極致。雙 11 大促如果可行,服務(wù)超大型客戶也將成為可能。
在 2019 年的這場大考中,整個阿里云“計算”家族順利畢業(yè),拿下了 2500 億的交易額,同年發(fā)布的洛神 2.0 系統(tǒng)也在這次雙 11 中完美首秀。
這一年雙 11,集群的規(guī)模超過百萬容器,單容器集群節(jié)點數(shù)量過萬,數(shù)據(jù)庫的峰值超過 54 萬筆每秒,對應(yīng) 8700 萬查詢每秒,而實時計算每秒峰值處理消息超過 25 億條,消息系統(tǒng) RocketMQ 峰值處理了超過每秒 1.5 億條消息。
在總結(jié)會上,阿里云智能總裁張建鋒表示:過去的一天,20 個小時是阿里技術(shù)上最經(jīng)受考驗的一次。阿里云承載阿里巴巴 100% 的核心系統(tǒng),這是我們?nèi)虻谝粋€做到的,我們有自己自研的飛天操作系統(tǒng)、神龍架構(gòu)、云原生的數(shù)據(jù)庫、計算存儲分離的架構(gòu)、全球第一個大規(guī)模 RDMA 網(wǎng)絡(luò)。
經(jīng)此一役,阿里云“計算”家族的技術(shù)能力被廣泛認可。然而,突如其來的疫情再次將其拉回備考狀態(tài)。
2. 疫情突襲,創(chuàng)下擴容紀錄
2020 年一場疫情打破了很多人生活的節(jié)奏,如果說“雙 11”是一場畢業(yè)大考,疫情就是一場臨時小考。為應(yīng)對疫情中在線辦公和在線教育場景下激增的流量,阿里云迅速幫助釘釘在 2 小時內(nèi)緊急擴容一萬臺云服務(wù)器,這個數(shù)字也創(chuàng)下了阿里云快速擴容的新紀錄。
借助自身的大規(guī)模集群管理能力,在短短幾天之內(nèi),阿里云幫助百家云團隊有效升級了原有的架構(gòu)方案,實現(xiàn)了數(shù)十倍的擴容,大幅提升了其性能與穩(wěn)定性,并擁有了應(yīng)對爆發(fā)性規(guī)模的能力,用戶毫無察覺。
“隨著阿里云計算能力不斷發(fā)增強,我們已經(jīng)能夠一分鐘擴容 1000 臺虛擬機,彈性容器實例平均啟動時間僅為 10 秒。”
這一年,阿里云又迎來了數(shù)據(jù)湖分析、實時計算、大數(shù)據(jù)分析等產(chǎn)品基于容器或者 Serverless 服務(wù)的方式對外交付,此時已經(jīng)可以看到 Serverless 成為新的可能。
3. 升級戰(zhàn)略,成立云原生技術(shù)委員會
2020 年 9 月 18 日,2020 杭州云棲大會上,阿里巴巴正式成立云原生技術(shù)委員會,云原生成為阿里技術(shù)新戰(zhàn)略。在云原生技術(shù)委員會成立之后的雙 11,雙 11 核心系統(tǒng)又實現(xiàn)了全面云原生化。
截至 2020 年,經(jīng)過 10 多年的技術(shù)實踐,阿里云已經(jīng)擁有國內(nèi)最豐富的云原生產(chǎn)品家族,覆蓋 10 多個類別 100 余款產(chǎn)品,涵蓋底層基礎(chǔ)設(shè)施、數(shù)據(jù)智能、分布式應(yīng)用等,可以滿足不同行業(yè)場景的需求,為企業(yè)數(shù)字創(chuàng)新打造最短路徑。
2021年,阿里云將投入20 億優(yōu)選合作 10000 家伙伴,共同服務(wù)百萬客戶,加速百行千業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型。同時,阿里云還啟動了“云原生人才計劃”,三年內(nèi)產(chǎn)教融合進入 300 所高校,新增培養(yǎng) 100 萬云原生開發(fā)者。
2020年云棲大會,阿里云原生全景圖發(fā)布面向下一個十年的技術(shù)儲備
“ Serverless 是云計算的未來”
隨著以 Kubernetes 為代表的云原生技術(shù)成為云計算的容器界面,Kubernetes 成為云計算的新一代操作系統(tǒng)。因為屏蔽了服務(wù)器的各種運維復雜度,Serverless 讓開發(fā)人員可以將更多精力用于業(yè)務(wù)邏輯設(shè)計與實現(xiàn),而逐漸成為云原生主流技術(shù)之一。
Serverless 計算可以分為 Serverless 運行時和后端服務(wù)( Backend as a Service)。其中 Serverless 應(yīng)用運行時在阿里云上有非常豐富的產(chǎn)品選擇:如面向事件驅(qū)動應(yīng)用的函數(shù)計算 FunctionCompute,提供了極簡的編程和運維體驗;面向微服務(wù)應(yīng)用的 Serverless 應(yīng)用引擎(SAE),對于傳統(tǒng)微服務(wù)架構(gòu)應(yīng)用無需任何修改即可以輕松上云。
此外,阿里云還提供了Serverless容器的產(chǎn)品,比如彈性容器實例 ECI 和 Serverless Kubernetes(ASK),它們提供了標準的Kubernetes界面,不但可以讓用戶享受到極致的彈性能力,并且是完全免運維的。它們在過去一年有了 9 倍的高速增長。
動態(tài)、混合、分布式的云環(huán)境將成為新常態(tài)
上云已是大勢所趨,但對于企業(yè)而言,有些業(yè)務(wù)出于對數(shù)據(jù)主權(quán)、安全隱私的考量,會采用混合云架構(gòu)。
此外,邊緣計算將成為企業(yè)云戰(zhàn)略的重要組成部分,為應(yīng)用提供更低網(wǎng)絡(luò)延遲,更高網(wǎng)絡(luò)帶寬和更低網(wǎng)絡(luò)成本。我們需要有能力將智能決策、實時處理能力從云延展到邊緣和 IoT 設(shè)備端。隨著云平臺成為企業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新平臺,一個變化隨之產(chǎn)生——云正在靠近它們。在分布式云中,公有云的服務(wù)能力可以位于不同的物理位置,而公共云平臺提供者會負責服務(wù)的運維、治理、更新和演變。
軟硬一體化全面升級
云計算的發(fā)展推動了整個計算架構(gòu)的演進,面向數(shù)據(jù)中心的芯片層出不窮,計算密度得到了大幅提升,如果將其與 Serverless 結(jié)合能夠全面提升計算效率和資源利用率;過去,我們已經(jīng)經(jīng)歷了 CPU 和存儲資源的池化,如今我們可以看到越來越多的 GPU 資源池化,開發(fā)者可以按需創(chuàng)建彈性的 GPU,大幅降低 AI 的計算成本,資源池化使得整個計算能力的彈性進一步增強,可以讓 Serverless 計算場景覆蓋更多的領(lǐng)域。
此外,Serverless 也在全面推動軟硬一體化的進一步升級。阿里云“計算”家族的整體性價比不斷提升,企業(yè)用云的成本逐步下降,底層硬件對上層應(yīng)用的支持越來越強,可以理解為下一代神龍是以應(yīng)用為中心的,對上層的函數(shù)計算等應(yīng)用的支持將越來越好,效率提升的同時大幅降低成本。
無處不在的計算催生新一代容器實現(xiàn)
針對不同計算場景,容器運行時會有不同需求。KataContainer、Firecracker、gVisor、Unikernel 等新的容器運行時技術(shù)層出不窮,分別解決安全隔離性、執(zhí)行效率和通用性三個不同維度的要求。OCI(Open Container Initiative)標準的出現(xiàn),使不同技術(shù)采用一致的方式進行容器生命周期管理,進一步促進了容器引擎技術(shù)的持續(xù)創(chuàng)新。
結(jié)語
從無到有、從有到多、從多到精,在中國還沒有自己的云計算的時候,有人選擇了這條無人小徑,走的人多了,它便成為了通往未來的通天大道。
云原生還會有更多的創(chuàng)新,有更多的產(chǎn)品技術(shù)。從企業(yè)客戶和開發(fā)者角度,云原生是云計算釋放紅利的最短路徑,是企業(yè)數(shù)字化的最短路徑。
而在云原生時代,云計算會持續(xù)地向前演進。未來十年,阿里巴巴希望真正釋放云的紅利,讓更多的人用上云或理解云,降低IT 開發(fā)或研發(fā)門檻,通過開發(fā)者的手為企業(yè)和社會創(chuàng)造更大的價值。
編輯:阿里云研究中心 張楠
(轉(zhuǎn)載)