日前,第二十六屆中國北京國際科技產(chǎn)業(yè)博覽會在北京國家會議中心成功舉辦。IBM 副總裁、大中華區(qū)首席技術官謝東先生應邀出席,并針對“企業(yè)人工智能的基礎設施”的重要性、以及企業(yè)如何規(guī)劃、建立人工智能時代的基礎設施,提出了切實可行的觀點和建議。以下是他的演講內容節(jié)選:
IBM 全球副總裁、IBM 大中華區(qū)首席技術官 謝東(圖片來源:第二十六屆中國北京國際科技產(chǎn)業(yè)博覽會)
大家好,我今天給大家分享的題目跟人工智能相關,就是“企業(yè)人工智能的基礎設施”。談到人工智能的時候,經(jīng)常會聽到談大模型、談應用,我想從另外一個切入點來談,就是基礎設施。
人類歷史上,每一次工業(yè)革命的背后,基礎設施都起著極大的促進作用。蒸汽時代鐵路連接起來,電力時代電網(wǎng)把社會、家庭聯(lián)系起來,互聯(lián)網(wǎng)更不用說,數(shù)字化以后人與人之間互聯(lián)互通起來?;ヂ?lián)網(wǎng)時代基礎設施是什么?是數(shù)據(jù)中心、是互聯(lián)網(wǎng)、是各種移動互聯(lián)等等。
對于 IT、對于整個人工智能,基礎設施也是非常重要的。談到 AI 的基礎設施,第一個想到的是算力,其實還有更多方面。當企業(yè)建立自己的人工智能時,會依托很多基礎的大模型,把生成式人工智能能力跟企業(yè)自身數(shù)據(jù)緊緊綁定,創(chuàng)造出新的洞察,并且把這些生成式人工智能的能力跟企業(yè)流程緊密結合,從而轉化為更大的生產(chǎn)力,企業(yè)才能在競爭中,處于有利的先導地位。
企業(yè)建立人工智能基礎設施時,會涉及到哪些需求和挑戰(zhàn)?
這個挑戰(zhàn)來自于大模型參數(shù),至少這兩年大模型參數(shù)是以前百倍的增長,數(shù)據(jù)量也更多了,至少 10倍以上。不僅驅動這些人工智能應用時要有很多數(shù)據(jù),并且過程中產(chǎn)生生成式人工智能,生成了很多數(shù)據(jù),這些數(shù)據(jù)都是需要來處理的。再有,由于現(xiàn)在人工智能特別是生成式人工智能帶來很多交互上的應用,對吞吐量有極大需求,至少有 7倍接近 10倍的增長。有了這么多性能上的需求,由于模型大、數(shù)據(jù)多,甚至很多時候數(shù)據(jù)是分布式的,導致在應用中,很多情況下直接造成了技能急劇下降,再一個是能耗太大,還有安全威脅,都是企業(yè)部署人工智能時需要考慮的因素。
企業(yè)知道基礎設施很重要,如何來規(guī)劃?
首先考慮 GPU 資源到底怎么來分配,算力如何。我們知道它很大,是自己構建算力資源還是利用公有云或者算力服務來服務,這是需要考慮的。
第二,企業(yè)實施肯定是分步的,一開始一兩個應用,后面可能很多應用,不止需要一個大模型,還需要很多小模型配合應用,應用時需要很靈活、更有彈性的部署。
第三,存儲。對于企業(yè)來說有很多不同節(jié)點、不同形式的數(shù)據(jù),并且使用過程中也生成了很多數(shù)據(jù),這時候數(shù)據(jù)需要一個動態(tài)存儲方案,需要使用靈活,具有經(jīng)濟效益。
第四,安全考慮,使用過程中關鍵數(shù)據(jù)需要保護,也需要跟其他應用隔離,甚至還需要一些安全加密等等。這些都是資源上的考慮。
通常構建強大的 AI 基礎設施需要六個步驟:
一是定義預算和目標。企業(yè)運用人工智能是有目標的,這個目標簡單說是為業(yè)務增長服務,不是用的時候要建一個多大模型,而是直接把 AI 能力更好地用到企業(yè)業(yè)務中去,解決企業(yè)的問題,定直接目標,根據(jù)預算進行基礎設施規(guī)劃。
二是選擇合適的硬件和軟件。比如整個硬件加速平臺怎么選擇,數(shù)據(jù)平臺、AI 平臺如何部署等等。
三是尋找合適的網(wǎng)絡解決方案。這是在企業(yè)部署中容易被忽視的問題,光考慮到算力、考慮到數(shù)據(jù),沒有及時的部署合適的網(wǎng)絡,有的甚至出現(xiàn)了由于網(wǎng)絡脫節(jié)導致整個系統(tǒng)性能跟不上要求。
四是決定使用云端還是本地解決方案部署。兩種方案各有利弊。云上有更好的伸縮性,需要的時候獲得很大算力和很大存儲,彈性管理。很多企業(yè)需要本地方案是什么原因?是出于安全考慮和研發(fā)過程中靈活應用的考慮。
五是建立合規(guī)措施。不管是數(shù)據(jù)、模型選擇還是部署,要符合合規(guī)監(jiān)管要求。
六是實施和維護你的解決方案,需要蠻大運維工作支持,才能更好地支持企業(yè)人工智能的應用,以及長期可持續(xù)的應用發(fā)展。
這是 IBM 設計企業(yè)人工智能基礎架構時的一些理念(下圖)。第一是混合環(huán)境。所謂混合環(huán)境是和混合云技術相結合,使得你在部署的時候,既可以跟本地處理方案整合,也可以跟云端方案相整合,靈活的部署資源。二是可擴展,IBM 跟紅帽技術相結合,建立在 OpenShift 上,使得這些方案、這些應用在本地也好、私有云也好、公有云也好,可以靈活地遷移。三是高性能,這些是企業(yè)的應用,無論是面向個人消費者,還有面向企業(yè)客戶,對響應和可靠性,都有著嚴格的、更高的要求,我們這里有更多的設計。四是可信,更強調可靠性,保證整個設施的可靠性以及維護管理上的安全可靠。
建設基礎設施絕不是一刀切,要根據(jù)企業(yè)不同任務和需求來進行部署。舉例而言,我們在主機也好、Power 服務器也好,它們服務的很多都是企業(yè)的核心應用,這些核心應用都是處理一些高頻交易、高性能計算等,對 AI 的應用具有很高的要求。第一是吞吐量極其大,要實時響應,同時要數(shù)據(jù)安全,很多場合是不允許數(shù)據(jù)脫離開主機運行環(huán)境的,這時候把我們嵌入式的加速器換入到服務器中,使得它能夠更好地適應這樣的需求。再有是存儲,存儲在 AI 環(huán)境下也有不同需求,其中最典型的一點是如何把數(shù)據(jù)最快、最及時的推到 GPU 上,我們知道 GPU 是很貴的,一定不能讓它閑置,就要制定很快、很節(jié)能、很有效的方案?,F(xiàn)在很多互聯(lián)網(wǎng)大廠用 IBM 這些高效存儲方案,來支持它的大模型應用。
光有硬件平臺也不全夠,IBM 還提供 watsonx 平臺,跟整個基礎架構互相配合。watsonx 是 IBM 在整個企業(yè)方案里面的基礎平臺,有三個部分:全面支持企業(yè)打造 AI 平臺,包括 watsonx.ai,進行模型訓練、驗證、調優(yōu)和部署等等,整個 AI 模型全周期管理。再有是數(shù)據(jù),watsonx.data 就是來負責整個企業(yè)中數(shù)據(jù)的管理、部署、優(yōu)化等;很多治理方面的工作,由 watsonx.governance 來保證,有了這樣一個平臺的支持,就使得在 AI 模型也好,數(shù)據(jù)也好,治理方面也好,都可以在我們基礎架構的支持下互相緊密的配合,支持企業(yè)在人工智能方面有一個長期健康發(fā)展的依托。
IBM 通過技術、產(chǎn)品和方案全方位為企業(yè)用戶打造 AI 基礎設施和方案。在人工智能時代,一定需要好的基礎設施進行支持,IBM 在這里有很多技術戰(zhàn)略服務,愿意和很多客戶一起深度合作,共同推動人工智能長期健康發(fā)展,謝謝大家。
(來源:IBM中國)