siemens x
大數(shù)據(jù)

從火星的古海洋,讀懂藍(lán)星的數(shù)據(jù)湖之變

2025China.cn   2021年05月19日

  大家想必都聽說(shuō)了天問(wèn)一號(hào)探測(cè)器“祝融號(hào)”成功在火星著陸的消息。在它傳回的家書中,提到科學(xué)家們?yōu)樽约哼x擇的著陸地,火星的烏托邦平原,可能是一個(gè)古海洋所在地,地形平緩,確保了安全性。

  當(dāng)我們將目光投回到身處的這顆“藍(lán)星”,也時(shí)時(shí)面臨著需要為產(chǎn)業(yè)要素選擇著陸地——比如說(shuō)大數(shù)據(jù)。

  相比傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),數(shù)據(jù)湖(Data Lake)已經(jīng)成為數(shù)字化進(jìn)程中,對(duì)現(xiàn)代企業(yè)和組織極具吸引力的大數(shù)據(jù)“著陸地”。

  簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)湖指的是如同湖泊一樣,將各種業(yè)務(wù)及軟硬件中源源不斷產(chǎn)生的各類數(shù)據(jù),全部容納其中。

  在AI+云的大趨勢(shì)下,數(shù)據(jù)湖還可以與機(jī)器學(xué)習(xí)等相結(jié)合,指導(dǎo)企業(yè)進(jìn)行效率優(yōu)化及智能決策;與云計(jì)算結(jié)合,利用云服務(wù)彈性擴(kuò)展、靈活部署、高可用高可靠、按使用量付費(fèi)等特點(diǎn),打造出投資回報(bào)更高的大數(shù)據(jù)解決方案。

  如果說(shuō)烏托邦平原是探測(cè)火星的絕佳地點(diǎn),那么數(shù)據(jù)湖就是承載企業(yè)數(shù)據(jù)資產(chǎn)的最佳場(chǎng)所。

  目前來(lái)看,數(shù)據(jù)湖有巨大的想象空間,也吸引著各大云廠商下足功夫,AWS、微軟、谷歌等都推出了各自的數(shù)據(jù)湖產(chǎn)品。

  5月13日,騰訊云也首次對(duì)外展示完整云端數(shù)據(jù)湖產(chǎn)品圖譜,并推出兩款“開箱即用”數(shù)據(jù)湖產(chǎn)品,數(shù)據(jù)湖計(jì)算服務(wù)DLC和數(shù)據(jù)湖構(gòu)建DLF。

  相比單一產(chǎn)品或服務(wù),在騰訊云的數(shù)據(jù)湖版圖中,可以看到概念的“拓維”:云原生智能數(shù)據(jù)湖,對(duì)產(chǎn)業(yè)來(lái)說(shuō)意味著什么?圖譜式的產(chǎn)品矩陣,能給企業(yè)帶來(lái)哪些價(jià)值?“開箱即用”會(huì)給數(shù)據(jù)湖及數(shù)字化進(jìn)程帶來(lái)什么影響?

  我們以數(shù)據(jù)湖的需求與挑戰(zhàn)為開端,來(lái)探秘騰訊云帶來(lái)的“致用紀(jì)元”。

  數(shù)字山河,

  需要怎樣的大數(shù)據(jù)之湖?

  先回答一個(gè)疑問(wèn),什么樣的企業(yè)需要數(shù)據(jù)湖?答案是,所有。

  IDC報(bào)告顯示,到2025年全球數(shù)據(jù)總量將超過(guò)160ZB。數(shù)字化進(jìn)程中,對(duì)大數(shù)據(jù)的管理與應(yīng)用已經(jīng)成為企業(yè)的競(jìng)爭(zhēng)要素之一。飛速增長(zhǎng)的數(shù)據(jù)規(guī)模自然也需要新的數(shù)據(jù)存儲(chǔ)策略,數(shù)據(jù)湖的特殊之處在于:

  所有數(shù)據(jù)可以一直保存,不管是實(shí)時(shí)使用的,還是可能永遠(yuǎn)不會(huì)被使用的,不僅讓單位存儲(chǔ)成本更低,也讓任意時(shí)間點(diǎn)的數(shù)據(jù)回溯與分析成為可能;

  所有類型可以全部容納。無(wú)論是定量指標(biāo)的結(jié)構(gòu)化數(shù)據(jù),還是傳感器、社交網(wǎng)絡(luò)、圖像視頻等等多樣化數(shù)據(jù)源的非結(jié)構(gòu)化數(shù)據(jù);

  所有用戶可以得到支持。在數(shù)據(jù)湖中,所有數(shù)據(jù)都以原始形式存儲(chǔ),需要使用數(shù)據(jù)的人可以快速找到數(shù)據(jù)源的單一位置,避免了數(shù)據(jù)孤島、數(shù)據(jù)重復(fù)、協(xié)作困難等問(wèn)題。

  此外,數(shù)據(jù)湖也易于適應(yīng)變化。數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)和更改都需要花費(fèi)大量的時(shí)間,消耗開發(fā)人員資源。而在云端部署的數(shù)據(jù)湖,可以根據(jù)企業(yè)業(yè)務(wù)需求靈活擴(kuò)展,比傳統(tǒng)方案具有更大的靈活性,最大限度地減少雇傭?qū)I(yè)數(shù)據(jù)運(yùn)維團(tuán)隊(duì)的支出。

  Aberdeen 的一項(xiàng)調(diào)查表明,實(shí)施數(shù)據(jù)湖的組織比同類公司在收入增長(zhǎng)方面高出 9%。

  看到這里,是不是已經(jīng)心動(dòng)想要拿起電話訂購(gòu)了?別急!并不是將所有數(shù)據(jù)一股腦丟進(jìn)湖中就大功告成了。

  正如Gartner分析師尼克·休德克所說(shuō),將數(shù)據(jù)湖看做是大數(shù)據(jù)項(xiàng)目的靈丹妙藥,是一個(gè)謬論,數(shù)據(jù)湖是一個(gè)概念,而不是一種技術(shù)。

  也就是說(shuō),企業(yè)在引入數(shù)據(jù)湖時(shí),要注重從搭建、效益到應(yīng)用的整體平衡。

  比如,如果沒有適當(dāng)?shù)墓ぞ?,?shù)據(jù)湖可能會(huì)遭遇數(shù)據(jù)可靠性的問(wèn)題,出現(xiàn)數(shù)據(jù)損壞、臟數(shù)據(jù)等等,讓數(shù)據(jù)科學(xué)家、AI工程師難以利用數(shù)據(jù)進(jìn)行推理,或是訓(xùn)練出不準(zhǔn)確的業(yè)務(wù)模型;

  再比如,一直往數(shù)據(jù)湖里面存儲(chǔ)數(shù)據(jù),而缺乏數(shù)據(jù)治理及應(yīng)用輸出,就會(huì)形成“數(shù)據(jù)沼澤”,隨著時(shí)間的推移變得混亂、低質(zhì)量;

  最關(guān)鍵的是,目前市場(chǎng)上大多數(shù)數(shù)據(jù)湖產(chǎn)品都在強(qiáng)調(diào)對(duì)數(shù)據(jù)的存儲(chǔ)及計(jì)算,在具體業(yè)務(wù)場(chǎng)景之中究竟該怎樣去應(yīng)用數(shù)據(jù)湖,并沒有清晰一致的答案。不解決技術(shù)的致用問(wèn)題,就會(huì)讓很多企業(yè)望而卻步。

  這種局面該怎么辦?中國(guó)人的智慧早有提示,流水不腐戶樞不蠹,比起挖坑引水的“單向湖”,從山川河流的源頭、湖泊的常規(guī)治理,再到流向產(chǎn)業(yè)田野的應(yīng)用,這樣的一整套數(shù)據(jù)湖解決方案,顯然更符合產(chǎn)業(yè)用戶的期待。

  開啟紀(jì)元,

  騰訊云的多米諾骨牌

  技術(shù)產(chǎn)業(yè)周期的開啟,從來(lái)不是一蹴而就的。云原生的數(shù)據(jù)湖,需要在存儲(chǔ)、計(jì)算、應(yīng)用等層面解決諸多挑戰(zhàn)才能完成。

  而騰訊云首次披露的云端數(shù)據(jù)湖產(chǎn)品矩陣,就是這樣一套組合式的產(chǎn)品,包括了數(shù)據(jù)湖存儲(chǔ)、數(shù)據(jù)湖算力調(diào)度、數(shù)據(jù)湖大數(shù)據(jù)分析、數(shù)據(jù)湖AI能力、數(shù)據(jù)湖應(yīng)用、云上基礎(chǔ)服務(wù)等六個(gè)層面,如同一副多米諾骨牌,將企業(yè)應(yīng)用數(shù)據(jù)湖過(guò)程中可能遇到的階段性問(wèn)題一一推倒。

  我們可以從三個(gè)層面來(lái)看騰訊云數(shù)據(jù)湖的新紀(jì)元打開:

  1.數(shù)據(jù)底座。

  數(shù)據(jù)湖的本質(zhì)是為企業(yè)乃至全社會(huì)的數(shù)字化轉(zhuǎn)型提供堅(jiān)實(shí)可靠的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu),對(duì)高性能、高安全、高可靠、低成本等綜合實(shí)力提出了高要求。

  對(duì)此,騰訊云數(shù)據(jù)湖在整個(gè)數(shù)據(jù)生命周期都進(jìn)行了周全的設(shè)計(jì)。在存儲(chǔ)層,以對(duì)象存儲(chǔ)COS服務(wù)為核心,理論上可以存儲(chǔ)任意規(guī)模的異構(gòu)數(shù)據(jù),也支持將其他云端數(shù)據(jù)設(shè)施,為企業(yè)打消后顧之憂;

(騰訊云原生智能數(shù)據(jù)湖產(chǎn)品圖譜)

  在數(shù)據(jù)分析層,既提供半托管的泛Hadoop服務(wù),滿足用戶自定義需求,也提供全托管的數(shù)據(jù)服務(wù),便于用戶獲取海量數(shù)據(jù)的洞察力。

  此外,用戶還可利用騰訊云提供的數(shù)據(jù)協(xié)作工具對(duì)計(jì)算服務(wù)進(jìn)行編排和調(diào)用,提升企業(yè)數(shù)據(jù)的便捷性和敏捷度。

  2.智能源頭。

  今天,企業(yè)選擇數(shù)據(jù)湖的考量與上云有著異曲同工之處,那就是為業(yè)務(wù)增長(zhǎng)引入AI能力,達(dá)到提質(zhì)增效的目的。騰訊云也沒有令人失望,給出了一系列助力數(shù)據(jù)智能的解決方案。

  比如在算力調(diào)度上,基于騰訊云彈性容器服務(wù)EKS,開放的容器化的分析架構(gòu)讓數(shù)據(jù)分析功能可組合性更強(qiáng),擴(kuò)展性更強(qiáng),降低企業(yè)訓(xùn)練AI、應(yīng)用AI的綜合成本;

  此外,騰訊云數(shù)據(jù)湖也提供豐富的AI服務(wù),為圖像處理、音頻處理、自然語(yǔ)言處理、視頻處理等提供有力的數(shù)據(jù)支撐,當(dāng)企業(yè)想要引入這些音視頻能力時(shí),更加簡(jiǎn)單快捷。

  3.致用工具。

  和所有新技術(shù)一樣,數(shù)據(jù)湖的最終評(píng)價(jià)標(biāo)準(zhǔn)是要落進(jìn)現(xiàn)實(shí)。這就需要降低企業(yè)應(yīng)用門檻,讓技術(shù)價(jià)值能夠從真實(shí)業(yè)務(wù)場(chǎng)景中生長(zhǎng)出來(lái)。

  為此,騰訊云在數(shù)據(jù)湖產(chǎn)品圖譜中,推出了企業(yè)畫像、聯(lián)邦計(jì)算、商業(yè)智能分析等數(shù)據(jù)應(yīng)用服務(wù),企業(yè)直接選擇自身所需要的能力,就可以把數(shù)據(jù)湖應(yīng)用構(gòu)建起來(lái)。

  同時(shí),通過(guò)數(shù)據(jù)湖計(jì)算(Data Lake Compute,簡(jiǎn)稱DLC)和數(shù)據(jù)湖構(gòu)建(Data Lake Formation ,簡(jiǎn)稱DLF)這樣“開箱即用”的產(chǎn)品,降低企業(yè)應(yīng)用數(shù)據(jù)湖的難度。相比于本地自建大數(shù)據(jù)集群,基于這兩款產(chǎn)品,數(shù)據(jù)湖構(gòu)建時(shí)間減少了60%,數(shù)據(jù)分析計(jì)算性能提升35.5%。

  這樣一步步推導(dǎo),也就連成了“從入湖到出湖”端到端的完整鏈路,也清晰地指出了騰訊云數(shù)據(jù)湖所帶來(lái)的差異化價(jià)值:希望借數(shù)據(jù)湖產(chǎn)品圖譜,引領(lǐng)數(shù)據(jù)湖進(jìn)入“致用紀(jì)元”,與數(shù)字山河相映照。

  向文明進(jìn)發(fā):

  數(shù)據(jù)能源的里程碑

  1964年,蘇聯(lián)天文學(xué)家尼古拉·卡爾達(dá)肖夫提出理論,根據(jù)一個(gè)文明所能夠利用的能源量級(jí),來(lái)量度文明層次及技術(shù)先進(jìn)程度。

  按照等級(jí)劃分,地球目前正處于0.73級(jí)左右,還沒有達(dá)到利用行星本身所擁有的能量規(guī)模。

  換個(gè)角度思考,大數(shù)據(jù),何嘗不也是這顆藍(lán)色星球上的新興能源,讓智能更快、產(chǎn)業(yè)更優(yōu)、經(jīng)濟(jì)動(dòng)力更強(qiáng),對(duì)數(shù)據(jù)的利用與開發(fā)也將助推一國(guó)數(shù)字文明的加速發(fā)展。

  正如同“祝融號(hào)”標(biāo)志著中國(guó)人開始走出地球“搖籃”,騰訊云數(shù)據(jù)湖產(chǎn)品圖譜也為智能時(shí)代的大數(shù)據(jù)管存用提供了一個(gè)全新的選擇:在業(yè)內(nèi)首先提出了“圖譜式數(shù)據(jù)湖產(chǎn)品”,從數(shù)據(jù)入湖時(shí)怎樣存、算,到在湖中如何分析與應(yīng)用,滿足用戶的所有需求。這不正是產(chǎn)業(yè)一直在期待的數(shù)據(jù)“能源開采裝置”嗎?

  這時(shí)候我們會(huì)想問(wèn),為什么率先打出連招的中國(guó)云廠商會(huì)是騰訊云?有三個(gè)背景是不可忽略的。

  首先,騰訊自身龐大且多元的業(yè)務(wù)體系,無(wú)時(shí)無(wú)刻不在產(chǎn)生著大量的非結(jié)構(gòu)化信息,這時(shí)就需要數(shù)據(jù)湖技術(shù)去解決數(shù)據(jù)分散、重復(fù)數(shù)據(jù)等問(wèn)題,正是在騰訊新聞等諸多內(nèi)部場(chǎng)景中孵化,打磨到一定程度之后,將相應(yīng)能力開放給產(chǎn)業(yè)客戶,可謂是恰逢其時(shí)。

  第二,來(lái)自騰訊云的基礎(chǔ)服務(wù)與技術(shù)積累,比如前文提到的能幫助用戶快速構(gòu)建企業(yè)數(shù)據(jù)湖技術(shù)架構(gòu)的數(shù)據(jù)湖構(gòu)建(DLF)產(chǎn)品,所提供的統(tǒng)一元數(shù)據(jù)管理與湖構(gòu)建能力,就需要在數(shù)據(jù)規(guī)模很大的時(shí)候也能實(shí)現(xiàn)高性能的訪問(wèn),來(lái)讓數(shù)據(jù)存儲(chǔ)、計(jì)算等速度更快,這就依賴于騰訊云在云服務(wù)領(lǐng)域的技術(shù)壁壘,為數(shù)據(jù)湖體系提供了保障。

  最后,正如騰訊云大數(shù)據(jù)專家所說(shuō),要深入業(yè)務(wù)場(chǎng)景才會(huì)發(fā)現(xiàn)鮮活的痛點(diǎn),方案要落在各行各業(yè)、不同企業(yè)客戶的實(shí)際場(chǎng)景中去。

  事實(shí)上,成功的數(shù)據(jù)湖采用者大都是使用“業(yè)務(wù)回頭”的方法,即先確定業(yè)務(wù)可以從數(shù)據(jù)湖中獲得的最大價(jià)值情境,然后將這些場(chǎng)景納入到解決方案中,再逐步填充數(shù)據(jù)。這就需要做大量定制開發(fā)工作,考驗(yàn)著云廠商的企業(yè)服務(wù)能力與意識(shí),也是今天數(shù)字化轉(zhuǎn)型中最難的一道關(guān)卡。

  在這方面,我們看到騰訊云直指現(xiàn)實(shí)需求和應(yīng)用場(chǎng)景,將采用決定權(quán)交給業(yè)務(wù),與客戶的技術(shù)人員一起梳理核心需求,最終選擇更適合自己的方案。騰訊云數(shù)據(jù)湖產(chǎn)品之所以率先選擇向“技術(shù)致用”延伸,或許正來(lái)自于這一份對(duì)業(yè)務(wù)的尊重。

  范仲淹曾形容洞庭湖“浩浩蕩蕩,橫無(wú)際涯”,也是今天企業(yè)面對(duì)數(shù)據(jù)洪潮的現(xiàn)實(shí)寫照。

  對(duì)于數(shù)據(jù)湖這類新技術(shù)的出現(xiàn),也容易出現(xiàn)了兩種截然相反的情緒:過(guò)度質(zhì)疑,會(huì)令企業(yè)躊躇不前,錯(cuò)過(guò)超越競(jìng)爭(zhēng)者的機(jī)遇;過(guò)于樂(lè)觀,又會(huì)導(dǎo)致對(duì)困難缺乏充足的估計(jì)。

  或許更理性的態(tài)度應(yīng)該是,和科技企業(yè)攜手,一起去探索并撬動(dòng)未知,駛向氣象萬(wàn)千的數(shù)字文明。

  文章來(lái)源:腦極體

  作者:藏狐

(轉(zhuǎn)載)

標(biāo)簽:大數(shù)據(jù) 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]