引言:說到大數(shù)據(jù),想必各位對于互聯(lián)網(wǎng)大數(shù)據(jù)已經(jīng)熟得不能再熟了,可你知道所謂的大數(shù)據(jù)到底有多“大”?要如何玩兒轉(zhuǎn)工業(yè)大數(shù)據(jù)?
西門子中國研究院大數(shù)據(jù)分析研發(fā)總監(jiān)——田博士最近做客中央人民廣播電臺《經(jīng)濟之聲》節(jié)目,講了一堂“燒腦課”。
大數(shù)據(jù)多“大”
說到大數(shù)據(jù)首先就是大家先要看得見,眼見為實。
現(xiàn)在數(shù)據(jù)量非??斓卦黾?,我們每天都在用手機電腦,每時每刻每個人都在給數(shù)據(jù)量的增加做貢獻。作為所謂的大數(shù)據(jù)到底有多大呢?
我們先來說這個“大”字。
從數(shù)據(jù)增長來看,50%全球的數(shù)據(jù)是在過去一年內(nèi)產(chǎn)生的,到2020年全球數(shù)據(jù)會達到40zb。zb是什么概念?zb相當于十萬億億個字節(jié)。
如果平攤到每個人身上來說,到2020年每個人都會有超過5T的數(shù)據(jù),包括我們剛出生的嬰兒,以及老年人。但其中只有小于0.5%的數(shù)據(jù)被利用分析過。所以有人說大數(shù)據(jù)是一種資產(chǎn),是未被發(fā)掘的金礦。但大數(shù)據(jù)一定“大”嗎?同樣的數(shù)據(jù)放大不同的領(lǐng)域,有的是大數(shù)據(jù),有的就不是大數(shù)據(jù)。
啥是工業(yè)大數(shù)據(jù)
比如說在工業(yè)領(lǐng)域,在某個產(chǎn)線上比如流程行業(yè),可能一條產(chǎn)線會有1000多個測點,但通常要分析一個問題,可能會選取十幾個測點去分析一個具體的部件或是問題。
那么怎么去采集數(shù)據(jù)?比如說對于數(shù)據(jù)變化特別快的,壓力,我們大概一秒采很多次;對于變化不是特別快的,溫度,我們平均2秒采一次。
那么我們每次采到的數(shù)據(jù)是什么數(shù)據(jù)呢?是一個浮點數(shù),比如四個字節(jié)。那么我們每分鐘就可以采到1點幾k的一個數(shù)據(jù),由此每年就可以采集到600-700兆數(shù)據(jù)。如果采集頻率高一些就可以達到1G。
這1G的數(shù)據(jù)就代表著這條產(chǎn)業(yè)線上我們要分析的問題,一年的數(shù)據(jù),所以足以代表產(chǎn)業(yè)線一年的狀態(tài),也就可以稱為一個信息量足夠大的大數(shù)據(jù)。
但如果我們考慮互聯(lián)網(wǎng)領(lǐng)域,比如一個網(wǎng)頁通常包含了圖片等等,加在一起可能是2兆-7兆不等。我們1G的數(shù)據(jù)可能包含200-300個網(wǎng)頁。但對于互聯(lián)網(wǎng)領(lǐng)域這200-300個網(wǎng)頁發(fā)現(xiàn)不了任何問題因為互聯(lián)網(wǎng)太浩瀚了,200-300個網(wǎng)頁是非常非常微不足道的一小部分。
所以我們可以看到這1G在工業(yè)領(lǐng)域可能就是大數(shù)據(jù),但放到互聯(lián)網(wǎng)領(lǐng)域就不足以稱為大數(shù)據(jù)。所以大數(shù)據(jù)的大也是放在不同場景下來考慮的。
數(shù)據(jù)質(zhì)量是關(guān)鍵
特別是在工業(yè)領(lǐng)域,由于傳感器物理特性本身由于工藝和環(huán)境會導致很多數(shù)據(jù)采集上來并不是可靠的。
比如三個相關(guān)聯(lián)的數(shù)據(jù),我們要通過兩個來驗證第三個是不是正確的。這樣我們數(shù)據(jù)質(zhì)量管理就要花費很大的精力。
所以數(shù)據(jù)速度或者質(zhì)量來講,都帶來很大的復雜性。將大數(shù)據(jù)稱之為困難數(shù)據(jù)或者復雜數(shù)據(jù)是更加準確的,這就是大家概念中的大數(shù)據(jù)。
(轉(zhuǎn)載)