siemens x
工業(yè)數(shù)據(jù)中心

西門(mén)子專(zhuān)家?guī)阃孓D(zhuǎn)工業(yè)大數(shù)據(jù)

2025China.cn   2017年05月23日

  引言:說(shuō)到大數(shù)據(jù),想必各位對(duì)于互聯(lián)網(wǎng)大數(shù)據(jù)已經(jīng)熟得不能再熟了,可你知道所謂的大數(shù)據(jù)到底有多“大”?要如何玩兒轉(zhuǎn)工業(yè)大數(shù)據(jù)?

 

  西門(mén)子中國(guó)研究院大數(shù)據(jù)分析研發(fā)總監(jiān)——田博士最近做客中央人民廣播電臺(tái)《經(jīng)濟(jì)之聲》節(jié)目,講了一堂“燒腦課”。

  大數(shù)據(jù)多“大”

  說(shuō)到大數(shù)據(jù)首先就是大家先要看得見(jiàn),眼見(jiàn)為實(shí)。

  現(xiàn)在數(shù)據(jù)量非??斓卦黾?,我們每天都在用手機(jī)電腦,每時(shí)每刻每個(gè)人都在給數(shù)據(jù)量的增加做貢獻(xiàn)。作為所謂的大數(shù)據(jù)到底有多大呢?

  我們先來(lái)說(shuō)這個(gè)“大”字。

  從數(shù)據(jù)增長(zhǎng)來(lái)看,50%全球的數(shù)據(jù)是在過(guò)去一年內(nèi)產(chǎn)生的,到2020年全球數(shù)據(jù)會(huì)達(dá)到40zb。zb是什么概念?zb相當(dāng)于十萬(wàn)億億個(gè)字節(jié)。

  如果平攤到每個(gè)人身上來(lái)說(shuō),到2020年每個(gè)人都會(huì)有超過(guò)5T的數(shù)據(jù),包括我們剛出生的嬰兒,以及老年人。但其中只有小于0.5%的數(shù)據(jù)被利用分析過(guò)。所以有人說(shuō)大數(shù)據(jù)是一種資產(chǎn),是未被發(fā)掘的金礦。但大數(shù)據(jù)一定“大”嗎?同樣的數(shù)據(jù)放大不同的領(lǐng)域,有的是大數(shù)據(jù),有的就不是大數(shù)據(jù)。

  啥是工業(yè)大數(shù)據(jù)

  比如說(shuō)在工業(yè)領(lǐng)域,在某個(gè)產(chǎn)線上比如流程行業(yè),可能一條產(chǎn)線會(huì)有1000多個(gè)測(cè)點(diǎn),但通常要分析一個(gè)問(wèn)題,可能會(huì)選取十幾個(gè)測(cè)點(diǎn)去分析一個(gè)具體的部件或是問(wèn)題。

  那么怎么去采集數(shù)據(jù)?比如說(shuō)對(duì)于數(shù)據(jù)變化特別快的,壓力,我們大概一秒采很多次;對(duì)于變化不是特別快的,溫度,我們平均2秒采一次。

  那么我們每次采到的數(shù)據(jù)是什么數(shù)據(jù)呢?是一個(gè)浮點(diǎn)數(shù),比如四個(gè)字節(jié)。那么我們每分鐘就可以采到1點(diǎn)幾k的一個(gè)數(shù)據(jù),由此每年就可以采集到600-700兆數(shù)據(jù)。如果采集頻率高一些就可以達(dá)到1G。

  這1G的數(shù)據(jù)就代表著這條產(chǎn)業(yè)線上我們要分析的問(wèn)題,一年的數(shù)據(jù),所以足以代表產(chǎn)業(yè)線一年的狀態(tài),也就可以稱(chēng)為一個(gè)信息量足夠大的大數(shù)據(jù)。

  但如果我們考慮互聯(lián)網(wǎng)領(lǐng)域,比如一個(gè)網(wǎng)頁(yè)通常包含了圖片等等,加在一起可能是2兆-7兆不等。我們1G的數(shù)據(jù)可能包含200-300個(gè)網(wǎng)頁(yè)。但對(duì)于互聯(lián)網(wǎng)領(lǐng)域這200-300個(gè)網(wǎng)頁(yè)發(fā)現(xiàn)不了任何問(wèn)題因?yàn)榛ヂ?lián)網(wǎng)太浩瀚了,200-300個(gè)網(wǎng)頁(yè)是非常非常微不足道的一小部分。

  所以我們可以看到這1G在工業(yè)領(lǐng)域可能就是大數(shù)據(jù),但放到互聯(lián)網(wǎng)領(lǐng)域就不足以稱(chēng)為大數(shù)據(jù)。所以大數(shù)據(jù)的大也是放在不同場(chǎng)景下來(lái)考慮的。

  數(shù)據(jù)質(zhì)量是關(guān)鍵

  特別是在工業(yè)領(lǐng)域,由于傳感器物理特性本身由于工藝和環(huán)境會(huì)導(dǎo)致很多數(shù)據(jù)采集上來(lái)并不是可靠的。

  比如三個(gè)相關(guān)聯(lián)的數(shù)據(jù),我們要通過(guò)兩個(gè)來(lái)驗(yàn)證第三個(gè)是不是正確的。這樣我們數(shù)據(jù)質(zhì)量管理就要花費(fèi)很大的精力。

  所以數(shù)據(jù)速度或者質(zhì)量來(lái)講,都帶來(lái)很大的復(fù)雜性。將大數(shù)據(jù)稱(chēng)之為困難數(shù)據(jù)或者復(fù)雜數(shù)據(jù)是更加準(zhǔn)確的,這就是大家概念中的大數(shù)據(jù)。

(轉(zhuǎn)載)

標(biāo)簽:西門(mén)子 大數(shù)據(jù) 我要反饋 
2024世界人工智能大會(huì)專(zhuān)題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專(zhuān)題報(bào)道