siemens x
大數(shù)據(jù)

寄云DAStudio工業(yè)數(shù)據(jù)分析建模平臺(tái)實(shí)戰(zhàn):軟測(cè)量應(yīng)用

2025China.cn   2021年06月15日

  本期,我們將進(jìn)一步深入了解“軟測(cè)量”,借助寄云科技DAStudio工業(yè)數(shù)據(jù)分析建模平臺(tái),詳細(xì)展示一個(gè)具體的軟測(cè)量建模案例:通過(guò)光譜數(shù)據(jù)估算汽油辛烷值的軟測(cè)量建模分析的全部過(guò)程,了解軟測(cè)量模型是如何幫助企業(yè)挖掘數(shù)據(jù)價(jià)值,持續(xù)優(yōu)化生產(chǎn)。

  【背景】:

  辛烷值是用于表征汽油抗爆性的指標(biāo),汽油的辛烷(Octane)值越高,抗爆性就越好,就能用于壓縮比高的發(fā)動(dòng)機(jī)。汽油的辛烷值每提高一個(gè)單位就可以減少油耗0.7%-3.1%。汽油的不同辛烷值決定了其價(jià)格高低。由于缺乏在線分析儀表,在生產(chǎn)中采用人工采樣分析得到重整產(chǎn)品的辛烷值,通常情況下每次從采樣到最終結(jié)果出來(lái)要經(jīng)過(guò)幾個(gè)小時(shí),每隔10天左右分析1次,這顯然不利于生產(chǎn)控制。因此,有必要應(yīng)用軟測(cè)量技術(shù),建立軟測(cè)量模型,用于汽油辛烷值的估算,從而快速檢驗(yàn)產(chǎn)品質(zhì)量、指導(dǎo)生產(chǎn)操作。

  數(shù)據(jù)概況:

  60 個(gè)汽油樣本的近紅外光譜及其辛烷值的數(shù)據(jù)集,其中光譜包括了401維波長(zhǎng)的光譜強(qiáng)度。(采用公開(kāi)數(shù)據(jù)集,來(lái)源的參考文獻(xiàn))

  方法:

  由于汽油辛烷值的影響因素較多,且各參數(shù)間(不同波長(zhǎng)下的光譜強(qiáng)度)存在相關(guān)性,樣本個(gè)數(shù)又較少,因此本例將采用主成分回歸 (PCR)進(jìn)行建模,并討論這種方法的有效性。

  當(dāng)存在大量預(yù)測(cè)變量(自變量)并且它們高度相關(guān)甚至多重共線時(shí),PLSR 和 PCR 都可以作為建模和預(yù)測(cè)響應(yīng)變量(因變量)的方法。這兩種方法都通過(guò)原始自變量的線性組合,構(gòu)建新的自變量(稱為成分),但它們構(gòu)建這些成分的方式不同。PCR構(gòu)建的成分,能最大程度的解釋自變量觀測(cè)值的波動(dòng)(即選取自變量方差最大的方向),而根本不考慮響應(yīng)變量的情況。而 PLSR 在構(gòu)建成分時(shí),會(huì)考慮響應(yīng)變量的影響,因此,常使模型能夠采用更少的成分?jǐn)M合因變量。 從實(shí)際應(yīng)用上來(lái)說(shuō),這種考慮能否最終導(dǎo)向產(chǎn)生更簡(jiǎn)約的模型,要視具體情況(場(chǎng)景、數(shù)據(jù))而定。

  查看其中一個(gè)樣本的各維光譜(不同波長(zhǎng))取值:

  接下來(lái),擬合具有兩個(gè)主成分的 PCR 模型。第一步是使用 pca 函數(shù)對(duì) X 進(jìn)行主成分分析,并保留兩個(gè)主成分。然后,PCR 就只是響應(yīng)變量對(duì)這兩個(gè)主成分的線性回歸。 當(dāng)各個(gè)自變量擁有非常不同的變化程度、方差(very different amounts of variablity)時(shí),比較通用的做法是,先對(duì)每個(gè)自變量進(jìn)行歸一化(normalize each variable first by its standard deviation),但此處省略。

  首先,搭建DA分析工程如圖,需要注意的是,DA的PCA組件沒(méi)有做數(shù)據(jù)的中心化,因此需要先用“列歸一化”組件進(jìn)行中心化處理(去除各列特征的均值)?;镜牟襟E是:

  ● 中心化

  ● PCA主成分分解

  ● 前2維主成分,聯(lián)合目標(biāo)值y(辛烷值),進(jìn)行線性回歸,訓(xùn)練與預(yù)測(cè),查看回歸效果

  主成分分析(PCA)后保留2個(gè)主成分的前幾個(gè)元素如下:

  之后,用散點(diǎn)圖觀察回歸的效果,橫軸是真實(shí)的目標(biāo)值(辛烷值),縱軸是預(yù)測(cè)(軟測(cè)量)的辛烷值:

  觀察上圖中擬合值的散點(diǎn)圖可以看出,兩個(gè)成分的 PCR 對(duì)目標(biāo)值的預(yù)測(cè)始終偏水平方向,并不比使用一個(gè)常量(例如87左右)去預(yù)測(cè)的效果更好?;貧w的 R 方值也證實(shí)了這一點(diǎn),R方的值很低,遠(yuǎn)離1,因此,該回歸模型對(duì)目標(biāo)值方差的解釋程度并不高。

  一般來(lái)說(shuō),增加主成分的個(gè)數(shù)可以更好的擬合y,因?yàn)殡S著成分個(gè)數(shù)的增加, X 中的大部分對(duì)預(yù)測(cè)y重要的信息都會(huì)陸續(xù)出現(xiàn)在新增的成分中。因此如下圖右側(cè)紅框中的工程分支,嘗試采用更多維的主成分進(jìn)行回歸。例如,用10個(gè)主成分時(shí),殘差遠(yuǎn)小于使用2個(gè)成分時(shí),均方誤差RMSE明顯下降,R方也接近1。

  再次比較真實(shí)值和預(yù)測(cè)值的散點(diǎn)圖,發(fā)現(xiàn)基本沿對(duì)角線方向。說(shuō)明擬合效果較好。

  因此,可以采用光譜數(shù)據(jù),利用PCR等軟測(cè)量建模分析技術(shù),預(yù)測(cè)汽油中的辛烷值,減少樣品需要分析化驗(yàn)的頻次。

  寄云DAStudio工業(yè)數(shù)據(jù)分析建模平臺(tái)

  寄云科技所打造的面向工程數(shù)據(jù)分析人員的全流程數(shù)據(jù)建模分析平臺(tái),聚焦工業(yè)領(lǐng)域,對(duì)接海量工業(yè)數(shù)據(jù)源,快速構(gòu)建數(shù)據(jù)模型和數(shù)據(jù)對(duì)象,支持拖放式、零代碼、敏捷式的算法模型開(kāi)發(fā),提供海量數(shù)據(jù)預(yù)處理、機(jī)器學(xué)習(xí)和人工智能建模分析以及模型在線部署能力,幫助工程技術(shù)人員快速?gòu)姆彪s的數(shù)據(jù)中,通過(guò)智能的分析建模,挖掘數(shù)據(jù)價(jià)值。

(轉(zhuǎn)載)

標(biāo)簽:寄云 DAStudio工業(yè)數(shù)據(jù)分析建模平臺(tái) 我要反饋 
2024世界人工智能大會(huì)專(zhuān)題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專(zhuān)題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專(zhuān)題
2024漢諾威工業(yè)博覽會(huì)專(zhuān)題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]