本期,我們將進一步深入了解“軟測量”,借助寄云科技DAStudio工業(yè)數(shù)據(jù)分析建模平臺,詳細展示一個具體的軟測量建模案例:通過光譜數(shù)據(jù)估算汽油辛烷值的軟測量建模分析的全部過程,了解軟測量模型是如何幫助企業(yè)挖掘數(shù)據(jù)價值,持續(xù)優(yōu)化生產(chǎn)。
【背景】:
辛烷值是用于表征汽油抗爆性的指標,汽油的辛烷(Octane)值越高,抗爆性就越好,就能用于壓縮比高的發(fā)動機。汽油的辛烷值每提高一個單位就可以減少油耗0.7%-3.1%。汽油的不同辛烷值決定了其價格高低。由于缺乏在線分析儀表,在生產(chǎn)中采用人工采樣分析得到重整產(chǎn)品的辛烷值,通常情況下每次從采樣到最終結果出來要經(jīng)過幾個小時,每隔10天左右分析1次,這顯然不利于生產(chǎn)控制。因此,有必要應用軟測量技術,建立軟測量模型,用于汽油辛烷值的估算,從而快速檢驗產(chǎn)品質量、指導生產(chǎn)操作。
數(shù)據(jù)概況:
60 個汽油樣本的近紅外光譜及其辛烷值的數(shù)據(jù)集,其中光譜包括了401維波長的光譜強度。(采用公開數(shù)據(jù)集,來源的參考文獻)
方法:
由于汽油辛烷值的影響因素較多,且各參數(shù)間(不同波長下的光譜強度)存在相關性,樣本個數(shù)又較少,因此本例將采用主成分回歸 (PCR)進行建模,并討論這種方法的有效性。
當存在大量預測變量(自變量)并且它們高度相關甚至多重共線時,PLSR 和 PCR 都可以作為建模和預測響應變量(因變量)的方法。這兩種方法都通過原始自變量的線性組合,構建新的自變量(稱為成分),但它們構建這些成分的方式不同。PCR構建的成分,能最大程度的解釋自變量觀測值的波動(即選取自變量方差最大的方向),而根本不考慮響應變量的情況。而 PLSR 在構建成分時,會考慮響應變量的影響,因此,常使模型能夠采用更少的成分擬合因變量。 從實際應用上來說,這種考慮能否最終導向產(chǎn)生更簡約的模型,要視具體情況(場景、數(shù)據(jù))而定。
查看其中一個樣本的各維光譜(不同波長)取值:
接下來,擬合具有兩個主成分的 PCR 模型。第一步是使用 pca 函數(shù)對 X 進行主成分分析,并保留兩個主成分。然后,PCR 就只是響應變量對這兩個主成分的線性回歸。 當各個自變量擁有非常不同的變化程度、方差(very different amounts of variablity)時,比較通用的做法是,先對每個自變量進行歸一化(normalize each variable first by its standard deviation),但此處省略。
首先,搭建DA分析工程如圖,需要注意的是,DA的PCA組件沒有做數(shù)據(jù)的中心化,因此需要先用“列歸一化”組件進行中心化處理(去除各列特征的均值)?;镜牟襟E是:
● 中心化
● PCA主成分分解
● 前2維主成分,聯(lián)合目標值y(辛烷值),進行線性回歸,訓練與預測,查看回歸效果
主成分分析(PCA)后保留2個主成分的前幾個元素如下:
之后,用散點圖觀察回歸的效果,橫軸是真實的目標值(辛烷值),縱軸是預測(軟測量)的辛烷值: