一 、 引言
在激烈的市場競爭環(huán)境中,一個企業(yè)如果要生存和發(fā)展,就必需了解市場.了解客戶樹立“以市場為導向,以客戶為中心”的經(jīng)營理念。汽車銷售企業(yè)作為服務業(yè)尤其如此面對瞬息萬變的市場,多變的客戶,應用信息技術為營銷服務,建立客戶關系管理系統(tǒng)等不失為有效途徑。而數(shù)據(jù)挖掘技術在客戶分析方面有優(yōu)勢。在營銷過程中市場調(diào)查是十分重要的.市場調(diào)查將為營銷策略,廣告的投放提供依據(jù)面對市場調(diào)查取得的大量紛雜、無序的數(shù)據(jù),利用商業(yè)智能軟件的數(shù)據(jù)挖掘技術進行處理,將會起到良好的結果。
二、 商業(yè)智能軟件
商業(yè)智能 (BI,BusinessIn telligence)又稱商務智能,就是一種將數(shù)據(jù)轉變?yōu)樾畔ⅰ⑿畔⑥D變成知識的工具,并且這種工具能夠在恰當?shù)臅r候通過恰當?shù)姆绞桨亚‘數(shù)男畔鬟f給恰當?shù)娜恕I虡I(yè)智能定義為下列軟件工具的集合。
1.簡單的查詢和報告工具。專門用來支持初級用戶的原始數(shù)據(jù)訪問.不包括適用于專業(yè)人士的成品報告生成工具。在這一層次,商業(yè)智能僅僅是把信息進行粗加工。
2.在線分析處理。提供多維數(shù)據(jù)管理環(huán)境,其典型的應用是對商業(yè)問題的建模與商業(yè)數(shù)據(jù)分析。
3.經(jīng)理信息系統(tǒng)。這類系統(tǒng)的用戶希望能夠在不太費力的情況下.從系統(tǒng)中獲取大多數(shù)信息。
4.數(shù)據(jù)集 市和數(shù)據(jù)倉庫產(chǎn)品。包括數(shù)據(jù)清洗、數(shù)據(jù)抽取、轉換、載入、數(shù)據(jù)管理和數(shù)據(jù)存取等方面的軟件。
5.數(shù)據(jù)挖掘(DataM ining)軟件。使用諸如決策樹、神經(jīng)網(wǎng)絡、規(guī)則歸納等技術r用來發(fā)現(xiàn)數(shù)據(jù)之間的關系,做出基于數(shù)據(jù)的推斷。數(shù)據(jù)挖掘是通過仔細分析大量數(shù)據(jù)來揭示有意義的新的關系、模式和趨勢的過程。它使用模式認知技術、統(tǒng)計技術和數(shù)學技術。數(shù)據(jù)挖掘的目的是為決策建模即根據(jù)過去活動的分析預測將來的行為。比較常見的數(shù)據(jù)挖掘算法有:聚類分析、決策樹、神經(jīng)網(wǎng)絡、規(guī)則歸納。一般比較好的數(shù)據(jù)挖掘工具都會支持這幾種算法。
三、 決策樹與IBM DB2 Intelligent Miner
決策樹方法起源于概念學習系統(tǒng),然后發(fā)展了ID3方法并達到高峰最后又演化為能處理C4.5。
連續(xù)屬性的決策樹構造的輸入是一組帶有類別標記的數(shù)據(jù),構造的結果是一棵二叉或多叉樹。二叉樹的內(nèi)部節(jié)點(非葉子節(jié)點)一般表示為一個邏輯判斷如形式為(ai=vi)的邏輯判斷,其中ai是屬性v.是該屬性的某個屬性值;樹的邊是邏輯判斷的分支結果。多叉樹的內(nèi)部節(jié)點是屬性.邊是該屬性的所有取值有幾個屬性值,就有幾條邊。樹的葉子節(jié)點都是類別標記。構造 決 策 樹的方法是采用自上而下的遞歸構造。以多叉樹為例它的構造思路是如果訓練數(shù)據(jù)集合中的所有數(shù)據(jù)是同類的,則將之作為葉子節(jié)點,節(jié)點內(nèi)容即是該類別標記否則,根據(jù)某種策略選擇一個屬性按照屬性的各個取值把數(shù)據(jù)集合劃分為若干子集合使得每個子集上的所有數(shù)據(jù)在該屬性上具有同樣的屬性值;然后再依次遞歸處理各個子集。這種思路實際上就是“分而治之“(Divide一and一conquer)的道理。二叉樹的原理與此的差別僅在于要選擇一個好的邏輯判斷。在生成的決策樹中可以建立一個規(guī)則基。一個規(guī)則基包含一組規(guī)則.每一條規(guī)則對應決策樹的一條不同路徑這條路徑代表它經(jīng)過節(jié)點所表示的條件的一條連接。IBM 的 Intenlligent M ine:是市場上最強大和最有可伸縮性的工具之一正在競爭數(shù)據(jù)挖掘工具市場的領導地位,它提供了最廣泛的數(shù)據(jù)挖掘技術和算法在數(shù)據(jù)規(guī)模和計算性能方面具有非常高的可伸縮性Intellligent Miner支持分類、預測、關聯(lián)規(guī)則、聚類、順序模式偵測和時間序列分析的算法。Intenlligent Miner支持DB2關系數(shù)據(jù)庫管理系統(tǒng),并集成了大量復雜的數(shù)據(jù)操縱函數(shù)。根據(jù) ID C 的統(tǒng)計IntelligentM iner目前是數(shù)據(jù)挖掘領域最先進的產(chǎn)品。大多數(shù)算法是由舊M研究所研發(fā)出的,是IBM的專有技術.并只存在于Intelligent Mine。中。決策樹使用的是CAU算法的二種變種,用以產(chǎn)生一個分類模型并且能夠處理離散和連續(xù)數(shù)據(jù)。
四、決策樹技術在汽車銷售中的應用
下面將就某汽車銷售公司,在汽車展上的調(diào)查問卷進行分析。
潛在客戶的數(shù)據(jù)主要有年齡、性別、職業(yè)、收入、教育程度、是否結婚,是否有房等,調(diào)查客戶是否會在一年內(nèi)買車。數(shù)據(jù)表格式如下
1.數(shù)據(jù)預處理。數(shù)據(jù)預處理的目的是為了提高數(shù)據(jù)質量,使數(shù)據(jù)挖掘的過程更加有效,更加容易同時也提高挖掘結果的質量。數(shù)據(jù)預處理的對象主要是清理其中的噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)。常用的數(shù)據(jù)預處理技術主要包括;數(shù)據(jù)清洗、相關分析和數(shù)據(jù)變換等。
數(shù)據(jù)清洗試圖填補訓練集中的空缺值、識別孤立點、消除噪聲、糾正數(shù)據(jù)中的不一致。對于空缺值的處理,通常有忽略元組、人工填寫空缺值、使用全局常量填充、使用屬性平均值填充、使用與給定元組同一類的樣本平均值填充、使用最可能的值填充等方法。
調(diào)查問卷中有部分沒有填寫的選項,如年齡屬性,對于這一部分記錄采用的是使用屬性平均值填充的方法。在進 行 數(shù) 據(jù)挖掘工作之前需要進行前期的數(shù)據(jù)整理工作,比如根據(jù)直觀經(jīng)驗去除數(shù)據(jù)中的冗余信息或不相關信息,對于上面的數(shù)據(jù)集中的屬性,像序號等可以在正式開始數(shù)據(jù)挖掘前去除,因為客戶是否近期內(nèi)買車是我們最關心的信息我們把屬性是否 一年內(nèi)買車,即作為類標簽屬性。
2.生成決策樹,產(chǎn)生規(guī)則。整理后的數(shù)據(jù)導入到DB2關系數(shù)據(jù)庫表中,使用IBM的Intenlig entM iner提供的數(shù)據(jù)挖掘工具生成決策樹并剪枝后如下圖。
在得到?jīng)Q策樹之后可以由其中提取分類規(guī)則.在該例中,可以提取的規(guī)則如下:IfS alary= 2750一6500a nda ge=31.5一40.5 then buy=y 也就是說 ,在剪去一些噪聲枝節(jié)之后在決策樹的每一條支路上,都可以形成一條分類規(guī)則。可以采用這些分類規(guī)則.對潛在的客戶數(shù)據(jù)進行分類.由此得出哪些客戶最近有購車的意愿然后可以主動地向客戶推銷汽車并且給予一定的優(yōu)惠政策.由被動營銷轉變?yōu)橹鲃訝I銷。
3.決策樹結果分析理解。需要說明的是這203份問卷是在車展中獲取的.來參加車展接受問卷調(diào)查的自然多數(shù)是有買車想法的,因此31.2%愿意買車.這個比例在普通人群中是達不到的。下面我們從產(chǎn)生的決策樹規(guī)則分析一下是否在一年內(nèi)買車與客戶的因素之間的關系。
(1 )收入直接決定了一個人的購買力。salary即月薪在低于2550元的客戶中汽車是奢侈品.在近期一年內(nèi)沒有購車的意愿;月薪在高于6500元的客戶中,一年內(nèi)也沒有購車的意愿可以想象高收入人群大多已經(jīng)有車了。
(2) 年齡也是導致買車的一個因素。在接受調(diào)查的人群中都在22歲一65歲之間。年輕人中愿意買車的較多年齡小于31.5歲的人,可能是由于婚姻與購房所困,一年內(nèi)沒有購車的意愿:年齡在31.5歲一40.5歲之間(占82.3%),一般來說這一部分高收入人群不受房子與婚姻狀況所困擾孩子大多在上中小學.而目前大多數(shù)是獨生子女,社會治安又不太好在經(jīng)濟條件許可的情況,會考慮買車來接送孩子。因此有近期買車的打算。
(3) 愿意買車的多為男性。在低收入的女性中沒有考慮購車問題.但男性如果收入還可以的情況下有近期買車的可能性。
(4) 從目前 這些數(shù)據(jù)來看受教育情況、婚否、工作性質與是否愿意近期買車影響也不大。客戶的購 買行為還要從多方面進行考慮我們僅從這幾方面挖掘出外部環(huán)境與客戶的購買行為之間的關系。在計劃購車的人群中購車的價位,車的排氣量、/車的顏色等也可以進行挖掘在不打算購車的人群中不買的原因,也值得分析。
五 、結 論
采用決策樹分類算法,通過對調(diào)查數(shù)據(jù)挖掘得到一系列的分類規(guī)則,然后利用此分類規(guī)則對潛在客戶進行分析采取主動營銷.可以降低營銷成本從而可以提高營銷的成功率。隨著多方面大量數(shù)據(jù)的獲得,商業(yè)智能的數(shù)據(jù)挖掘工具可以挖掘出更有參考價值、易于理解,并具有很高的分類準確度的規(guī)則為生產(chǎn)實踐服務。決策樹數(shù)據(jù)挖掘技術在汽車銷售中也有著廣闊的應用前景,值得我們進一步的研究。
(轉載)