IBM Watson Knowledge Catalog：邁向智能化數(shù)據(jù)經(jīng)緯的第一步

ainet.cn 2022年01月18日

　　數(shù)據(jù)治理已經(jīng)發(fā)展了 20 多年，從最早的元數(shù)據(jù)管理，到后來(lái)的數(shù)據(jù)質(zhì)量管理，很多企業(yè)多年前都建設(shè)了名為數(shù)據(jù)治理的項(xiàng)目。但是，如果你去問(wèn)這些企業(yè)，數(shù)據(jù)治理項(xiàng)目做得怎么樣?發(fā)揮了怎樣的業(yè)務(wù)價(jià)值和效益?你得到的答案往往不盡人意。很多企業(yè)建設(shè)好數(shù)據(jù)治理項(xiàng)目以后，就荒廢了沒(méi)有人使用。為什么會(huì)造成這樣的情況呢?究其原因是，其數(shù)據(jù)治理項(xiàng)目只是面對(duì) IT 人員的，并不是面對(duì)業(yè)務(wù)人員的。如果一個(gè)項(xiàng)目不是面對(duì)業(yè)務(wù)人員的，就難以發(fā)揮業(yè)務(wù)價(jià)值，業(yè)務(wù)人員無(wú)法使用，往往是不可能獲得成功的。因此，近年來(lái)，國(guó)外興起了建設(shè)數(shù)據(jù)目錄的熱潮，不只是談數(shù)據(jù)治理，而是為了解決面向業(yè)務(wù)人員并體現(xiàn)業(yè)務(wù)價(jià)值的問(wèn)題。數(shù)據(jù)目錄就是為了幫助業(yè)務(wù)人員以及數(shù)據(jù)科學(xué)家，解決尋找數(shù)據(jù)、了解數(shù)據(jù)、優(yōu)化數(shù)據(jù)以及使用數(shù)據(jù)的難題。

　　什么是數(shù)據(jù)目錄?

(圖 1)

　　很多人還不清楚什么是數(shù)據(jù)目錄，我來(lái)打個(gè)比方，我們用書(shū)來(lái)比喻數(shù)據(jù)。大家都知道圖書(shū)館的圖書(shū)目錄，我們過(guò)去進(jìn)到圖書(shū)館借書(shū)，首先就要去查找圖書(shū)目錄。如果一個(gè)圖書(shū)館如圖 1 右下角那副照片那么亂的話，相信就連圖書(shū)管理員也無(wú)法找到想要的書(shū)吧?如果一個(gè)企業(yè)的數(shù)據(jù)庫(kù)管理得那么亂，那么就連數(shù)據(jù)庫(kù)管理員可能也無(wú)法找到數(shù)據(jù)了。如果一個(gè)圖書(shū)館如圖 1 右上角那樣的話，那說(shuō)明這個(gè)圖書(shū)館的書(shū)，已經(jīng)分門(mén)別類擺放整齊了，就像一個(gè)企業(yè)的數(shù)據(jù)，結(jié)構(gòu)化的和非結(jié)構(gòu)化的，都分別在數(shù)據(jù)庫(kù)里或大數(shù)據(jù)平臺(tái)上，放得整整齊齊了。

　　但是，對(duì)于圖書(shū)館來(lái)說(shuō)，其主要任務(wù)是為讀者服務(wù)的，書(shū)擺放得整齊，需要借書(shū)的讀者就能借到他要的書(shū)嗎?我們都知道，那是不夠的，因?yàn)槿鄙僖粋€(gè)圖書(shū)目錄，就是圖 1 左邊的小抽屜。那個(gè)小抽屜里放的是一張一張的書(shū)卡，書(shū)卡上寫(xiě)了一些什么呢?往往有書(shū)的名字、書(shū)的簡(jiǎn)介、書(shū)的作者、書(shū)的出版年份，還有書(shū)的類別，比如是物理類的還是化學(xué)類的;書(shū)的屬性，比如是工具書(shū)類的還是文藝書(shū)類的;書(shū)適合的年級(jí)，比如一年級(jí)還是三年級(jí);最重要的是書(shū)的具體位置，它是在圖書(shū)館的哪一排的哪一層的哪一格里。有了這張書(shū)卡，我們就可以輕松地找到這本書(shū)并借到這本書(shū)了。我曾經(jīng)和一個(gè)大型企業(yè)的 CIO 聊天，這家企業(yè) 20 年前就建了數(shù)據(jù)倉(cāng)庫(kù)，十年前又建了大數(shù)據(jù)平臺(tái)和數(shù)據(jù)湖，類似數(shù)據(jù)治理的項(xiàng)目都建設(shè)過(guò)好幾期了。我問(wèn) CIO 最近企業(yè)在IT方面開(kāi)展什么項(xiàng)目呢?CIO 回答，最近招進(jìn)了好幾個(gè)數(shù)據(jù)科學(xué)家，打算開(kāi)展AI項(xiàng)目的建設(shè)，但是遇到了困難。數(shù)據(jù)科學(xué)家們?cè)诠ぷ髦?，要?70% 以上的時(shí)間在尋找數(shù)據(jù)，而不是 AI 建模。CIO 問(wèn)，為什么我們過(guò)去的數(shù)據(jù)治理項(xiàng)目，幫不了這些數(shù)據(jù)科學(xué)家呢?我就告訴這個(gè) CIO, 你們過(guò)去的數(shù)據(jù)治理項(xiàng)目，都是面向IT用戶的，不是面向業(yè)務(wù)人員的。如果你真的要幫助數(shù)據(jù)科學(xué)家方便快捷地找到他們要的數(shù)據(jù)，你就要建設(shè)真正的數(shù)據(jù)目錄。

　　建立數(shù)據(jù)目錄的業(yè)務(wù)準(zhǔn)備

(圖 2)

　　要建立真正的數(shù)據(jù)目錄，前期還是要做好一些業(yè)務(wù)方面的準(zhǔn)備工作的，就像建一張書(shū)卡一樣，書(shū)卡上的內(nèi)容，你先要準(zhǔn)備好。數(shù)據(jù)目錄一般有這樣一系列的業(yè)務(wù)域的元素：

　　01數(shù)據(jù)分類(Categories)

　　這是從業(yè)務(wù)角度，對(duì)業(yè)務(wù)數(shù)據(jù)的分類。就像圖書(shū)館里的書(shū)，按物理、化學(xué)、生物、醫(yī)學(xué)來(lái)分類一樣。企業(yè)里可以按分公司或部門(mén)來(lái)分類，也可以按業(yè)務(wù)類型來(lái)分類，如：銷售類、生產(chǎn)類、財(cái)務(wù)類等等。

　　02業(yè)務(wù)術(shù)語(yǔ)(Terms)

　　業(yè)務(wù)術(shù)語(yǔ)就有點(diǎn)像書(shū)卡上的書(shū)名了，讀者根據(jù)書(shū)名來(lái)找書(shū)，那么數(shù)據(jù)科學(xué)家們往往也是根據(jù)業(yè)務(wù)術(shù)語(yǔ)來(lái)找他要的數(shù)據(jù)。比如：VIP客戶、日產(chǎn)量、月產(chǎn)量等。也可以是一些業(yè)務(wù)的指標(biāo)和維度。

　　03政策 (Policies)

　　大到國(guó)家小到企業(yè)，都有很多政策，會(huì)影響數(shù)據(jù)的性質(zhì)和使用。比如：個(gè)人數(shù)據(jù)的隱私保護(hù)，歐盟有 GDPR，中國(guó)也出臺(tái)了《個(gè)人信息保護(hù)法》，對(duì)個(gè)人信息我們需要打上隱私標(biāo)簽，進(jìn)行保護(hù)，不能隨意泄露。

　　04規(guī)則(Rules)

　　數(shù)據(jù)都有規(guī)則，有的是業(yè)務(wù)規(guī)則，有的是數(shù)據(jù)質(zhì)量規(guī)則。比如：身份證號(hào)碼，它的規(guī)則是18位的數(shù)字，前6位代表地區(qū)，中間8位代表生日，后三位是序號(hào)，最后一位是校驗(yàn)碼。有些物料的號(hào)碼，第一位是字母代表材質(zhì)，后四位數(shù)字代表序列等等。

　　05參考數(shù)據(jù)(Reference Data)

　　有些數(shù)據(jù)是代碼，需要通過(guò)參考數(shù)據(jù)來(lái)知道真正的數(shù)值。

　　06數(shù)據(jù)分級(jí)(Classification)

　　就像書(shū)卡上會(huì)告訴你這本書(shū)是給一年級(jí)用的還是給四年級(jí)用的，數(shù)據(jù)也是需要分級(jí)的。比如：第一級(jí)的數(shù)據(jù)屬于公開(kāi)數(shù)據(jù)大家都可以看，第二級(jí)的數(shù)據(jù)只有部門(mén)經(jīng)理才能看，第三級(jí)的數(shù)據(jù)是給高層領(lǐng)導(dǎo)看的，第四級(jí)數(shù)據(jù)只有董事會(huì)的成員才能看等等。

　　07數(shù)據(jù)類型(Data Class)

　　我們可以對(duì)數(shù)據(jù)根據(jù)它的類型進(jìn)行分類，比如：姓名、地址、電話、身份證號(hào)碼，或者是產(chǎn)品代碼、產(chǎn)品種類或是產(chǎn)量信息等等。我們需要對(duì)Data Class的類型進(jìn)行定義，比如通過(guò)正則表達(dá)式。Watson Knowledge Catalog 將可以通過(guò)AI的方式，根據(jù)Data Class的定義，自動(dòng)的進(jìn)行數(shù)據(jù)的分類和識(shí)別。

　　建立數(shù)據(jù)目錄的技術(shù)難點(diǎn)

　　數(shù)據(jù)目錄的實(shí)現(xiàn)其實(shí)并不容易，否則，為什么那么多年來(lái)，大多數(shù)的客戶還是在普通的數(shù)據(jù)治理層面，僅能夠面向技術(shù)人員，而不能面向業(yè)務(wù)人員呢?原因是：一個(gè)企業(yè)的業(yè)務(wù)域元素可能有幾萬(wàn)個(gè)，而技術(shù)域的元數(shù)據(jù)可能有幾十萬(wàn)個(gè)，幾萬(wàn)個(gè)與幾十萬(wàn)個(gè)的對(duì)應(yīng)關(guān)系，可比圖書(shū)館的書(shū)卡制作要復(fù)雜得多了。幾千本書(shū)你可以通過(guò)書(shū)卡，用人工的方法一一對(duì)應(yīng)。但幾萬(wàn)個(gè)業(yè)務(wù)域元素和幾十萬(wàn)個(gè)技術(shù)元數(shù)據(jù)的對(duì)應(yīng)，全部要靠手工來(lái)實(shí)現(xiàn)，幾乎是不可能完成的任務(wù)。這也是這么多年來(lái)，數(shù)據(jù)目錄沒(méi)有很快發(fā)展起來(lái)的原因，直到最近AI技術(shù)和機(jī)器學(xué)習(xí)技術(shù)的引進(jìn)，才幫助我們解決了這個(gè)問(wèn)題——針對(duì)這個(gè)難題，IBM推出了Watson Knowledge Catalog。 Watson是IBM 響當(dāng)當(dāng)?shù)腁I名片，所以Watson Knowledge Catalog里，采用了大量的IBM企業(yè)級(jí)AI和機(jī)器學(xué)習(xí)的技術(shù)，來(lái)幫助我們實(shí)現(xiàn)從業(yè)務(wù)到技術(shù)的關(guān)聯(lián)。

(圖3)

　　圖 3 展示了數(shù)據(jù)目錄各個(gè)元素之間的關(guān)系。其中，從業(yè)務(wù)術(shù)語(yǔ)到數(shù)據(jù)資產(chǎn)的那個(gè)紅色的箭頭，一直是數(shù)據(jù)目錄建設(shè)的難點(diǎn)。直到 IBM 采用了大量的AI和機(jī)器學(xué)習(xí)的方式，來(lái)幫助做自動(dòng)的關(guān)聯(lián)，才解決了這個(gè)問(wèn)題。如果業(yè)務(wù)元數(shù)據(jù)或者 Data Class 定義了清晰的數(shù)據(jù)規(guī)則，那么，Watson Knowledge Catalog 就可以應(yīng)用AI的能力，進(jìn)行自動(dòng)關(guān)聯(lián)。如果并沒(méi)有定義清晰的規(guī)則，那么，我們可以用人工的方式，手工地進(jìn)行關(guān)聯(lián)，同時(shí) Watson Knowledge Catalog 會(huì)進(jìn)行機(jī)器學(xué)習(xí)，自動(dòng)建立規(guī)則。當(dāng)你用手工多關(guān)聯(lián)幾次，自動(dòng)建立的規(guī)則越來(lái)越完善以后，系統(tǒng)就能通過(guò)AI實(shí)現(xiàn)自動(dòng)關(guān)聯(lián)了。

　　建立數(shù)據(jù)目錄的技術(shù)準(zhǔn)備

　　建立數(shù)據(jù)目錄，我們要了解企業(yè)內(nèi)部都有哪些數(shù)據(jù)?這些數(shù)據(jù)在哪里?數(shù)據(jù)質(zhì)量狀況是如何的?這些都可以使用 Watson Knowledge Catalog 的數(shù)據(jù)自動(dòng)發(fā)現(xiàn)功能去實(shí)現(xiàn)。Watson Knowledge Catalog 會(huì)自動(dòng)地發(fā)現(xiàn)數(shù)據(jù)，自動(dòng)地連接數(shù)據(jù)源，并導(dǎo)入元數(shù)據(jù)。它還可以自動(dòng)地分析數(shù)據(jù)的質(zhì)量狀況，進(jìn)行數(shù)據(jù)質(zhì)量的打分，并形成數(shù)據(jù)質(zhì)量的圖表或儀表盤(pán)。數(shù)據(jù)質(zhì)量的打分，可以利用已經(jīng)定義的數(shù)據(jù)質(zhì)量規(guī)則，也可以允許業(yè)務(wù)人員用拼圖的方式，自定義數(shù)據(jù)質(zhì)量規(guī)則。這種定義方式有點(diǎn)像拼圖游戲，數(shù)據(jù)科學(xué)家可以用一些簡(jiǎn)單的規(guī)則如大于、小于、等于、AND、OR、包含、不包含等，自己拼出數(shù)據(jù)質(zhì)量規(guī)則, 并運(yùn)行，幾分鐘就可以得到數(shù)據(jù)質(zhì)量的報(bào)告。過(guò)去，數(shù)據(jù)科學(xué)家拿到一批數(shù)據(jù)，為了要了解其數(shù)據(jù)質(zhì)量，往往要把需求提給IT部門(mén)，IT 部門(mén)還要請(qǐng)軟件開(kāi)發(fā)商來(lái)寫(xiě)程序，從而分析這批數(shù)據(jù)的數(shù)據(jù)質(zhì)量。從數(shù)據(jù)科學(xué)家提出需求，到拿到數(shù)據(jù)質(zhì)量報(bào)告，有的時(shí)候要幾周時(shí)間。這與我們目前的高效快節(jié)奏的社會(huì)完全不匹配。而如果數(shù)據(jù)科學(xué)家用拼圖方式，花 5 分鐘定義數(shù)據(jù)質(zhì)量規(guī)則，然后執(zhí)行它，15 分鐘后，就能得到結(jié)果了。這種自助式的數(shù)據(jù)質(zhì)量探索能力，往往是數(shù)據(jù)科學(xué)家最希望的。

(圖4)

　　另外，元數(shù)據(jù)管理和血緣分析，也是數(shù)據(jù)目錄不可或缺的功能，他可以幫助數(shù)據(jù)科學(xué)家了解每一個(gè)數(shù)據(jù)從哪里來(lái)，到哪里去，從而更好地理解業(yè)務(wù)。

　　數(shù)據(jù)目錄的使用

　　本文開(kāi)頭就提到，數(shù)據(jù)目錄建設(shè)的目的，是為了解決業(yè)務(wù)人員和數(shù)據(jù)科學(xué)家們發(fā)現(xiàn)數(shù)據(jù)和使用數(shù)據(jù)的難題。那么，為數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員提供一個(gè)友好的數(shù)據(jù)發(fā)現(xiàn)和使用的界面就尤為關(guān)鍵了。Watson Knowledge Catalog 可以將數(shù)據(jù)目錄，展示成一個(gè)知識(shí)圖譜。業(yè)務(wù)人員可以既通過(guò)類似 google 的方式，通過(guò)搜索業(yè)務(wù)詞匯，找到他需要的數(shù)據(jù)，也可以通過(guò)基于知識(shí)圖譜的發(fā)現(xiàn)和探索，很方便地圖形化地找到他要的數(shù)據(jù)，并且可以自助地獲取這些數(shù)據(jù)。Watson Knowledge catalog 自帶有數(shù)據(jù)隱私保護(hù)的功能。如果某個(gè)數(shù)據(jù)已經(jīng)被打上了隱私保護(hù)的標(biāo)簽，那么你就看不到這些數(shù)據(jù)，這些數(shù)據(jù)會(huì)被打上星號(hào)或者漂白后再展示。數(shù)據(jù)科學(xué)家獲得了他要的數(shù)據(jù)后，還可以自助地優(yōu)化這些數(shù)據(jù)或者利用 Watson Knowledge Catalog 自帶的數(shù)據(jù)可視化工具，進(jìn)行數(shù)據(jù)圖形化展示，這些功能都極大地方便了數(shù)據(jù)科學(xué)家對(duì)數(shù)據(jù)的處理和分析。如果數(shù)據(jù)科學(xué)家需要進(jìn)行下一步的AI數(shù)據(jù)建模，還可以直接將這些數(shù)據(jù)不落地的送到我們的自動(dòng)化 AI 建模工具 AutoAI 進(jìn)行建?；蛘?BI 平臺(tái) Cognos 進(jìn)行報(bào)表展現(xiàn)，真正實(shí)現(xiàn)數(shù)據(jù)目錄為業(yè)務(wù)人員服務(wù)的功能。

　　后記

　　智能數(shù)據(jù)目錄的建設(shè)，可以使業(yè)務(wù)人員或者數(shù)據(jù)科學(xué)家，隨時(shí)找到他們需要的數(shù)據(jù)，并且可以通過(guò)自助的方式，獲取這些數(shù)據(jù)。這個(gè)功能，是實(shí)現(xiàn) Data Fabric 的第一步。建設(shè)好了智能的數(shù)據(jù)目錄，就為今后Data Fabric的建設(shè)打下了堅(jiān)實(shí)基礎(chǔ)。Data Fabric 已經(jīng)成為 Gartner 在 2022 年最熱的IT趨勢(shì)的第二名。企業(yè)實(shí)現(xiàn) Data Fabric 的架構(gòu)將是大勢(shì)所趨，讓我們先從建設(shè)智能的數(shù)據(jù)目錄開(kāi)始吧。

　　作者簡(jiǎn)介：王積杰目前擔(dān)任IBM數(shù)據(jù)與AI產(chǎn)品線大中華區(qū)信息架構(gòu)產(chǎn)品總監(jiān)，對(duì)AI和信息架構(gòu)有深刻的理解和認(rèn)識(shí)。擁有20多年的IT從業(yè)經(jīng)驗(yàn)，從2008年起擔(dān)任IBM公司大中華區(qū)數(shù)據(jù)治理產(chǎn)品線產(chǎn)品總監(jiān)，多年從事企業(yè)數(shù)據(jù)集成和治理的工作。對(duì)ETL，實(shí)時(shí)數(shù)據(jù)集成，數(shù)據(jù)治理，數(shù)據(jù)質(zhì)量管理和元數(shù)據(jù)管理和數(shù)據(jù)目錄都頗有造詣。

（轉(zhuǎn)載）

標(biāo)簽：IBM 元數(shù)據(jù)

我要反饋

相關(guān)鏈接

趨勢(shì)：2022 年云計(jì)算三大預(yù)測(cè)

2021年，我們清晰地看到，將關(guān)鍵工作負(fù)載交到單一云廠商手中會(huì)帶來(lái)相當(dāng)大的風(fēng)險(xiǎn)——?這使得混合云架構(gòu)成為主流。接下來(lái)的趨勢(shì)是什么?IBM云計(jì)算專家團(tuán)隊(duì)分享了他們對(duì)2022年的三項(xiàng)預(yù)測(cè)：... [詳情]

2022年01月18日 IBM 云計(jì)算

2022 年 AI 五大預(yù)測(cè)

2022年，疫情和供應(yīng)鏈危機(jī)這類不利因素將持續(xù)，AI領(lǐng)域?qū)?huì)涌現(xiàn)各種新的用例和創(chuàng)新，以應(yīng)對(duì)各項(xiàng)挑戰(zhàn)，例如取得消費(fèi)者對(duì)AI的信任，應(yīng)用先進(jìn)技術(shù)解決氣候變化帶來(lái)的問(wèn)題等?；诖耍琁BM專... [詳情]

2022年01月18日 IBM 人工智能

制定“三步走”數(shù)字化轉(zhuǎn)型戰(zhàn)略，IBM 助力萬(wàn)邦集團(tuán)實(shí)現(xiàn)智能制造, 數(shù)據(jù)驅(qū)動(dòng)的國(guó)際化運(yùn)營(yíng)

日前，IBM與萬(wàn)邦集團(tuán)宣布，萬(wàn)邦集團(tuán)“三步走”的數(shù)字化轉(zhuǎn)型項(xiàng)目第一階段已成功上線，并取得顯著效果，即實(shí)現(xiàn)了可視、可控、可復(fù)制的數(shù)字化1.0目標(biāo)，并將按計(jì)劃在未來(lái)進(jìn)階以實(shí)現(xiàn)數(shù)字化... [詳情]

2022年01月18日 IBM