01
人類有兩種主要的思維模式,一種是快速而直覺的,另一種是緩慢而深思熟慮的,這種說法起源于并廣泛存在于古老的哲學(xué)和心理學(xué)著作中。通常用“系統(tǒng) 1 ”和“系統(tǒng) 2 ”來表示以上兩種類型的認知過程,諾貝爾獎獲得者心理學(xué)家丹尼爾·卡尼曼(Daniel Kahneman)在其著作《思考,快與慢》中詳細介紹了兩種認知系統(tǒng)的區(qū)別之處,系統(tǒng) 1 是直覺性、快速、大容量、并行、無意識、情境化和自動化的,其依賴情感、記憶和經(jīng)驗迅速作出判斷,是類似于動物認知的內(nèi)隱知識;系統(tǒng) 2 則是分析性、緩慢、有限容量、串行和抽象的,其受到規(guī)則的約束,依賴認知能力的運作,是人類進化后期習(xí)得的外顯知識。目前深度學(xué)習(xí)包括大模型都在做系統(tǒng)1的工作,而知識圖譜擅長做系統(tǒng) 2 的工作。
人工智能的發(fā)展有兩大經(jīng)典的流派,一個叫符號主義,一個叫連接主義。知識圖譜是經(jīng)典的符號主義,把知識符號化,通過三元組描述知識和知識之間的關(guān)系,再構(gòu)建成巨大的知識網(wǎng)絡(luò),這是知識的顯性表達。大模型是連接主義的最新成果,但是它的知識是隱性表達,知識直接存儲到模型的神經(jīng)網(wǎng)絡(luò)參數(shù)中,人不可讀。這兩種知識表達方式有巨大的差別,也有各自的優(yōu)勢。
-
大語言模型的專業(yè)領(lǐng)域知識有限,特別是工業(yè)領(lǐng)域有大量的數(shù)據(jù)還未清晰甚至數(shù)字化;
-
大語言模型存在幻覺問題,這個問題基本無法通過訓(xùn)練從模型訓(xùn)練上解決;
-
大語言模型的知識運維困難,訓(xùn)練成本高且校驗成本高;
-
-
我們的想法是將兩者結(jié)合起來,用知識圖譜解決領(lǐng)域知識缺失、領(lǐng)域知識運維、領(lǐng)域知識推理和大模型幻覺的問題,用大模型解決知識圖譜構(gòu)建成本高的問題,實現(xiàn)大模型和知識圖譜雙擎互相增強。
知識圖譜和大模型兩個技術(shù)的結(jié)合,會產(chǎn)生 1 + 1 >2 的效果?;谶@樣的技術(shù)思路,我們提出了企業(yè)級的工業(yè)智能知識服務(wù)平臺,核心的兩大底層技術(shù)就是知識圖譜和大模型。
上圖是整個知識服務(wù)平臺的技術(shù)架構(gòu),圍繞業(yè)務(wù)全生命周期,包含情報分析、研發(fā)設(shè)計、工業(yè)生產(chǎn)、運營管理、市場推廣、售后服務(wù)的業(yè)務(wù)完整鏈條,因為底層的技術(shù)架構(gòu)是相通的,知識圖譜把各個部門的知識進行統(tǒng)一的關(guān)聯(lián),所以就能產(chǎn)生 1 + 1 > 2 的效果。
這個知識服務(wù)平臺除了大模型和知識圖譜雙擎,還有兩大核心業(yè)務(wù)能力。
第一個核心是數(shù)據(jù)集成。可以將多模態(tài)的數(shù)據(jù)集中化的管理,包括文檔、視頻、圖片等等,只要是企業(yè)內(nèi)部能夠積累的數(shù)據(jù),都可以通過平臺采集,再做自動知識抽取,可以大大降低員工的使用門檻。
第二個核心是持續(xù)學(xué)習(xí)。底層的知識圖譜和大模型之間能夠互相的增強,而且是一個持續(xù)學(xué)習(xí)的過程。這里學(xué)習(xí)包括兩個方面,一個是大模型的迭代,另一個是知識圖譜的迭代。前者一是基于知識庫中數(shù)據(jù)做模型微調(diào),二是通過用戶反饋不斷優(yōu)化提示詞;后者主要是基于新增數(shù)據(jù)的變化,自動更新知識圖譜本體,由本體驅(qū)動圖譜的更新。
當前大模型在應(yīng)用過程中,對于幻覺問題的解決,知識圖譜與大模型結(jié)合是一個比較有效的解決思路,就是 GraphRAG 。
我們知道大模型應(yīng)用于知識庫場景,目前最有價值的就是 RAG ,這種方式能通過知識外掛最有性價比的解決大模型領(lǐng)域知識有限的問題。RAG 的工作流程是,當大模型接收到用戶提問后,會先去外掛的知識庫里找到相關(guān)的文本分片,再把文本分片輸入給大語言模型,最后大語言模型再結(jié)合文本分片內(nèi)容回答問題。受限于分文分片的召回方式, RAG 能利用的知識粒度只能是段落級別,這會導(dǎo)致兩個問題,一是很難找到一個合適的段落分片策略兼顧準確率和召回率,二是僅能回答基于有限段落原文的簡單問題。
GraphRAG 可以把文檔的知識粒度從段落級別拆成實體級別,其中的關(guān)鍵就是將文檔知識構(gòu)建成知識圖譜。用戶提問后,先在知識圖譜中找到問題相關(guān)的實體,通過知識圖譜更精準的找到相關(guān)的知識內(nèi)容。對于專業(yè)技術(shù)要求比較高的領(lǐng)域,GraphRAG 的方式能更好地獲取到到更專業(yè)的結(jié)果,原因就在于知識的顆粒度更細,能夠更好地通過用戶的問題找到相關(guān)的、準確的知識點,再把這些知識點作為提示詞,輸入到大語言模型中,輸出的結(jié)果往往就會更精準。
我們在 GraphRAG 的實踐過程中,相比于常規(guī)的 GraphRAG ,我們還加入了用戶意圖推理和第三方知識圖譜利用兩部分內(nèi)容。
例如用戶提問“剛出生的小孩可以接種肝炎疫苗嗎”,這里包含兩個重要的語義,一個是“剛出生的小孩”在專業(yè)用語中是“新生兒”;另外一個是“肝炎”,肝炎其實是一類疾病的總稱,也分很多不同類型的疾病,比如說叫甲肝、乙肝、丙肝等等。通過知識圖譜增強,把“剛出生的小孩”變成規(guī)范化的描述“新生兒”,把“肝炎”做知識推理得到肝炎包含“慢性乙型肝炎”、“丙型肝炎”等,然后把這些知識合并到一起,實現(xiàn)對用戶意圖的拓展,然后再用拓展的意圖走 GraphRAG 的流程,就能得到一個更好的結(jié)果。
大模型+知識圖譜的工業(yè)應(yīng)用場景
場景一:研發(fā)場景-設(shè)計方案智能管理。
不少工業(yè)企業(yè)都有非常多的設(shè)計文檔、設(shè)計方案等文檔,可能是 CAD 文件,也可能是一些文檔等等,尤其是研發(fā)型的單位,內(nèi)部可能有幾萬份、幾十萬份甚至上百萬份的圖紙內(nèi)容。常規(guī)的檢索只能通過文件名、文件簡介等進行全文檢索,如果需要深入到 CAD 文件的內(nèi)容中查找,例如查找“同時包含某兩個零部件的設(shè)計方案”就非常困難。我們通過知識圖譜加上大語言模型的方式,可以很好地解決這一問題,提前把 CAD 文件中的關(guān)鍵部件構(gòu)建成知識圖譜,這樣在搜索包含某個部件的設(shè)計圖紙,就可以直接對圖紙內(nèi)容進行定位,非常高效。
場景二:生產(chǎn)場景-設(shè)備故障診斷。

工業(yè)型企業(yè)中,產(chǎn)線的任何一個故障,對生產(chǎn)的影響是非常大的,哪怕能縮短一點故障診斷的時間,對企業(yè)的幫助也是非常大。所以可以結(jié)合產(chǎn)品的運維手冊,以及前期積累的故障報告等,把這些作為知識庫,當出現(xiàn)新的故障時,通過大模型的交互,逐漸把故障現(xiàn)象和故障原因結(jié)合起來,然后推薦相關(guān)的故障解決思路,可以幫助運檢人員更快地對故障進行排除。這是在工業(yè)場景中,非常典型的一類大模型與知識圖譜結(jié)合的應(yīng)用。
對于做非標產(chǎn)品的企業(yè),產(chǎn)品的組合類型往往非常辦法,銷售往往無法全部了解。當銷售接到客戶的需求單,需要判斷是否能做,以及用哪些產(chǎn)品能匹配,有時需求單會很長,可能幾頁紙,甚至十幾頁紙,經(jīng)驗稍淺的銷售對需求的把握不是特別準確,那么就可以通過 AI 技術(shù)對銷售訂單的每個功能項、需求項做具體的分析,匹配需求與產(chǎn)品,同時對兼容性、庫存等風(fēng)險因素做出預(yù)警。
智能客服主要是售前和售后場景。售前實現(xiàn)智能導(dǎo)購,售后實現(xiàn)設(shè)備使用的回答,或者是故障的簡單排除等等,這些都是比較典型的應(yīng)用場景。特別是有出海業(yè)務(wù)的企業(yè),涉及到多語言的處理能力,企業(yè)不可能在搭建售后團隊時,每個小語種都招一個人,通過大語言模型,企業(yè)只需要維護一套標準知識庫,大語言模型可以自動地理解各語種的問題,再基于標準的中文手冊,自動以對應(yīng)語種來進行回復(fù),不僅可以提高效率,同時可以極大地降低成本。
04
第一個案例是技術(shù)售前場景實踐。

基于產(chǎn)品手冊構(gòu)建知識圖譜,再把各類手冊錄入到知識庫中進行外掛,最終實現(xiàn)設(shè)備運維助手的構(gòu)建。
可以看到這里有很多問題,如果只是用常規(guī)大模型 RAG 形式進行回答,很難回答得很全面,核心原因在于沒有對用戶問題中蘊含的領(lǐng)域知識進行推理。例如用戶提問某系列產(chǎn)品斷路器的附件能否通用,如果不通過知識推理知道某系列產(chǎn)品包含的所有產(chǎn)品型號,那模型回答的答案通常是不準確或者不全面的,所以優(yōu)先通過知識圖譜進行推理是非常重要的環(huán)節(jié)。
第二個案例主要知識庫的構(gòu)建應(yīng)用。
知識庫的一個大核心的價值點就是實現(xiàn)企業(yè)經(jīng)驗或者知識的積累。案例中的企業(yè)要去做跨部門的經(jīng)驗傳承,海外部門在零部件生產(chǎn)和設(shè)計上有非常多的經(jīng)驗,但現(xiàn)在隨著業(yè)務(wù)轉(zhuǎn)移,海外工廠業(yè)務(wù)遷到國內(nèi)工廠,那么相關(guān)的經(jīng)驗就需要由海外的老師傅傳遞到新的工人身上。結(jié)合 Agent 技術(shù),可以完成只有人類專家才能掌握的復(fù)雜問題解決。
我們用了“PDCA”的核心思路,PDCA 對于工業(yè)企業(yè)來說用得非常多,所以在知識庫建設(shè)時,同樣可以用這套指導(dǎo)思路來進行建設(shè)。
(來源愛分析ifenxi)