siemens x
人工智能

2020年中國面向人工智能“新基建”的知識圖譜行業(yè)白皮書

2025China.cn   2020年12月04日

  新型基礎設施建設是為加快國家規(guī)劃建設推出的重大工程和基礎設施建設項目,面向新產(chǎn)業(yè)、新業(yè)態(tài)和新模式,同時助力傳統(tǒng)基礎設施的智能化改造。新基建三大規(guī)劃領域中,兩大領域都直接提及人工智能。新基建背景下,人工智能將迎來新一輪快速發(fā)展。

  當前人工智能的發(fā)展仍然處于弱人工智能的狀態(tài),研究重心由感知智能過渡到認知智能。知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯(lián)關系的大規(guī)模語義網(wǎng)絡,幫助機器實現(xiàn)理解、解釋和推理的能力,是認知智能的底層支撐。2019年知識圖譜相關的融資金額較2018年增長超過200%,逐漸成為人工智能又一熱點產(chǎn)業(yè),產(chǎn)業(yè)鏈已初具規(guī)模,2019年知識圖譜核心產(chǎn)品市場規(guī)模約65億元,知識圖譜技術帶動經(jīng)濟增長規(guī)模約391.8億元。

  本報告從善政、惠民、興業(yè)、智融四個部分對知識圖譜技術在其他行業(yè)中的代表性應用場景進行梳理,對知識圖譜未來的發(fā)展和應用做出展望,同時對人工智能“新基建”下,城市數(shù)字化、智慧化發(fā)展的創(chuàng)新場景進行展示。

一、新基建與知識圖譜概述

新基建的內涵和外延

發(fā)力于科技端的信息數(shù)字化基礎設施建設

  2020年4月20日,國家發(fā)改委將新型基礎設施初步定義為:以新發(fā)展理念為引領,以技術創(chuàng)新為驅動,以信息網(wǎng)絡為基礎,面向高質量發(fā)展需要,提供數(shù)字轉型、智能升級、融合創(chuàng)新等服務的基礎設施體系。

  與傳統(tǒng)的基礎設施建設相比,新基建體現(xiàn)出“重創(chuàng)新、補短板”的特征:主要面向新產(chǎn)業(yè)、新業(yè)態(tài)和新模式,促進經(jīng)濟結構優(yōu)化;但同時也對傳統(tǒng)基礎設施建設形成補充,助力傳統(tǒng)基礎設施的智能化改造,提高傳統(tǒng)基礎設施的運行效率。

  伴隨著技術革命和產(chǎn)業(yè)變革,新型基礎設施的內涵和外延還將不斷豐富和延展。

人工智能是新基建的重點領域

人工智能推動智能產(chǎn)業(yè)化和產(chǎn)業(yè)智能化

  人工智能是新一輪科技革命和產(chǎn)業(yè)變革的核心驅動力,在新基建的三大領域中,兩大領域都直接提及人工智能。在信息基礎設施領域,人工智能與云計算、區(qū)塊鏈一起被視為一種新技術基礎設施;而在融合基礎設施領域中,人工智能則被視為支撐傳統(tǒng)基礎設施轉型升級的重要工具。人工智能新基建的本質不僅僅指向其自身的產(chǎn)業(yè)化發(fā)展,更是在實體經(jīng)濟中尋找應用場景,賦能生產(chǎn)力升級,即作為重大應用基礎設施,推動各行業(yè)完成智能化轉型,實現(xiàn)新舊動能的轉換。艾瑞咨詢測算,2019年人工智能賦能實體經(jīng)濟產(chǎn)生的市場規(guī)模超過570億元。

人工智能進入認知智能探索階段

當前呈現(xiàn)弱人工智能狀態(tài),在認知智能領域還處于初級階段

  人工智能的本質是進行生產(chǎn)力升級,因此評判人工智能技術是否有價值,要看其應用是否貼近生產(chǎn)核心。一般認為,人工智能分計算智能、感知智能和認知智能三個層次。計算智能即快速計算、記憶和儲存的能力;感知智能即對自然界具象事物的識別與判斷能力;認知智能則為理解、分析等能力。當前,數(shù)據(jù)標準化已經(jīng)趨于成熟,以快速計算和存儲為目標的計算智能已基本實現(xiàn);在機器學習和深度學習技術的推動下,以視聽覺等識別技術為目標的感知智能也突破了工業(yè)化紅線,實現(xiàn)了機器對自然界具象事物的判斷與識別。

  但感知智能呈現(xiàn)的終究是一種弱人工智能狀態(tài),還只能在某一方面的人類工作上協(xié)助或替代人類。當人們能使用機器識別更多事物,自然而然地引發(fā)了對事物的理解和分析等深層次的自動化知識服務的需求,而需要外部知識、邏輯推理或者領域遷移的認知智能領域還處于初級階段。學界已經(jīng)展開認知智能領域的研究,2018年以來,美國人工智能協(xié)會收錄關于認知智能層面的論文逐年增多,占所有收錄論文的比重也有提升。

知識圖譜的定義

用圖模型來描述知識和建模萬物關系的語義網(wǎng)絡

  知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯(lián)關系的大規(guī)模語義網(wǎng)絡,是大數(shù)據(jù)時代知識表示的重要方式之一。知識圖譜最常見的表示形式是RDF(三元組),即“實體x 關系 x 另一實體”或“實體 x 屬性 x 屬性值”集合,其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關系。由于知識圖譜富含實體、概念、屬性和關系等信息,使機器理解與解釋現(xiàn)實世界成為可能。

  上世紀七八十年代,傳統(tǒng)的知識工程與專家系統(tǒng)解決了很多的問題,但是都是在規(guī)則明確、邊界清晰、應用封閉的限定場景取得成功,嚴重依賴專家干預,一旦涉及到開放的問題就基本不太可能實現(xiàn),因此難以適應大數(shù)據(jù)時代開放應用到規(guī)模化的需求等問題。相對于傳統(tǒng)的知識表示,知識圖譜具有規(guī)模巨大、語義豐富、質量精良與結構友好等特點,宣告知識工程進入了一個新的時代。

知識圖譜是認知智能的底層支撐

為描繪物理世界生產(chǎn)生活行為提供有效的方法與工具

  讓機器具備認知智能具體體現(xiàn)在讓機器掌握知識,擁有理解數(shù)據(jù)、理解語言進而理解現(xiàn)實世界的能力,擁有解釋數(shù)據(jù)、解釋過程進而解釋現(xiàn)象的能力,擁有推理、規(guī)劃等一系列人類所獨有的思考認知能力,而這些能力的實現(xiàn)與大規(guī)模、結構化、關聯(lián)密度高的背景知識是密不可分的。

  知識圖譜通過對海量結構化和非結構化數(shù)據(jù)進行知識萃取并關聯(lián)形成網(wǎng)狀知識結構,對概念間的關系屬性進行聯(lián)結和轉換,支持非線性的、高階關系的分析,為描繪物理世界生產(chǎn)生活行為提供了有效的方法與工具,是認知智能的底層支撐。知識圖譜幫助機器實現(xiàn)認知智能的“理解”和“解釋”能力:通過建立從數(shù)據(jù)到知識圖譜中實體、概念、關系的映射,使機器能理解數(shù)據(jù),從數(shù)據(jù)中提煉出行業(yè)或領域內高精度的知識;通過利用知識圖譜中實體、概念和關系來解釋現(xiàn)實世界中的事物和現(xiàn)象,使機器能解釋現(xiàn)象。更進一步的,基于知識圖譜和邏輯規(guī)則或統(tǒng)計規(guī)律,機器能推理出實體或概念間深層的、隱含的關系,實現(xiàn)認知智能的“推理”能力。

知識圖譜的基本構建流程

數(shù)據(jù)-知識抽取-知識融合-知識加工-知識應用

  根據(jù)覆蓋范圍的不同,知識圖譜可以區(qū)分為應用相對廣泛的通用知識圖譜和專屬于某個特定領域的行業(yè)知識圖譜:通用知識圖譜覆蓋范圍廣,注重橫向廣度,強調融合更多的實體,通常采用自底向上的構建方式,從開放鏈接數(shù)據(jù)(“信息”)中抽取出置信度高的實體,再逐層構建實體與實體之間的聯(lián)系;行業(yè)知識圖譜指向一個特定的垂直行業(yè),注重縱向深度,具有豐富的實體屬性和數(shù)據(jù)模式,通常采用自頂向下的構建方式,先定義好本體與數(shù)據(jù)模式,再抽取實體加入到知識庫。

  知識圖譜的構建遵循知識抽取、知識融合、知識加工、知識應用的基本流程。從海量結構化和非結構化數(shù)據(jù)中進行實體、關系、屬性和事件的信息提取,通過本體和實體對齊、指代消解解決多種類型的數(shù)據(jù)沖突問題,完成知識融合。將知識存儲到知識庫中,最后進行進一步的知識推理和圖譜應用。

二、知識圖譜行業(yè)現(xiàn)狀

知識圖譜的應用價值

對復雜關系的深入挖掘和直觀展示

  知識圖譜是符號主義人工智能的代表,核心在于對多模、多源異構數(shù)據(jù)和多維復雜關系的高效處理與可視化展示,將社會生活與生產(chǎn)活動中難以用數(shù)學模型直接表示的關聯(lián)屬性,融合成一張以關系為紐帶的數(shù)據(jù)網(wǎng)絡。通過對關系的挖掘與分析,能夠找到隱藏在行為之下的關聯(lián),并進行直觀的展示?;谥R圖譜的上述優(yōu)勢,適宜解決關系復雜的問題,如深度搜索、規(guī)范業(yè)務流程、規(guī)則和經(jīng)驗性預測等相關研究課題。

  連結主義中的深度學習算法是新一代人工智能的標志性技術,但深度學習有其局限性,側重解決影響因素較少、但計算高度復雜的問題,而不太適宜解決影響因素較多、且摻雜眾多非線性關系的問題。通過與知識圖譜的配合使用,依托于行業(yè)知識與經(jīng)驗的深度學習將產(chǎn)生更多貼近產(chǎn)業(yè)核心的認知智能應用,有助于覆蓋場景中大多數(shù)問題,形成完整的以“場景需求”為導向的人工智能解決方案,進一步實現(xiàn)生產(chǎn)力升級的終極目標。

知識圖譜的典型應用

原圖應用

  知識圖譜是人工智能應用鏈條的第一步,是人工智能的底層技術。知識圖譜在高效數(shù)據(jù)處理和知識加工推理方面的能力,可以推動人工智能既有產(chǎn)品的升級或提供更有效的解決方案,同時也可以轉化為新的商業(yè)產(chǎn)品形式。

  知識圖譜的產(chǎn)品形式可以分為原圖應用和算法支撐兩類。原圖應用指基于知識圖譜的圖結構和豐富的語義關系,直接通過圖譜產(chǎn)生價值的服務形式,例如圖挖掘、關聯(lián)分析等。通用知識圖譜被視為下一代搜索引擎的核心技術,而行業(yè)知識圖譜由于有具體場景的認知深度,能很好地滿足垂直領域知識類查詢的需求,如企業(yè)業(yè)務流程查詢、司法領域案例查詢等。算法支撐指通過知識圖譜對于信息源的數(shù)據(jù)進行處理,將產(chǎn)出的結構化關聯(lián)數(shù)據(jù)用于其他人工智能任務的算法模型訓練和應用中,得到能解決具體場景問題的研判建議,形成解決辦法產(chǎn)生價值的服務形式。

支撐其他人工智能任務:搜索、問答、推薦

  知識圖譜為其他人工智能任務提供算法支撐的典型應用主要包括智能問答、智能搜索和智能推薦、決策分析系統(tǒng)等,目前都已產(chǎn)生了成熟且廣泛應用的商業(yè)產(chǎn)品,同時也是各領域知識圖譜中的重要一環(huán)?;谥R圖譜的智能搜索能對文本、圖片、視頻等復雜多元對象進行跨媒體搜索,也能實現(xiàn)篇章級、段落級、語句級的多粒度搜索。智能搜索讓計算機更準確地識別和理解用戶深層的搜索意圖和需求,在知識圖譜中查找出目標實體及其相關內容,對結果內容進行實體排序和分類,并以符合人類習慣的自然語言的形式展示,從而提高搜索體驗。智能問答可以分為直接回答、統(tǒng)計回答和推理回答。基于知識圖譜的智能問答能從實體和短句兩個維度進行挖掘,能理解多樣問法和有噪音問法,具有較高的準確率、召回率。在對話結構和流程設計上,能實現(xiàn)實體間上下文會話的識別與推理,最終實現(xiàn)更自然的人機交互?;谥R圖譜的智能推薦則通過獲得用戶和物品的精確畫像,從而實現(xiàn)準確的匹配和有針對性的推薦,實現(xiàn)場景化、任務型的推薦。

知識圖譜的行業(yè)發(fā)展情況

2019年核心產(chǎn)品市場規(guī)模約65.0億元,預期將迎來快速發(fā)展

  隨著人工智能的算法和算力不斷提升,數(shù)據(jù)來源愈發(fā)廣泛,大規(guī)模自動化的知識獲取和全新的知識表示成為可能。與之相對應的,傳統(tǒng)知識工程受限于知識獲取階段需要重度的人工參與,在互聯(lián)網(wǎng)時代不再能適應整個互聯(lián)網(wǎng)高效化、智能化應用的需要。推力和拉力的共同作用促進了知識圖譜發(fā)展,其構建中的核心產(chǎn)業(yè)主要包括Schema三元組模型構建、實體標注等技術,知識圖譜管理平臺與建模服務、垂直行業(yè)的知識圖譜應用產(chǎn)品及解決方案等。據(jù)艾瑞咨詢統(tǒng)計推算,2019年知識圖譜核心產(chǎn)品的市場規(guī)模約為65.0億元,仍有較大發(fā)展空間,預計2024年將突破200億元,年復合增長率達到20.4%。此外,知識圖譜技術的應用也進一步帶動傳統(tǒng)企業(yè)智能運維效率升級,據(jù)艾瑞咨詢估算,2019年中國知識圖譜技術帶動經(jīng)濟增長規(guī)模達391.8億元,預計到2024年將突破1000億元。

知識圖譜產(chǎn)業(yè)鏈與參與者圖譜

知識圖譜在各領域中的應用概覽

  數(shù)據(jù)繁雜、單一價值有限、問題抽象需要可視化展現(xiàn)、五層關聯(lián)維度以上的應用場景更加適合搭建知識圖譜

三、知識圖譜應用場景

善政:城市治理知識圖譜應用場景

知識圖譜賦能城市智能公共管理系統(tǒng),打造城市“數(shù)字大腦”

  中國城市存在巨大的存量治理和精細化發(fā)展需求。隨著城市公共管理的數(shù)據(jù)來源由政務數(shù)據(jù)不斷拓展至交通、視頻、環(huán)境等其他城市運行感知數(shù)據(jù)以及企業(yè)數(shù)據(jù),城市大數(shù)據(jù)平臺也從政務共享交換平臺,發(fā)展成為多方共建共用共享的大數(shù)據(jù)平臺?;谥R圖譜技術,將分散在政府各個部門、生產(chǎn)生活各個領域的相互孤立的數(shù)據(jù)資源聯(lián)通共享,實現(xiàn)多源數(shù)據(jù)集成交換,從而對政務數(shù)據(jù)和社會數(shù)據(jù)進行深度挖掘。通過數(shù)據(jù)融合分析與管控,最大化發(fā)揮數(shù)據(jù)要素的效能,發(fā)現(xiàn)不同群體、不同行業(yè)的服務需求,實現(xiàn)政務服務的精準化供給、政府科學決策和高效社會治理。

善政:公安知識圖譜應用場景

重點解決數(shù)據(jù)關聯(lián)性和數(shù)據(jù)價值挖掘問題,賦能線索情報分析與案件預警

  公安大數(shù)據(jù)是全面助推公安工作質量、效率、動力變革的重要力量。隨著跨部門、警種、業(yè)務的協(xié)同和整合大趨勢的到來,知識圖譜能通過數(shù)據(jù)分析、文本語義分析等手段,抽取出人、物、地、機構、虛擬身份等實體,并根據(jù)其中的屬性、時空、語義、特征、位置聯(lián)系等建立相互關聯(lián),構建一張多維多層的,實體與實體、實體與事件的關系網(wǎng)絡。在解決公安大數(shù)據(jù)發(fā)展中面臨的數(shù)據(jù)缺乏關聯(lián)性、缺乏全警種智能應用等問題時發(fā)揮重要作用,真正激發(fā)大數(shù)據(jù)的價值。

  建設公安知識圖譜仍遵循知識圖譜搭建邏輯,但其中知識抽取、本體層建設和實戰(zhàn)應用開發(fā)等環(huán)節(jié)需要運用分布式儲存、關聯(lián)算法、語義推理等技術,將公安部門多年業(yè)務中積累的技戰(zhàn)法進行總結和可視化處理,與技術算法相互轉換,以集成犯罪和預測模型,實現(xiàn)重點人員場所關聯(lián)分析、物品關聯(lián)分析、團伙關系分析、異常事件挖掘、相似案件推理等功能,提升公安信息化的智能化水平,促進公安情報研判的演進,高效服務公安的打防管控工作,甚至做到精準的犯罪預測預警。

惠民:醫(yī)療健康知識圖譜應用場景

在就醫(yī)導診、輔助診斷、藥企市場拓展等領域提供知識服務

  醫(yī)療健康是典型的數(shù)據(jù)海量且多源異構的行業(yè),且限于數(shù)據(jù)專業(yè)性強、結構復雜,數(shù)據(jù)融合在醫(yī)療健康行業(yè)應用場景中更加困難。利用知識圖譜的能力,可以聚合核心醫(yī)學概念和全方位的醫(yī)療生態(tài)圈知識,從海量的臨床案例中對經(jīng)驗和知識進行提煉整理、錄入標注、體系構建,在解決優(yōu)質醫(yī)療資源供給不足和醫(yī)療服務需求持續(xù)增加的矛盾中產(chǎn)生重要的作用。

惠民:教育知識圖譜應用場景

教育知識圖譜與機器學習算法結合實現(xiàn)智適應教育

  當前人工智能技術更多應用在如拍照搜題、口語評測、課堂監(jiān)控等外圍需求的工具上,并未能有效深入到教學場景中,而真正產(chǎn)生生產(chǎn)價值建立在充分且必要的數(shù)據(jù)基礎上,搭建貫穿教材知識體系、教學資源管理和受教育者學習軌跡的知識圖譜,將教與學的全過程進行可視化展現(xiàn),使靜態(tài)知識點數(shù)據(jù)與動態(tài)教學活動的數(shù)據(jù)產(chǎn)生關聯(lián),為算法利用提供支撐環(huán)境。

  知識圖譜在教育領域主要有以下幾種應用場景:一是將學科教材知識進行本體建模,形成可關聯(lián)性查詢的知識網(wǎng)絡;二是以圖結構將教學資源以及關系進行語義化組織,以便合理調用;三是在知識圖譜的基礎上,應用大數(shù)據(jù)、AI等技術形成面向學習目標的個性化學習路徑,實現(xiàn)千人千面的教學方案;四是面對受教育者搭建個人知識圖譜,通過對其知識點學習進度和考試反饋數(shù)據(jù)的實時關聯(lián),形成知識掌握狀態(tài)的可視化個人畫像,以至于習題推送和老師一對一教學有的放矢;五是將教育領域碎片化多源異構數(shù)據(jù)進行處理,形成標準化的關聯(lián)數(shù)據(jù)集,為機器學習算法訓練提供充要條件。

  通過以上五點應用,勾勒出基于知識圖譜的數(shù)字中臺形式,最大限度地對教育領域數(shù)據(jù)進行資源整合,為上層智能化應用提供支撐,改變了“傳統(tǒng)教育披上人工智能外衣”的狀況,用技術起底教育邏輯,形成數(shù)據(jù)指導下自適應學習的價值閉環(huán)。

興業(yè):通用制造業(yè)知識圖譜應用場景

對基礎數(shù)據(jù)進行建模,在制造全流程實現(xiàn)多方面協(xié)調管控

  制造業(yè)體系龐大、場景豐富、產(chǎn)品類型多、定制化程度高,具有數(shù)據(jù)龐大且知識結構復雜的特性,存在著如工序流程和工藝制造知識等事理知識,同時也存在大量的定量知識。事件之間存在著大量的事理邏輯關系,而不同角色本體構造提出的需求也不盡相同。引入知識圖譜技術,將工廠車間、人工資源、物料組件、設備制具、工藝流程、故障等制造業(yè)的基礎數(shù)據(jù)進行知識分類和建模,通過對知識的抽取,對定量知識與事理知識的融合以及對實體之間復雜關系的挖掘,構建制造業(yè)知識服務平臺,建立產(chǎn)品規(guī)劃、設計、生產(chǎn)、試制、量產(chǎn)、使用、服務、營銷和企業(yè)管理等全生命周期的互聯(lián),還能融合環(huán)境、焚燒、水務、模具、能源管理等多個相關行業(yè)的知識內容,通過快速搜索和推理關系中的趨勢、異常和共性更好地組織、管理和理解制造業(yè)體系的內部聯(lián)系,將知識轉化為決策依據(jù),破除產(chǎn)品封閉式的重復研發(fā)實現(xiàn)創(chuàng)新,進行全流程多方面的協(xié)調管控,提高制造流程中問題的預見和解決能力,提升資源管理能力、生產(chǎn)效率和產(chǎn)品質量。

興業(yè):智慧建筑知識圖譜應用場景

集合構建以BIM數(shù)據(jù)與規(guī)范為主的建筑工程行業(yè)知識圖譜

  當前建筑行業(yè)仍是勞動力密集型行業(yè),擁有動態(tài)且復雜的行業(yè)結構。根據(jù)不同項目類型、項目階段和項目目標,將項目過程中不斷重復的知識、使用知識本體的方式進行組織化的設計和管理,以實現(xiàn)從圖紙設計、審圖、施工、驗收到樓宇運維全流程內知識的重復使用和組織化管理,是建筑行業(yè)實現(xiàn)智能化的目標。當前建筑信息模型(BIM, BuildingInformation Modelling)從工程實踐到管理理念上都在給建筑業(yè)與施工業(yè)帶來不同程度的變革。作為含有豐富語義信息的三維模型載體,BIM的屬性與信息體系包含了建筑的空間幾何信息、屬性信息等,是實體建筑的數(shù)字化表達,具有真實性和全面性的特點都可以有效分類和聚集成為若干知識本體,結合知識圖譜的知識抽取、知識融合及知識加工等構建技術,集合成以BIM數(shù)據(jù)與規(guī)范為主的建筑工程行業(yè)知識圖譜,從而提升設計階段BIM審圖規(guī)范與效率、輔助施工階段質量管理與決策、改善運維階段數(shù)據(jù)流轉與分析能力。

智融:智能風控與信用評估

知識圖譜與機器學習相結合,重塑金融領域智能風控過程

  無論是傳統(tǒng)金融或是互聯(lián)網(wǎng)金融領域,信用評估、反欺詐和風險控制都是最為關鍵的環(huán)節(jié),隨著近些年金融數(shù)據(jù)的爆發(fā)式增長,傳統(tǒng)風控系統(tǒng)逐漸力有不逮,而應用機器學習算法和知識圖譜的智能風控系統(tǒng)在風險識別能力和大規(guī)模運算方面具有突出優(yōu)勢,逐漸成為金融領域風控反欺詐的主要手段。機器學習和知識圖譜相結合是目前主流的解決方案。

  機器學習算法通過概率計算的方式,以數(shù)學運算特征反應風險情況,形成易于機器計算的風控模型;而知識圖譜通過權威經(jīng)驗和規(guī)則創(chuàng)建本體模型和抽取實體的范圍,根據(jù)實體間關系形成關聯(lián)數(shù)據(jù)網(wǎng)的圖譜形式,打通相關數(shù)據(jù),動態(tài)、實時地描畫囊括個人基礎信息、金融行為、社交網(wǎng)絡行為等用戶綜合畫像,并結合業(yè)務場景,根據(jù)畫像的情況與模型對應,形成具有金融業(yè)務特性的風控體系,在解決方案的決策環(huán)節(jié)結合規(guī)則和概率的綜合評價,給出最終的風險評估,整個過程能夠實現(xiàn)秒級響應。知識圖譜的應用不僅能夠為缺乏可解釋性的機器學習算法帶來必要的參考系,還可以串聯(lián)金融業(yè)務中產(chǎn)生的大量多源異構數(shù)據(jù)形成知識庫或知識中臺,挖掘數(shù)據(jù)深層價值,為實現(xiàn)標簽體系構建、投資關系梳理、產(chǎn)業(yè)鏈風險預警、智能催收等上層應用打下基礎。

智融:智能投資研究顧問

通過自動抓取和產(chǎn)業(yè)鏈關系推理解決投研領域痛點

  對一級或二級市場的投資研究,一直是泛金融領域重要的課題,上市公司或一些重要的標的公司在公開網(wǎng)絡中披露了眾多如財務數(shù)據(jù)、定期公告、公司研報等有價值的信息,為投資者行為提供了充分的參考依據(jù)。傳統(tǒng)投研工作需要分析師通過各種渠道搜集和判別信息,憑借個人經(jīng)驗對零散的數(shù)據(jù)進行組織建模,以報告的形式產(chǎn)出趨勢觀點和數(shù)據(jù)分析,大部分的物料和時間成本都花費在信息和數(shù)據(jù)的搜集上,加之金融資訊信息時效性極強,成果可控性不高,縱使頭部金融數(shù)據(jù)機構提供了相應的軟件產(chǎn)品,但數(shù)據(jù)的顆粒度和產(chǎn)業(yè)鏈關聯(lián)性仍難以滿足多元需求。此外,金融行業(yè)人才流動快,專精于某一領域的分析師一旦離職,將直接影響這個行業(yè)分析的延續(xù)。

  利用NLP技術自動抓取關鍵信息,搭建投研領域知識圖譜,能減少基礎數(shù)據(jù)處理的工作,將各個行業(yè)的發(fā)展變化抽象導入數(shù)字層面,為知識查詢和應用開發(fā)提供實現(xiàn)基礎。由于券商研報中80%的數(shù)據(jù)指標在傳統(tǒng)軟件產(chǎn)品中無法被查詢,分析師在進入一個新領域時要耗費大量時間搜集類似數(shù)據(jù),知識圖譜投研產(chǎn)品可以大大縮短這一必要勞動時間,大幅提高投研效率。除靜態(tài)領域圖譜外,基于時間序列還能搭建對網(wǎng)絡報道、新聞事件進行抓取的事理圖譜,兩相結合,從行業(yè)固有邏輯和實時信息雙管齊下,推導事情的發(fā)展脈絡和趨勢走向,梳理關聯(lián)脈絡,為后續(xù)判斷投資機會等研判類應用提供數(shù)據(jù)支撐。

四、知識圖譜應用展望

創(chuàng)新的知識圖譜形態(tài)

構建多模態(tài)知識圖譜,拓展知識圖譜的應用場景和領域

  單模態(tài)交互技術是弱人工智能時代典型的代表特征,集中在單一模態(tài)的感知技術給智能機器產(chǎn)品帶來了很多的局限性,個體從感知到認知外界進而形成知識的過程,通常需要多種感官同時對信息進行處理和融合。當前知識圖譜技術已經(jīng)被廣泛用于處理結構化數(shù)據(jù)和文本數(shù)據(jù),但對于視覺、聽覺數(shù)據(jù)等的關注度相對較低,且目前仍缺乏有效的技術手段來從這些數(shù)據(jù)中抽取知識。如果在更大范圍內進行鏈接預測和實體對齊,進而進行實體關系抽取,能使現(xiàn)有的模型在綜合考慮文本和視覺特征時獲得更好的性能。傳統(tǒng)的知識圖譜構建將不同模態(tài)的數(shù)據(jù)分別完成抽取再通過圖譜融合來形成最后的多模態(tài)圖譜,但從源頭上沒有考慮不同模態(tài)特征之間的依賴和對應關系,使知識融合的最終結果無法很好地刻畫多模態(tài)數(shù)據(jù)本身蘊含的各種關聯(lián)。多模態(tài)知識圖譜為每種模態(tài)(如圖像、文本)構建一個特征表示,將不同模態(tài)的嵌入映射到同一個嵌入空間,以實現(xiàn)最大化鏈接節(jié)點的嵌入之間的相似性,以及最小化未鏈接節(jié)點的嵌入,使邊在相同模態(tài)內的兩個節(jié)點之間以及來自不同模態(tài)的節(jié)點之間。即多模態(tài)知識圖譜在傳統(tǒng)知識圖譜的基礎上,把多模態(tài)化的認知體驗與相應的符號關聯(lián),構建多種模態(tài)下的實體,以及多模態(tài)實體間多種模態(tài)的語義關系,即使得圖譜本身一開始就具備多模態(tài)的特性。

知識圖譜與區(qū)塊鏈技術結合發(fā)展

優(yōu)化知識來源管理、知識儲存和更新、知識產(chǎn)權保護

  區(qū)塊鏈技術的最關鍵特征為去中心化,即不依靠中心管理節(jié)點,讓每個個體都有機會成為中心,能實現(xiàn)數(shù)據(jù)的分布式記錄、存儲和更新。在知識圖譜中運用區(qū)塊鏈技術能實現(xiàn)多節(jié)點知識輸入、儲存和更新,使開放鏈接知識庫在更多分布節(jié)點獲取知識,鼓勵更多人群、特別是那些具有專業(yè)領域知識的人共同來參與知識圖譜的搭建,實現(xiàn)知識量的進一步充實。實現(xiàn)去中心化還能解決容錯性問題,提升系統(tǒng)的抗攻擊性,使知識圖譜或知識管理平臺不太可能因為某一個局部的意外故障而停止工作,任何一個節(jié)點受到攻擊也不會使整個系統(tǒng)造成癱瘓。區(qū)塊鏈技術還具有開放性的特性,將知識圖譜與區(qū)塊鏈技術相結合,使知識圖譜記錄的數(shù)據(jù)不可逆,也不可篡改,在系統(tǒng)層面上實現(xiàn)信息的公開,每次記錄或標注的數(shù)據(jù)和知識都能追溯到源頭,對偽造所有權的行為也能提供完整的證據(jù)鏈,實現(xiàn)知識確權,即知識在被多層轉讓后仍可追溯到相應原始知識貢獻者,知識貢獻者的知識產(chǎn)權受到更有力保護。區(qū)塊鏈技術的另一特性是透明性,數(shù)據(jù)對所有人公開,任何人都可以通過公開的接口查詢區(qū)塊鏈上的數(shù)據(jù)和基于數(shù)據(jù)開發(fā)相關應用,整個平臺信息高度透明,為搭建完成后的知識圖譜加強了可查詢性和應用性。另外,知識的貢獻不僅僅應該被記錄,而應該被更多的激勵,區(qū)塊鏈的激勵機制使得知識貢獻者的數(shù)字化資產(chǎn)可以被交易,實現(xiàn)知識變現(xiàn)的效果,提升知識貢獻的積極性。

五、人工智能新基建下城市創(chuàng)新場景

人工智能“新基建”下城市創(chuàng)新場景

智慧交通:蘇州交警5A計劃

  城市是基礎設施建設的核心載體,城市智慧化建設是新基建價值實現(xiàn)的重要需求領域。數(shù)據(jù)是城市治理最重要的資源之一,新基建的各個領域中,5G使數(shù)據(jù)傳輸實現(xiàn)跳躍式發(fā)展,滿足更多應用場景;物聯(lián)網(wǎng)采集海量數(shù)據(jù),并根據(jù)反饋提供命令執(zhí)行支持;云計算提供計算存儲等基礎服務,為大規(guī)模軟硬件、數(shù)據(jù)的操作和管理提供平臺;而人工智能技術尤其是通過對知識圖譜的應用,能對城市生活中的衣、食、住、行數(shù)據(jù),城市管理中的行政管理、公共事業(yè)管理、勞動與社會保障、土地資源管理等數(shù)據(jù)進行分析和挖掘,建成易于組織、管理和利用的動態(tài)知識庫,提升城市治理效率。

  “蘇州交警5A計劃”依托人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、視頻識別、移動互聯(lián)網(wǎng)等現(xiàn)代信息技術,使交警自有數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)及其他部門數(shù)據(jù)實現(xiàn)匯聚共享,解決了城市外場設備多、應用效率低、數(shù)據(jù)獨立分散、信控手段單一落后等問題。“蘇州交警5A計劃”在全市信號控制路口達5887個,聯(lián)網(wǎng)率達81.1%,實現(xiàn)交通狀態(tài)精準感知、交通擁堵成因深度挖掘、交通事件研判預測、交通信號實時優(yōu)化等功能,2019年全市交通死亡事故起數(shù)和死亡人數(shù)同比下降13.67%、13.21%。

  來源:艾瑞咨詢

(轉載)

標簽:人工智能 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質領航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]