siemens x
工業(yè)互聯(lián)網(wǎng)

充分利用人工智能,實(shí)現(xiàn)更為高效的下一代數(shù)據(jù)存儲(chǔ)

2025China.cn   2019年04月17日

——作者:Noam Mizrahi(Marvell CTO辦公室,技術(shù)副總裁兼首席科學(xué)家)

  如今,數(shù)據(jù)生成的速度遠(yuǎn)超人們的想象。在以前,人是數(shù)據(jù)產(chǎn)生的主要來(lái)源;而現(xiàn)在,圖像設(shè)備、傳感器、無(wú)人機(jī)、互聯(lián)汽車、物聯(lián)網(wǎng)設(shè)備及工業(yè)設(shè)備組件等,以多樣的途徑生成各類格式的數(shù)據(jù)。 然而,我們不應(yīng)該將數(shù)據(jù)與信息混為一談,對(duì)兩個(gè)概念進(jìn)行區(qū)分至關(guān)重要。

  從價(jià)值角度衡量,目前僅有一小部分已收集數(shù)據(jù)可稱作是真正的資產(chǎn)。以圖像處理設(shè)備為例,一分鐘時(shí)長(zhǎng)的相關(guān)活動(dòng)于此至關(guān)重要,而非長(zhǎng)時(shí)間的無(wú)關(guān)緊要的視頻片段。以此類推,如果將“數(shù)據(jù)”比作礦山,人人想要挖掘的金塊就是“信息”。將該類數(shù)據(jù)轉(zhuǎn)變成有價(jià)值信息的能力(所謂“挖掘”)稱為“分析”。

圖 1: 2009 年至 2020 年數(shù)據(jù)存儲(chǔ)需求漲幅

  圖 1 所展示的圖表由分析公司 Statista 繪制,顯示了過(guò)去十年間數(shù)據(jù)存儲(chǔ)容量呈現(xiàn)驚人的增長(zhǎng)。據(jù)預(yù)測(cè),截止 2020 年,存儲(chǔ)需求將達(dá)到 42,000 EB以上。但是,絕大多數(shù)的數(shù)據(jù)存儲(chǔ)(大多數(shù)估算顯示占比至少為 80%)毫無(wú)結(jié)構(gòu)化可言,在使用這類數(shù)據(jù)進(jìn)行分析時(shí),無(wú)疑會(huì)帶來(lái)諸多困難。據(jù)估計(jì),僅有 5% 的數(shù)據(jù)存儲(chǔ)可以真正用于分析。如果有一種方式可以使用元數(shù)據(jù)在執(zhí)行分析的環(huán)境中有效描述這類非結(jié)構(gòu)化數(shù)據(jù),則可以用來(lái)分析的數(shù)據(jù)量將顯著增加,企業(yè)所擁有的數(shù)據(jù)可產(chǎn)生的價(jià)值將得到大幅提升。

  人工智能 (AI)是對(duì)現(xiàn)代社會(huì)的各個(gè)領(lǐng)域帶來(lái)重大影響的技術(shù),這些領(lǐng)域包括電子商務(wù)、自然語(yǔ)言翻譯、金融科技、安全、目標(biāo)識(shí)別/檢測(cè)乃至可快速確認(rèn)危及生命癌細(xì)胞位置(或其他異常癥狀)的醫(yī)學(xué)領(lǐng)域。盡管應(yīng)用領(lǐng)域多樣,但它們都有一個(gè)共同點(diǎn):能通過(guò)采用一項(xiàng)可高效掃描大量非結(jié)構(gòu)化數(shù)據(jù)(視頻、文本、聲音、圖像等)并對(duì)其進(jìn)行處理的技術(shù),從而獲取真正的價(jià)值。

  具體而言,Marvell 不僅可以利用人工智能技術(shù)執(zhí)行分析過(guò)程,還可以通過(guò)此技術(shù)前置處理非結(jié)構(gòu)化的原始數(shù)據(jù),以便為其提供標(biāo)記的元數(shù)據(jù),從而采用簡(jiǎn)單又準(zhǔn)確的方式表示這類數(shù)據(jù)。通過(guò)上層分析軟件可以分析此簡(jiǎn)化版數(shù)據(jù)庫(kù)并從中收集有用的信息。在此之前,企業(yè)一直期盼通過(guò)人工智能技術(shù)從其存儲(chǔ)的數(shù)據(jù)中發(fā)掘更多的價(jià)值,但卻始終毫無(wú)頭緒。

  基于上述情況,Marvell 希望生成的元數(shù)據(jù)能夠提升分析軟件運(yùn)行效率,并且將人工智能技術(shù)作為從大量非結(jié)構(gòu)化數(shù)據(jù)庫(kù)中創(chuàng)建元數(shù)據(jù)庫(kù)的工具?,F(xiàn)在只需要將大量數(shù)據(jù)導(dǎo)入人工智能計(jì)算機(jī)中進(jìn)行處理即可。但是,這是否真的是正確的方法?

  如果考慮到現(xiàn)在生成和存儲(chǔ)數(shù)據(jù)的兩種主要方式,即“云端” (‘the Cloud’) 和“邊緣設(shè)備”(‘the Edge’),可以很快聯(lián)想到移動(dòng)這些大量數(shù)據(jù)將產(chǎn)生昂貴費(fèi)用。有了新技術(shù),這些可以得到有效解決。在云端傳輸大量數(shù)據(jù),會(huì)對(duì)數(shù)據(jù)中心構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)設(shè)施帶來(lái)壓力,并會(huì)消耗大量電力及增加延遲水平,從而延長(zhǎng)了整體處理時(shí)間。對(duì)于邊緣設(shè)備而言,不同之處在于可用的計(jì)算機(jī)和電力資源有限。由于所在位置的小型設(shè)備的網(wǎng)絡(luò)功能限制,因此無(wú)法將大量數(shù)據(jù)上傳至云端。在這兩種情況下,最大化操作效率的關(guān)鍵在于盡量減少移動(dòng)數(shù)據(jù)量并使用元數(shù)據(jù)取而代之。

  在來(lái)源處(例如存儲(chǔ)設(shè)備中的數(shù)據(jù)存儲(chǔ)位置)分配元數(shù)據(jù)會(huì)比四處轉(zhuǎn)移數(shù)據(jù)更為高效。固態(tài)硬盤 (SSD)已經(jīng)包含作為計(jì)算機(jī)實(shí)體所需的基本元素。這些設(shè)備通常只能用于與硬盤相關(guān)的操作,但也可以轉(zhuǎn)換其用途,用于與功能相關(guān)的任務(wù)以及負(fù)責(zé)標(biāo)記處理,或通過(guò)集成式硬件/軟件/固件模塊的輔助,實(shí)現(xiàn)上述功能。其中的一種操作模式為使用空閑的硬盤窗口執(zhí)行后臺(tái)映射任務(wù),另外一種方式則為寫入硬盤數(shù)據(jù)時(shí)同時(shí)對(duì)其進(jìn)行處理。如果在存儲(chǔ)位置部署這種加速方式并應(yīng)用于正確的用例中,其益處不僅在于節(jié)約電量及費(fèi)用,還可以盡量減少數(shù)據(jù)移動(dòng)并大幅降低延遲,以及降低整體網(wǎng)絡(luò)流量。此方式固有的可擴(kuò)展性意味著企業(yè)和云服務(wù)提供商利用人工智能技術(shù)可擴(kuò)展其業(yè)務(wù)范圍。

  去年八月在美國(guó)圣克拉拉舉辦的全球閃存峰會(huì)(Flash Memory Summit)上,Marvell 發(fā)表了極具開(kāi)創(chuàng)性的 AI SSD概念驗(yàn)證控制器,展示了如何在不需要訪問(wèn)主機(jī) CPU 處理資源的情況下,有效執(zhí)行數(shù)據(jù)標(biāo)記,同時(shí)避免上述提及的費(fèi)用和延遲問(wèn)題。Marvell 現(xiàn)場(chǎng)向參會(huì)者展示了 Marvell 數(shù)據(jù)中心及使用開(kāi)源 NVIDIA 深度學(xué)習(xí)加速器 (NVDLA) 技術(shù)的客戶端 SSD 控制器 IC 如何繼承受過(guò)訓(xùn)練的人工智能模型,將其編譯到集成式人工智能推斷IP,以及在硬盤中掃描存儲(chǔ)于本地的非結(jié)構(gòu)化數(shù)據(jù)的大型數(shù)據(jù)庫(kù)(例如視頻庫(kù))。由此可生成標(biāo)記并在搜索環(huán)境中創(chuàng)建可代表數(shù)據(jù)的元數(shù)據(jù)庫(kù)。

  如果將檢測(cè)和識(shí)別物體或場(chǎng)景作為目標(biāo),人工智能推斷引擎可掃描存儲(chǔ)于硬盤的視頻文件,并創(chuàng)建可列出其出現(xiàn)時(shí)間點(diǎn)的元數(shù)據(jù)?;谶@項(xiàng)新型人工智能增強(qiáng)存儲(chǔ)技術(shù),可在固態(tài)硬盤中本地存儲(chǔ)元數(shù)據(jù)庫(kù)并可供分析軟件使用。

  當(dāng)執(zhí)法機(jī)構(gòu)在時(shí)長(zhǎng)無(wú)休止的視頻文件中尋找可疑點(diǎn)時(shí),他們可以加載受過(guò)訓(xùn)練的模型。該模型能夠準(zhǔn)確辨別上述可疑點(diǎn)并可在所有適用的視頻內(nèi)容中進(jìn)行推斷,此類推斷可作為后臺(tái)任務(wù)運(yùn)行于所有存儲(chǔ)視頻內(nèi)容的硬盤中。這種方式可以記錄及標(biāo)記上述可疑點(diǎn)的蹤跡,更易于后續(xù)進(jìn)行深入分析。

  同樣,此架構(gòu)會(huì)使類似于后臺(tái)聊天機(jī)器人 (ChatBot)的分析更為高效,此類分析涉及需要掃描聊天機(jī)器人通話的大型數(shù)據(jù)庫(kù)以便改善服務(wù)質(zhì)量。通過(guò)上述做法,可以判斷用戶在何時(shí)對(duì)其收到的回復(fù)感到滿意/生氣,或者通話時(shí)長(zhǎng)是否合適等。創(chuàng)建可追蹤這些判斷標(biāo)準(zhǔn)的人工智能模型后,則可將這些標(biāo)準(zhǔn)編譯到人工智能存儲(chǔ)推斷引擎內(nèi),并離線掃描通話。對(duì)于類似于電視點(diǎn)播(VOD)服務(wù)的個(gè)性化廣告插入、人物/物體搜索及利用數(shù)據(jù)近似度的各種密集型輸入/輸出 (IO-intensive)用例,其也可帶來(lái)明顯的性能優(yōu)勢(shì)。

  在無(wú)需昂貴的定制化 IC 的情況下,Marvell 首創(chuàng)的人工智能 SSD 控制器技術(shù)展示了如何執(zhí)行新型數(shù)據(jù)存儲(chǔ)架構(gòu)以處理難以計(jì)算的“大數(shù)據(jù)”相關(guān)應(yīng)用程序的擴(kuò)數(shù)據(jù)陣列。通過(guò)向市場(chǎng)中已有的固態(tài)硬盤硬件提供更為智能化的附加邏輯的訪問(wèn),可直接處理對(duì)下一代分析工作負(fù)載至關(guān)重要的元數(shù)據(jù)和標(biāo)記,而無(wú)需連接專屬處理資源。

  遵循這種依賴傳統(tǒng)集中式處理的替代策略,可使整個(gè)過(guò)程更為高效。只需占用最少的可用網(wǎng)絡(luò)帶寬,并且不會(huì)發(fā)生瓶頸問(wèn)題。將人工智能加速器直接集成到具有成本效益的固態(tài)硬盤控制器 IC 中,可快速完成分析任務(wù),不僅可以減少處理容量及降低相應(yīng)的電費(fèi)預(yù)算,還可以完全避免從頭開(kāi)發(fā)專屬集成電路芯片(ASIC)的需求。 可編程架構(gòu)的使用為更新所用人工智能模型帶來(lái)諸多便利條件,以便在開(kāi)發(fā)新用例時(shí)隨時(shí)解決任何問(wèn)題。

(轉(zhuǎn)載)

標(biāo)簽:人工智能 Marvell 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]