siemens x
云計(jì)算

降本增效!華為譜寫廣東省農(nóng)信聯(lián)社數(shù)字化轉(zhuǎn)型故事

2025China.cn   2023年02月21日

OCR是最早應(yīng)用于企業(yè)降本增效的AI技術(shù)之一,目前已廣泛應(yīng)用在金融、保險(xiǎn)、醫(yī)療、交通、教育等諸多行業(yè)。

OCR是最早應(yīng)用于企業(yè)降本增效的AI技術(shù)之一,可以對(duì)企業(yè)在經(jīng)營(yíng)過(guò)程中產(chǎn)生的大量的文檔、表格、圖片等非結(jié)構(gòu)數(shù)據(jù)進(jìn)行識(shí)別與提取,使其快速轉(zhuǎn)變?yōu)橛?jì)算機(jī)文字,幫助降低數(shù)據(jù)存儲(chǔ)量、支撐企業(yè)檔案循環(huán)分析。目前已廣泛應(yīng)用在金融、保險(xiǎn)、醫(yī)療、交通、教育等諸多行業(yè)。

隨著實(shí)踐的不斷深入,企業(yè)對(duì)OCR模型的需求呈現(xiàn)越來(lái)越多元化的趨勢(shì)。以廣東省農(nóng)村信用社聯(lián)合社(以下簡(jiǎn)稱“廣東省農(nóng)信聯(lián)社”)的日常業(yè)務(wù)為例,工作人員需要人工識(shí)別和錄入大量不同類型的手寫文字,包括辦理存取款業(yè)務(wù)時(shí)的簽名識(shí)別、預(yù)留簽名印鑒的簽名比對(duì)、支票、解款、匯款等業(yè)務(wù)的手寫憑證等。

傳統(tǒng)OCR廠商組合式的服務(wù)存在算法普適性不強(qiáng)的問題,當(dāng)面對(duì)不同的識(shí)別場(chǎng)景,開發(fā)人員需要重新對(duì)數(shù)據(jù)進(jìn)行標(biāo)注并訓(xùn)練一個(gè)新的模型,這使得OCR服務(wù)的開發(fā)維護(hù)成本居高不下,也無(wú)法滿足業(yè)務(wù)快速發(fā)展的要求。

另一方面,缺乏高質(zhì)量的手寫字體標(biāo)注數(shù)據(jù)是提升OCR手寫字體識(shí)別模型精度的最大挑戰(zhàn)之一。相較于通用印刷體,手寫字體存在不規(guī)則、連筆、潦草等特點(diǎn)。OCR技術(shù)對(duì)手寫字體的識(shí)別難度遠(yuǎn)超印刷體。在數(shù)據(jù)方面,對(duì)手寫字體的模型訓(xùn)練也無(wú)法參照印刷體的訓(xùn)練方式,即通過(guò)大量合成數(shù)據(jù)提高算法精度。

為解決廣東省農(nóng)信聯(lián)社面臨的業(yè)務(wù)需求多元化、數(shù)據(jù)量少的難題,華為云盤古金融OCR大模型通過(guò)獨(dú)有的對(duì)比學(xué)習(xí)與掩膜圖像建模相融合的自監(jiān)督學(xué)習(xí)方法,能夠?qū)W習(xí)并充分利用大規(guī)模的無(wú)標(biāo)簽OCR數(shù)據(jù),只需要傳統(tǒng)方式十分之一的標(biāo)注量,就可以訓(xùn)練出高精度的手寫字體識(shí)別模型。在華為云與廣東省農(nóng)信聯(lián)社的聯(lián)創(chuàng)實(shí)踐項(xiàng)目中,相較業(yè)界的小模型開發(fā)方式,盤古金融OCR大模型可以將字段識(shí)別精度從83.9%提升至91.0%。

此外,通過(guò)盤古金融OCR大模型,廣東省農(nóng)信聯(lián)社可以實(shí)現(xiàn)用一個(gè)模型覆蓋多個(gè)通用的文字識(shí)別場(chǎng)景。例如,在柜面手寫單據(jù)業(yè)務(wù)場(chǎng)景中,盤古金融OCR大模型可以自動(dòng)識(shí)別出日期、賬號(hào)、戶名、開戶行、大小寫金額等手寫信息,將原有的“人工錄兩錄一?!焙?jiǎn)化為“系統(tǒng)自動(dòng)一錄,人工一錄一校”。對(duì)于柜外清、VTM/STM上無(wú)紙化的簽字圖片,盤古金融OCR大模型可以識(shí)別簽名的具體文字或簽名的動(dòng)態(tài)數(shù)據(jù)矢量文件,完成靜態(tài)簽名和動(dòng)態(tài)簽名對(duì)比。

華為云盤古金融OCR大模型已在十一項(xiàng)經(jīng)典數(shù)據(jù)集(如IIIT5K, SVT, IC13, IC15, SVTP, CUTE等)測(cè)試中取得顯著的精度提升。與原本領(lǐng)先的文字識(shí)別算法相比,盤古金融OCR大模型的精度平均提升5%以上。

面對(duì)當(dāng)下越來(lái)越廣泛的移動(dòng)辦公場(chǎng)景,業(yè)界移動(dòng)端OCR算法普遍以犧牲算法精度的方式換取運(yùn)行速度。華為云盤古金融OCR大模型可以平滑蒸餾出體積相差1000倍的大、中、小模型,滿足在多種設(shè)備上高效運(yùn)行的使用條件,覆蓋金融、零售、電商、地產(chǎn)等行業(yè)的新型單據(jù)、卡證、表格的識(shí)別需求。

此外,華為云盤古金融OCR大模型能夠提供二次訓(xùn)練能力,企業(yè)可在通用模型基礎(chǔ)上快速訓(xùn)練出適應(yīng)業(yè)務(wù)場(chǎng)景的新模型,讓企業(yè)自主掌握OCR服務(wù)構(gòu)建能力。降低模型定制成本,縮短業(yè)務(wù)上線周期,幫助更多企業(yè)從傳統(tǒng)人工作業(yè)環(huán)節(jié)中解放出來(lái),創(chuàng)造更大的生產(chǎn)力和價(jià)值,為金融行業(yè)數(shù)字化變革注入源動(dòng)力。

(華為)

標(biāo)簽:華為 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]