OCR是最早應(yīng)用于企業(yè)降本增效的AI技術(shù)之一,目前已廣泛應(yīng)用在金融、保險、醫(yī)療、交通、教育等諸多行業(yè)。
OCR是最早應(yīng)用于企業(yè)降本增效的AI技術(shù)之一,可以對企業(yè)在經(jīng)營過程中產(chǎn)生的大量的文檔、表格、圖片等非結(jié)構(gòu)數(shù)據(jù)進行識別與提取,使其快速轉(zhuǎn)變?yōu)橛嬎銠C文字,幫助降低數(shù)據(jù)存儲量、支撐企業(yè)檔案循環(huán)分析。目前已廣泛應(yīng)用在金融、保險、醫(yī)療、交通、教育等諸多行業(yè)。
隨著實踐的不斷深入,企業(yè)對OCR模型的需求呈現(xiàn)越來越多元化的趨勢。以廣東省農(nóng)村信用社聯(lián)合社(以下簡稱“廣東省農(nóng)信聯(lián)社”)的日常業(yè)務(wù)為例,工作人員需要人工識別和錄入大量不同類型的手寫文字,包括辦理存取款業(yè)務(wù)時的簽名識別、預(yù)留簽名印鑒的簽名比對、支票、解款、匯款等業(yè)務(wù)的手寫憑證等。
傳統(tǒng)OCR廠商組合式的服務(wù)存在算法普適性不強的問題,當(dāng)面對不同的識別場景,開發(fā)人員需要重新對數(shù)據(jù)進行標(biāo)注并訓(xùn)練一個新的模型,這使得OCR服務(wù)的開發(fā)維護成本居高不下,也無法滿足業(yè)務(wù)快速發(fā)展的要求。
另一方面,缺乏高質(zhì)量的手寫字體標(biāo)注數(shù)據(jù)是提升OCR手寫字體識別模型精度的最大挑戰(zhàn)之一。相較于通用印刷體,手寫字體存在不規(guī)則、連筆、潦草等特點。OCR技術(shù)對手寫字體的識別難度遠(yuǎn)超印刷體。在數(shù)據(jù)方面,對手寫字體的模型訓(xùn)練也無法參照印刷體的訓(xùn)練方式,即通過大量合成數(shù)據(jù)提高算法精度。
為解決廣東省農(nóng)信聯(lián)社面臨的業(yè)務(wù)需求多元化、數(shù)據(jù)量少的難題,華為云盤古金融OCR大模型通過獨有的對比學(xué)習(xí)與掩膜圖像建模相融合的自監(jiān)督學(xué)習(xí)方法,能夠?qū)W習(xí)并充分利用大規(guī)模的無標(biāo)簽OCR數(shù)據(jù),只需要傳統(tǒng)方式十分之一的標(biāo)注量,就可以訓(xùn)練出高精度的手寫字體識別模型。在華為云與廣東省農(nóng)信聯(lián)社的聯(lián)創(chuàng)實踐項目中,相較業(yè)界的小模型開發(fā)方式,盤古金融OCR大模型可以將字段識別精度從83.9%提升至91.0%。
此外,通過盤古金融OCR大模型,廣東省農(nóng)信聯(lián)社可以實現(xiàn)用一個模型覆蓋多個通用的文字識別場景。例如,在柜面手寫單據(jù)業(yè)務(wù)場景中,盤古金融OCR大模型可以自動識別出日期、賬號、戶名、開戶行、大小寫金額等手寫信息,將原有的“人工錄兩錄一?!焙喕癁椤跋到y(tǒng)自動一錄,人工一錄一?!薄τ诠裢馇?、VTM/STM上無紙化的簽字圖片,盤古金融OCR大模型可以識別簽名的具體文字或簽名的動態(tài)數(shù)據(jù)矢量文件,完成靜態(tài)簽名和動態(tài)簽名對比。
華為云盤古金融OCR大模型已在十一項經(jīng)典數(shù)據(jù)集(如IIIT5K, SVT, IC13, IC15, SVTP, CUTE等)測試中取得顯著的精度提升。與原本領(lǐng)先的文字識別算法相比,盤古金融OCR大模型的精度平均提升5%以上。
面對當(dāng)下越來越廣泛的移動辦公場景,業(yè)界移動端OCR算法普遍以犧牲算法精度的方式換取運行速度。華為云盤古金融OCR大模型可以平滑蒸餾出體積相差1000倍的大、中、小模型,滿足在多種設(shè)備上高效運行的使用條件,覆蓋金融、零售、電商、地產(chǎn)等行業(yè)的新型單據(jù)、卡證、表格的識別需求。
此外,華為云盤古金融OCR大模型能夠提供二次訓(xùn)練能力,企業(yè)可在通用模型基礎(chǔ)上快速訓(xùn)練出適應(yīng)業(yè)務(wù)場景的新模型,讓企業(yè)自主掌握OCR服務(wù)構(gòu)建能力。降低模型定制成本,縮短業(yè)務(wù)上線周期,幫助更多企業(yè)從傳統(tǒng)人工作業(yè)環(huán)節(jié)中解放出來,創(chuàng)造更大的生產(chǎn)力和價值,為金融行業(yè)數(shù)字化變革注入源動力。
(華為)