777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

壹沓AI觀察:如何基于NLP(BERT)提高OCR精度

譯文 收藏 評論
舉報(bào) 2020-08-17

公號前綴圖.gif

光學(xué)字符識別(OCR)是一種從掃描的文檔中提取數(shù)據(jù)的技術(shù),目前廣泛應(yīng)用于各類對接傳統(tǒng)政務(wù)、商務(wù)的機(jī)器人流程自動(dòng)化領(lǐng)域,該技術(shù)準(zhǔn)確性取決于輸入圖像的質(zhì)量。壹沓科技認(rèn)識到OCR在實(shí)際的應(yīng)用中面臨的一個(gè)重要挑戰(zhàn)為:當(dāng)字符級精度稍微下降時(shí),字級精度下降顯著。相關(guān)研究表明:當(dāng)字符級精度達(dá)到98%時(shí),OCR技術(shù)提取的錯(cuò)誤單詞將達(dá)到10-20%。正如下圖所示。

▲Yalniz,Ismet和Manmatha,R.的一種用于自動(dòng)OCR評估書的快速對齊方案

壹沓科技的認(rèn)知智能平臺CubeCognition正在使用NLP(Natural Language Processing)技術(shù)增強(qiáng)OCR的處理精度,可以很大程度解決上述問題。在面向數(shù)字機(jī)器人(CubeRobot)流程自動(dòng)化研發(fā)和互聯(lián)網(wǎng)大數(shù)據(jù)文本挖掘的企業(yè)服務(wù)和實(shí)踐的過程中,我們除了借助傳統(tǒng)的基于大文本統(tǒng)計(jì)詞頻模型的NLP技術(shù)外,也在探索利用最新深度學(xué)習(xí)成果的方法。本文將介紹國外Statestitle公司的經(jīng)驗(yàn),如何在實(shí)際場景的文檔OCR過程中使用Spell Checker和BERT1(預(yù)訓(xùn)練的NLP模型)來提高OCR的精度。

▲OCR-BERT 管道

BERT(Bidirectional Encoder Representions from Transformers)是Google開發(fā)的一種自然語言處理技術(shù),并使用Wikipedia(2.5B個(gè)單詞+ BookCorpus(800M個(gè)單詞)對BERT模型進(jìn)行了訓(xùn)練。該模型可用于各種NLP任務(wù),包括句子預(yù)測,句子分類和遺漏單詞預(yù)測。本文將通過PyTorch使用預(yù)訓(xùn)練的BERT模型來糾正OCR技術(shù)提取的錯(cuò)誤單詞。

▲Google BERT目前支持90多種語言

使用BERT提高OCR處理的準(zhǔn)確

本文列舉一個(gè)帶有代碼的示例。該示例使用python處理掃描的圖像并使用OCR和BERT創(chuàng)建文本文檔。

A.使用OCR技術(shù)處理掃描圖像 


▲帶有錯(cuò)誤的單詞的OCR輸出

B.處理文件并識別不可讀的單詞

SpellChecker 函數(shù)將拼寫錯(cuò)誤的單詞識別出來,并且使用不常見的名稱為其打上標(biāo)記。本文使用nltk的‘詞性’標(biāo)簽排除人名來識別該類單詞。為了從BERT獲得預(yù)測,每個(gè)不正確的單詞都需要替換為[MASK]令牌。最后,將來自SpellChecker的建議替換單詞存儲(chǔ)在建議單詞列表里。

壹沓科技在中文環(huán)境的實(shí)踐中表明這個(gè)方式作用于中文的單字效果也是十分顯著的。

▲單詞不正確的文檔被[MASK]替換

C.加載BERT模型并預(yù)測替換單詞

BERT模型尋找[MASK]令牌,然后根據(jù)序列中其他未屏蔽單詞提供的上下文,嘗試預(yù)測被屏蔽單詞的原始值。BERT還接受分段嵌入,分段嵌入指的是用于區(qū)分多個(gè)句子并協(xié)助單詞預(yù)測的向量。例如 “Tom went to store. He bought two gallons of milk.”的段向量可以為 [0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]。

▲BERT 預(yù)測

D.使用SpellChecker的建議優(yōu)化BERT預(yù)測

BERT預(yù)訓(xùn)練語言模型對于預(yù)測被屏蔽單詞的多個(gè)可行替換非常有用,但是該模型不知道OCR發(fā)現(xiàn)的任何字符。我們可以通過SpellChecker的建議單詞列表來彌補(bǔ)這種不足,該單詞列表包含了OCR輸出亂碼。與僅依靠BERT相比,將BERT的基于上下文的建議與SpellChecker的基于單詞的建議結(jié)合起來可以產(chǎn)生更好的預(yù)測。

▲最終輸出,帶有來自BERT和SpellChecker的正確單詞的文本


總結(jié)

BERT語言模型很好地預(yù)測了被屏蔽單詞的可行替換。在上面的示例中,當(dāng)要求預(yù)測“conmer”的掩蓋值時(shí),模型建議使用“consumer”,“goverment”,“business”作為可行選擇,盡管這些建議都有意義,但“consumer ”的輸出概率最高。如果沒有SpellChecker來增加BERT的結(jié)果,我們可能會(huì)對屏蔽單詞進(jìn)行錯(cuò)誤分類。

本文使用的方法適用于單詞而不是數(shù)字。如需處理數(shù)字的話要使用其它方法(諸如校驗(yàn)和之類的方法)。與單獨(dú)使用SpellChecker相比,本文還建議使用特定的‘錯(cuò)誤/建議’標(biāo)識。

通過壹沓科技的項(xiàng)目實(shí)踐,也可以得到類似的結(jié)果,在漢字的處理過程中,由于書面文件在字體、污漬、褶皺等原因,給識別精度也造成了一定的挑戰(zhàn),解決此類問題一方面可以采用類似本文提到的OCR后處理糾錯(cuò)的方案,另一方面也可以在OCR處理內(nèi)部增強(qiáng),OCR過程中會(huì)得到字塊所對應(yīng)漢字的的可選項(xiàng),一般也是以圖形識別的概率排序后輸出,如果對于置信度低于一定閾值的字符,通過MASK的方法,同時(shí)讓BERT根據(jù)上下文的關(guān)系來預(yù)測被掩蓋的錯(cuò)誤漢字,我們也會(huì)同步得到一些來自語義關(guān)系的可行選項(xiàng)概率排序表。也就是說前者是通過圖像處理的原理得到的可行選項(xiàng),后者是根據(jù)語義關(guān)系得到的可行選項(xiàng),兩類選項(xiàng)通過交叉對比,便可以得到更為準(zhǔn)確的最終結(jié)果。

注:本文案例部分源自  

https://www.statestitle.com/resource/using-nlp-bert-to-improve-ocr-accuracy/

作者:Ravi Ilango

關(guān)于壹沓科技

壹沓科技成立于2016年11月,聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用,我們在自然語言處理-NLP、圖像文字識-OCR、知識圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機(jī)器人流程自動(dòng)化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力,已獲得軟件知識產(chǎn)權(quán)數(shù)十個(gè)。
公司核心的業(yè)務(wù)包括數(shù)字機(jī)器人產(chǎn)品(矩陣數(shù)字機(jī)器人-Matrix Robot)和互聯(lián)網(wǎng)大數(shù)據(jù)品牌管理(品牌方程-Formula DBM),已經(jīng)為多個(gè)行業(yè)數(shù)百家企業(yè)及政府提供專業(yè)解決方案。

總部位于上海 ,在北京、深圳設(shè)有分公司, 已獲得高新技術(shù)企業(yè)、雙軟及專精特新企業(yè)等專業(yè)認(rèn)證 。核心團(tuán)隊(duì)來自于多家知名上市公司,在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過10年,擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗(yàn)。


本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
轉(zhuǎn)載請?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 承德县| 泗水县| 巢湖市| 英德市| 西平县| 灵宝市| 扶风县| 台中县| 连城县| 北辰区| 灵宝市| 东辽县| 湖北省| 班玛县| 玛曲县| 山阳县| 集贤县| 成安县| 格尔木市| 铜鼓县| 历史| 榕江县| 合肥市| 古浪县| 大厂| 平江县| 德江县| 新和县| 太康县| 梓潼县| 饶河县| 鄂托克旗| 夹江县| 丹江口市| 太康县| 庆云县| 太仆寺旗| 东宁县| 三明市| 收藏| 庄河市|