777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

壹沓AI觀察:文檔智能開放平臺表格抽取綜合評測

譯文 收藏 評論
舉報 2020-12-21

繼上期“Google加入文檔智能化戰局,Document AI離企業還有多遠?”,壹沓科技為行業用戶了解當前市場可公開獲得的文檔智能工具在復雜應用場景下的識別與表單分析實際能力,我們評測比較了七家行業領先中外企業的AI開放平臺中的OCR及表格識別、表單識別功能。

此次壹沓評測使用了目前在線開放的七家OCR及表格表單識別接口,包括Google云新推出的Document AI,微軟Azure云平臺的Form Recognizer,百度AI智能通用表格類OCR,阿里達摩院的表格類OCR,騰訊云表格類OCR,合合表格類OCR和薪火表格類OCR。評測目標是對文字識別準確度,表格抽取完整度,表格結構準確度和鍵值對抽取完整度以及準確度(目前只有Document AI和Form Recognizer有提取鍵值對的功能),通過三項實際場景表單樣本進行測試評價。?????

此次壹沓AI團隊測評結論可以簡單歸結為三句話:

文字識別尚可信賴,表格分割不夠智能,鍵值抽取十分局限。


測評詳情

我們分別從服務可獲得性,業務規模,專項能力等維度從上百家OCR及相關服務提供商中選擇出以下7家AI文檔智能識別開放平臺:

  1. Google推出的Document AI,工具分為general和specialized,general包括Document OCR,Document Splitter和Form Parser,specialized主要是針對domain-specific的文檔,例如收據,發票,W2表格(美國國稅局使用的納稅表格)我們分別測試了Document OCR和Form Parser,前者是針對文檔的內容與結構識別,后者的功能是提取表單中的鍵值對。

  2. Microsoft推出的Form Recognizer(表單識別)可以識別和提取表單文檔中的鍵值對和表數據。它的輸出包含原始文件中的關系的結構化數據。Form Recognizer有內置的預訓練過的模型可以直接調用,其中有針對發票等表單的特定模型。同時Form Recognizer也支持無監督學習使模型無需手動數據標記或密集編碼即可了解布局和現場數據。用戶也可以使用手動標記的數據進行監督學習。用標簽數據訓練的模型可以表現更好,并且可以處理更復雜的文檔。

  3. 百度AI開放平臺提供的OCR接口多達十個大類,總共幾十個針對不同場景的OCR識別,例如,針對汽車場景,教育場景,財務票據等專門定制OCR。此外,百度OCR支持多種語言的高精度整圖文字檢測和識別服務,包括各類印刷和手寫文檔、網絡圖片、表格、數字、二維碼等。

  4. 騰訊云OCR支持20種語言識別,適用于印刷文檔識別、網絡圖片識別、廣告圖文字識別、街景店招牌識別、菜單識別、視頻標題識別、頭像文字識別等場景;支持自動識別語言類型,可返回文本框坐標信息,對于傾斜文本支持自動旋轉糾正。

  5. 阿里達摩院是阿里巴巴全球研究院,成立于2017年,讀光是一款由阿里巴巴集團達摩院團隊打造的OCR云產品,具有完備的圖像文字定位、文字識別和文字理解的技術體系。讀光OCR孵化于阿里巴巴集團內部,為阿里巴巴集團各個BU和業務方提供高性能、高穩定性的文字識別服務,服務的日均訪問量高達上億次。

  6. 合合信息成立于2006年,專注于模式識別OCR(光學字符識別)技術,在OCR、人工智能、手寫識別、圖像處理及自動圖像增強等領域精耕十多年,旗下C端產品名片全能王、掃描全能王等共累計用戶超10億。合合的AI開放平臺專注于圖像文字處理,提供基礎OCR,證件OCR,票據OCR等服務。

  7. 薪火科技成立于2014年1月17日,是專注于人工智能行業解決方案、軟件開發等領域的知名高科技公司。薪火的核心技術OCR識別,人臉識別等圖像識別算法。薪火的表格OCR對表格、文檔、合同等形式的圖片進行識別,生成保留內容格式的word文檔,節省大量人工錄入時間。準確率超過99%,技術實力處于國內領先水平。

測評樣本介紹我們使用了三份樣本來進行測試,分別是大學學生成績單(中文和對照的英文),醫院血液檢驗報告單和海關進口貨物報關單,分別代表了教育、醫療、物流三大行業場景。(如下圖所示)

大學學生成績單樣本特點:文本是掃描件印刷體,文本清晰;無表格線且結構復雜;行與行之間不對齊,內容緊密;列距緊密。

(大學成績單樣本)

醫院血檢報告單的樣本特點:圖片是照片的形式,并不完全整齊;無表格線;表格結構較簡單,列距較成績單樣本寬很多。

(醫院血液檢驗報告單樣本)

海關貨物報關單的樣本特點:文本是掃描件印刷體;表格線清晰;表格是行業規范模板。

(海關貨物報關單樣本)

一、大學學生成績單樣本測試結果

1. Google Document AI實驗結果表明谷歌的文字識別準確度非常高(由于網頁框架限制只截取部分結果),文檔抽取完整度也是最高的,但是對于表格結構識別較差,即使是有表格線的文本結構也無法識別出表格結構。尤其是在識別中文表格時,完全無法識別結構,如圖所示,每一塊區域識別成一段文本。英文的表格識別要稍好一些,但依然存在這類問題,識別結果沒有體現出字段之間的邏輯關系。

(Document OCR區域結構識別結果)

(Document OCR文字識別結果(部分))

(Document OCR英文成績單區域結構識別結果)


Google Form Parser目前還無法識別中文。對于英文文字能全面識別,但是表格數據沒有定位到所有鍵值對。下圖分別是英文成績單key value識別結果。圖中紅框是提取錯誤的地方,Date of Enrollment沒有單獨抽出來,而是跟在了female后面。

(Form Parser英文成績單鍵值對提取結果)

2.Microsoft Azure Form RecognizerForm Recognizer在英文表單的表現是所有公司里最好的,無論是文字識別準確度,表格結構還是鍵值對提取都是最好。但是目前Form Recognizer還無法識別中文。

(圖中是識別英文成績單的鍵值對返回結果)

表格結構是按照cell來返回,基本沒有錯行的情況,但對于無表格線分隔的數據會有幾個字段連在一起的情況。(如下圖所示)

(Form Recognizer英文成績單表格識別結果(部分))

3. 百度表格類OCR百度表格OCR識別的結果分為,header,body和footer三個部分,下圖是識別英文成績單的body部分,結構非常混亂。中文識別的結構性更弱,除了header部分,其余基本不能抽出合理的表格。

(百度表格類OCR英文成績單body部分識別結果)

下圖是識別的表頭,最大的問題是和body部分無法對應。正確的表頭應該是‘course,credit,score,GPA’的格式。

(百度表格類OCR英文成績單header部分識別結果)

Footer的識別效果比前兩者好一些,但也有少量文字識別錯誤

4. 阿里達摩院表格類OCR阿里達摩院的表格識別整體來說是七家公司里表現最不合格的,對于中文成績單,文字識別和結構識別都完全錯誤,可能在字符分割部分算法的魯棒性不足,結果如下圖所示。

(阿里達摩院表格類OCR中文成績單識別結果)

5. 騰訊云表格類OCR騰訊云的文字識別準確度達到OCR服務水準,但獲得的表格結構比較混亂,下圖是界面輸出的部分識別結果,表格結構有錯行錯列的問題占比不小。

(騰訊云表格類OCR中文成績單識別結果(部分))

6. 合合表格類OCR合合的表格OCR可以將文字和表格分開,表格結構基本可以體現出來,沒有出現錯行錯列的問題,但是對于無表格線表格的列切分還存在局部問題,會導致缺少文字。整體文字識別準確度較高,抽取完整度比較高。下圖是中文成績單的識別可視化部分結果,右邊一列由于切割線錯誤導致少了一部分文字。

(合合表格類OCR中文成績單識別結果(部分))

7. 薪火表格類OCR薪火OCR的優勢在于識別準確度很高,基本沒有錯誤,不太需要人工核對,但是對于復雜表格的抽取能力比合合還有相當距離,抽取的表格占比較少,大多數都只是按行返回文字。下圖是中文成績單的識別結果,只識別出圖中一個表格,并且最左邊一列出現錯誤。

(薪火表格類OCR中文成績單識別結果(部分))

二、醫院血液檢驗報告單

1.Google Document AIDocument OCR依然是文字識別準確度很高,箭頭也可以識別出來,但是結構識別要比國內同行距離很大。

(Document OCR醫院報告單區域結構識別結果)

(Document OCR醫院報告單區域結構識別結果)

2. 百度表格類OCR百度OCR對于更簡單的無表格線表格識別依然表現不佳,返回的結果是所有的文字都在一個單元格里。

(百度表格類OCR醫院報告單識別結果)

3. 阿里達摩院表格類OCR和百度OCR一樣,對于結構較簡單的醫院檢查單,依然無法識別結構,返回的直接是一個單元格包含所有內容。

(阿里達摩院表格類OCR醫院報告單識別結果)

4. 騰訊云表格類OCR對于醫院血檢報告單這種列與列之間空間較大的無表格線簡單表格,騰訊OCR識別的準確度較高,但對于提示指標偏離正常區間的剪頭符號也無法識別,部分結構有錯行合并的情況。騰訊OCR返回的結果實際上是JSON,與阿里OCR類似,返回的是每個字段的位置坐標,但是在網頁端顯示的可視化結果里,表前和表后并不是按照位置順序排列。


(騰訊表格類OCR醫院報告單識別結果)


5. 合合表格類OCR醫院檢查單的結果要好于成績單的結果,但依然存在個別問題,例如‘提示’和’參考范圍’合并到一列,文字識別有少于遺漏,箭頭被識別成數字1。


(合合表格類OCR醫院報告單識別結果)

6. 薪火表格類OCR對于簡單表格的識別比成績單要完整很多,但還是存在大量文本識別遺漏的問題。

(薪火表格類OCR醫院報告單識別結果)

三、海關貨品報關單

1. Google Document AI谷歌的對于帶表格線的表格識別依然不理想,從下圖中可以看出完全沒有分割出表格的單元格,中間整個表格(橙色區域部分)被識別成一個整體,鍵值對抽取也因此效果極其有限。單純的OCR文字識別準確度和之前兩份一樣依然很高,但對于印章重疊部分有識別錯誤,當然其他幾家公司的產品對于色彩重疊的字符識別也都有同樣的問題。

(Document OCR海關貨物報關單區域結構識別結果)

(Document OCR海關貨物報關單文字識別結果)

2. 百度表格類OCR百度在識別有表格線中文表單要好于Document AI,但也有部分結構錯誤,例如下圖中,件數和毛重應該是分開的兩個單元格,結果中識別在一個單元格里,對于有表格線但并存在局部單元格分欄的表格,百度的表格切割會出現問題。此外還有一些識別遺漏的問題,并且被印章重疊的部分識別錯誤。

(百度表格類OCR海關貨物報關單識別結果)

  3. 阿里達摩院表格類OCR對于有表格線的文檔,阿里達摩院OCR識別結果比無表格線樣本好很多,返回的JSON文件中按照表格排序,每個表格中按照字段順序排列,并標注字段位置。但對于貨品條目處省略的列分割線,也無法正確理解此類特殊結構。

(阿里達摩院表格類OCR海關貨物報關單識別結果)

 4.騰訊云表格類OCR對于有表格線的識別,騰訊OCR要優于百度OCR和阿里OCR,由于網頁端限制,結果截屏有限,但從圖中我們依然可依然看出騰訊OCR對于件數,毛重的識別是準確分開的,基本還原了原始表格的結構。


(騰訊表格類OCR海關貨物報關單識別結果(部分))

5. 合合表格類OCR對于有表格線的識別,合合返回結果非常好,文字準確率和結構準確率都很高,但依然還有部分問題,就是對于表格下半部分缺少列分隔線的分列識別。表格下半部分實際上是一個只有行表格線沒有列表格線的表格,但是合合沒有識別出隱含的列表格線,這也是目前表格識別都不夠智能的地方。

(合合表格類OCR海關貨物報關單識別結果(部分))

6. 薪火表格類OCR薪火對于表格線文檔識別也非常高,結構上比合合稍差的一點是,對于貨品描述合合是按照原表格結構換行的,但是薪火合成了一個長字符串,加大了后續用戶的切割難度。對于印章重疊的部分,薪火的準確度比合合高一點,但也沒有準確識別出‘如實申報’以及貨品信息。

(薪火表格類OCR海關貨物報關單識別結果)


測評結果匯總

以下三張表是七家公司OCR三個實驗樣本結果整合,其中文字識別準確度是針對識別到的文字準確度(OCR正確文字個數/原文總字數)。表格完整度指識別結果覆蓋表格面積的百分比,表格結構準確度指準確識別表格劃分的單元格內容占比。


整體測評總結

  1. 中英文OCR識別準確度較好的是谷歌,薪火與合合,英文文本的識別準確度整體要高于中文文本。對表格內文字識別而言,表格樣本結構的復雜性和文字密集程度會很大影響文字識別的結果,但識別簡單的表格例如檢驗報告單文字OCR準確度很高。此外印章也會影響顏色重疊部分的識別準確度,盡管人類可以通過觀察識別印章下面的文字,但對于機器來說目前還有難度。整體來說對于結構簡單的表格文檔各家平臺的準確度都可以滿足一般文字提取的要求。

  2. 英文表格結構抽取能力最強的是Azure Form Recognizer,對英語成績單表格幾乎全部識別準確,其次是合合,存在分列不完全的問題,而其他平臺幾乎不能正確切分無格線的英文表格。對于中文表格,合合整體上識別得最好。騰訊,阿里對于簡單的表格或者是表格線清晰的表格識別相對準確,但是對于復雜表格的識別能力較弱。百度對于無表格線的文本識別比例較低,基本無法識別出分隔結構。目前,即便是識別準確度最好的AI平臺,也并不能完整準確地提取出表格結構,如上文所述的大多會忽視隱藏的表格線。現實生活中的表格大多數是半結構化文檔,目前表格類OCR對于這類文檔的理解能力還不能直接滿足用戶使用場景的細致需求。

  3. 由于目前提供文檔鍵值對提取接口的平臺還只有谷歌云和微軟Azure,在英文表單中谷歌和微軟對于表格頭尾部分有鍵值對強特征(如冒號,劃線等)的部分可以達到90%以上的抽取準確度,但對于表格內非常見表格項的各科科目和成績分數的配對完全無能為力。

  4. 綜上所述,目前各個平臺對清晰圖片的文字OCR準確度已經能夠達到可信賴的程度,如果針對個別特殊符號以及印章遮擋部分進行完善優化,就可以達到完全識別的狀態。而對于文檔表格和表單抽取智能化和通用性還遠遠不能達到實用的狀態,目前僅能對表格線完整,分隔規則的表格可高精度結構化抽取。

  5. 所以各個平臺都針對特定應用場景的推出識別模型以支撐最常見的應用需求,例如稅務票據、身份證件、營業證照、名片等特定場景和格式的文檔識別。然而,企業及各類機構所面對的文檔智能化的場景遠遠大于特定的有限類特定格式,如何讓人工智能可以象人類員工一樣高精度地識別各類表單成為行業智能化普及進程中的關鍵一環。


壹沓科技與人工智能同行們正就多場景、通用化的中英文表單自動識別和鍵值抽取任務投入大量的研發資源,并在一些關鍵問題如字符遮擋、表格鍵值對齊不一致、連續文本鍵值抽取中已經取得不小進展。我們堅信——通過有效結合圖像處理、計算機視覺、OCR、NLP及知識圖譜等AI技術,在不遠的將來一定能夠使得文檔智能化在各行各業完整落地,實現高效算力對重復勞動的全面取代。


關于壹沓科技

壹沓科技成立于2016年11月,聚焦于前沿技術在企業數字化中的應用,公司核心業務包括壹沓數字機器人產品-Cube Robot和壹沓品牌方程服務-Formula DBM,已經為多個行業數百家企業及政府提供服務。

我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數據挖掘-Data Mining、機器人流程自動化-RPA和業務流程重構及管理-BPR&BPM等領域具備完整的自主研發能力,已獲得軟件知識產權數十個。

總部位于上海 ,在北京、深圳設有分公司,已獲得高新技術企業、雙軟及專精特新企業等專業認證 。核心團隊來自于多家知名上市公司,在企業服務及互聯網從業超過10年,擁有大數據、云服務及人工智能領域的豐富經驗。

戳“閱讀原文”了解更多精彩內容!

本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 湖北省| 荔波县| 富民县| 府谷县| 张北县| 宝山区| 越西县| 丹巴县| 西乡县| 定州市| 大邑县| 沂源县| 保定市| 合山市| 安达市| 清流县| 常熟市| 津南区| 贡觉县| 淳化县| 包头市| 喀什市| 崇明县| 康定县| 富平县| 冷水江市| 乳源| 微博| 黄梅县| 师宗县| 久治县| 青岛市| 彭山县| 大荔县| 康保县| 车险| 陆良县| 祁阳县| 瑞昌市| 梁山县| 河源市|