日本免费A级毛一片_99久久综合狠狠综合久久_成年女人色毛片_亚洲av午夜福利精品一区二区

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

淺談智能文檔處理技術與應用

來源:易道博(bo)識(shi) 發布時間:2023-04-26
智能文檔(dang)處理介紹
智能(neng)(neng)文(wen)檔(dang)處(chu)理(IDP)是利用人工智能(neng)(neng)技術(shu),自動從復雜的非結構化和半結構化文(wen)檔(dang)中抽(chou)取(qu)關鍵數(shu)據(ju),并將其轉換成結構化數(shu)據(ju)的技術(shu)。IDP又稱為認知數(shu)據(ju)處(chu)理(Cognitive Data Processing)或(huo)智能(neng)(neng)數(shu)據(ju)捕獲(Intelligent Data Capturing)技術(shu)。
眾所周知,商業(ye)(ye)數據(ju)是企(qi)(qi)業(ye)(ye)數字化(hua)轉型的(de)核心。然而,現(xian)實(shi)中(zhong)80%的(de)商業(ye)(ye)數據(ju)都是非結構化(hua)格(ge)式,比(bi)如郵件、圖片和(he)各種企(qi)(qi)業(ye)(ye)文檔(dang),其中(zhong)非結構化(hua)文檔(dang)占據(ju)了(le)絕大多數。據(ju)統計,到2025年,全球企(qi)(qi)業(ye)(ye)數據(ju)總量將達到175ZB。借助(zhu)于IDP技術,企(qi)(qi)業(ye)(ye)能(neng)夠實(shi)現(xian)文檔(dang)自動化(hua)處理、文檔(dang)語義理解、智能(neng)審核和(he)數據(ju)智能(neng)分(fen)析等方面的(de)功能(neng),提(ti)升企(qi)(qi)業(ye)(ye)用戶文檔(dang)處理的(de)效率和(he)質量,為企(qi)(qi)業(ye)(ye)降(jiang)本增效。
智(zhi)能(neng)文檔處理難(nan)點(dian)
從(cong)文檔的結(jie)構特(te)點上,我們(men)可以將現實世界的文檔劃分為(wei)結(jie)構化(hua)(hua)、半結(jie)構化(hua)(hua)和非結(jie)構化(hua)(hua)三種(zhong)類(lei)型(xing)。對應(ying)到版(ban)式(shi)特(te)征上,分別是固(gu)定版(ban)式(shi)、多(duo)版(ban)式(shi)和開放版(ban)式(shi)三種(zhong)類(lei)型(xing)。
結構化(hua)文檔具有版式固定的特(te)點,同(tong)一類型不(bu)(bu)同(tong)樣本之(zhi)間沒有差(cha)異(yi),如(ru)固定版式的信息采集表(biao)、申請文件等(deng)。半結構化(hua)文檔版式相(xiang)對固定,或稱為(wei)多版式文檔,同(tong)一類型不(bu)(bu)同(tong)樣本之(zhi)間關(guan)鍵內容相(xiang)同(tong),但是(shi)往往內容出(chu)現的位置(zhi)卻(que)不(bu)(bu)同(tong),如(ru)不(bu)(bu)同(tong)供(gong)應商采購的送貨單(dan),每個供(gong)應商都不(bu)(bu)同(tong),但是(shi)其關(guan)鍵內容都包含訂單(dan)號、商品信息等(deng)。
非結構化文檔又稱為開放版式(shi)文檔,通(tong)常沒有顯著的版式(shi)特征,幾(ji)乎是(shi)(shi)純(chun)文本表(biao)(biao)達,雖然表(biao)(biao)達的內容相同,但是(shi)(shi)表(biao)(biao)達方式(shi)卻差異(yi)很大(da)。常見的如合同、簡歷(li)、招標(biao)文件等。
對(dui)于結構化和半(ban)結構化文(wen)檔(dang),由于版式(shi)(shi)相對(dui)固定,當(dang)前行業(ye)內普遍(bian)的做法(fa)是通過模板或(huo)深度學習模型(xing)的方法(fa),完成分(fen)類和信息(xi)抽取等自動化處(chu)理(li),已經能(neng)夠(gou)解決(jue)大(da)多數(shu)應用場景(jing)的問題(ti)。但是,開(kai)放版式(shi)(shi)文(wen)檔(dang),由于其天然的諸(zhu)多難(nan)點,給智能(neng)文(wen)檔(dang)處(chu)理(li)帶來了很大(da)的困難(nan)。如下表,是我們歸(gui)納的開(kai)放版式(shi)(shi)文(wen)檔(dang)處(chu)理(li)的主要(yao)難(nan)點。


表1 開放版(ban)式文檔特點

智(zhi)能文檔處理(li)核心技術
如(ru)表1,相比于純文(wen)(wen)本(ben)或固(gu)定和(he)(he)多(duo)版(ban)式(shi)文(wen)(wen)檔(dang),開(kai)放版(ban)式(shi)文(wen)(wen)檔(dang)處理(li)具有(you)諸多(duo)難點。因此,智(zhi)能(neng)(neng)文(wen)(wen)檔(dang)處理(li)過程必(bi)須綜合(he)應用計算機視覺(CV)、光學字(zi)符(fu)處理(li)(OCR)、文(wen)(wen)檔(dang)解析、自然(ran)語言(yan)處理(li)(NLP)和(he)(he)文(wen)(wen)檔(dang)信息(xi)抽取等關鍵技術,才能(neng)(neng)更(geng)好地實現自動化和(he)(he)智(zhi)能(neng)(neng)化處理(li)。
計(ji)算機視(shi)覺(CV)技(ji)術

CV技術(shu)主要是(shi)對于文檔(dang)圖(tu)(tu)(tu)像(xiang)進(jin)行各種圖(tu)(tu)(tu)像(xiang)處理(li),常見如圖(tu)(tu)(tu)像(xiang)去(qu)噪聲、去(qu)干擾、圖(tu)(tu)(tu)像(xiang)增強、圖(tu)(tu)(tu)像(xiang)壓縮、圖(tu)(tu)(tu)像(xiang)分割等。其處理(li)目的(de)主要是(shi)為后續OCR環節提供(gong)高質量的(de)圖(tu)(tu)(tu)像(xiang)輸入,以提升OCR的(de)性能。同時(shi),利(li)用圖(tu)(tu)(tu)像(xiang)檢測和分割等技術(shu),可以實現(xian)文檔(dang)物理(li)版面解(jie)析(xi)。

  • 光學字符處理(OCR)技術(shu)

OCR是將紙質文(wen)(wen)(wen)檔(dang)、圖片等非數字(zi)化文(wen)(wen)(wen)件中的(de)文(wen)(wen)(wen)字(zi)內容轉換為數字(zi)化格式的(de)技術。當前主流實現上,借助表(biao)格識(shi)別(bie)(bie)、印章(zhang)識(shi)別(bie)(bie)、勾選(xuan)和二維碼識(shi)別(bie)(bie)等技術,在OCR環(huan)節可以實現圖像中所有通用對象(文(wen)(wen)(wen)字(zi)、表(biao)格、印章(zhang)、勾選(xuan)、二維碼、簽名等)的(de)統(tong)一(yi)識(shi)別(bie)(bie)和輸出,作為后(hou)續(xu)智(zhi)能化文(wen)(wen)(wen)檔(dang)處理環(huan)節的(de)輸入。

  • 文(wen)檔解析技(ji)術

文檔(dang)解(jie)析(xi)(xi)是(shi)在文檔(dang)協議解(jie)析(xi)(xi)或OCR處(chu)理的(de)結(jie)果上,通過(guo)版面(mian)分析(xi)(xi)、表(biao)格解(jie)析(xi)(xi)等(deng)技術,實現文檔(dang)物理和邏輯結(jie)構(gou)的(de)解(jie)析(xi)(xi),得到文檔(dang)內容(rong)的(de)統(tong)一表(biao)示(shi)。以此作為進一步文檔(dang)分類、信息抽取和文檔(dang)比(bi)對等(deng)處(chu)理的(de)輸入(ru)(ru)。IDP通常需要能(neng)夠支持(chi)所有格式的(de)文檔(dang)輸入(ru)(ru),包括圖(tu)片、PDF、Word、OFD等(deng),因此,文檔(dang)解(jie)析(xi)(xi)環節(jie)需要能(neng)夠解(jie)析(xi)(xi)以上各種(zhong)格式的(de)輸入(ru)(ru)文件,將其轉換成統(tong)一的(de)表(biao)示(shi)形式,如JSON文件。

  • 自(zi)然語(yu)言(yan)處(chu)理(NLP)
NLP是一(yi)種利(li)用計(ji)算機技(ji)(ji)(ji)術(shu)(shu)(shu)(shu)對(dui)(dui)自然語言進(jin)行(xing)分(fen)(fen)(fen)析(xi)(xi)和處理(li)的(de)(de)(de)技(ji)(ji)(ji)術(shu)(shu)(shu)(shu),常見(jian)的(de)(de)(de)NLP任(ren)務包括分(fen)(fen)(fen)詞(ci)、詞(ci)性標注、句法分(fen)(fen)(fen)析(xi)(xi)、語義(yi)分(fen)(fen)(fen)析(xi)(xi)、文(wen)(wen)(wen)(wen)本分(fen)(fen)(fen)類、信(xin)(xin)息(xi)抽取、文(wen)(wen)(wen)(wen)檔(dang)(dang)摘要、情(qing)感(gan)分(fen)(fen)(fen)析(xi)(xi)等。IDP中主要使(shi)用的(de)(de)(de)NLP技(ji)(ji)(ji)術(shu)(shu)(shu)(shu)包括文(wen)(wen)(wen)(wen)本分(fen)(fen)(fen)類、文(wen)(wen)(wen)(wen)本信(xin)(xin)息(xi)抽取、語義(yi)理(li)解(jie)等。通(tong)常的(de)(de)(de)做法是將(jiang)OCR輸出或文(wen)(wen)(wen)(wen)檔(dang)(dang)協議(yi)解(jie)析(xi)(xi)后的(de)(de)(de)所有文(wen)(wen)(wen)(wen)本塊進(jin)行(xing)拼接,得到文(wen)(wen)(wen)(wen)本序(xu)列,再通(tong)過(guo)文(wen)(wen)(wen)(wen)本分(fen)(fen)(fen)類、信(xin)(xin)息(xi)抽取等技(ji)(ji)(ji)術(shu)(shu)(shu)(shu),實(shi)現文(wen)(wen)(wen)(wen)檔(dang)(dang)的(de)(de)(de)分(fen)(fen)(fen)類和信(xin)(xin)息(xi)抽取。另(ling)外,通(tong)過(guo)NLP技(ji)(ji)(ji)術(shu)(shu)(shu)(shu),也可以對(dui)(dui)文(wen)(wen)(wen)(wen)檔(dang)(dang)進(jin)行(xing)自動摘要、情(qing)感(gan)分(fen)(fen)(fen)析(xi)(xi)和智能問答等處理(li)。
  • 文檔信息抽取
相(xiang)比于純文本,文檔(dang)的(de)最大(da)(da)(da)特點(dian)(dian)是(shi)其(qi)富格(ge)式特點(dian)(dian)。因(yin)此,文檔(dang)中信(xin)息(xi)(xi)抽(chou)取(qu)必須依賴于版(ban)面位置等視覺特征,比如從(cong)(cong)文檔(dang)中的(de)圖表或表格(ge)中抽(chou)取(qu)信(xin)息(xi)(xi),或者從(cong)(cong)特定版(ban)面位置區域的(de)結構化信(xin)息(xi)(xi)塊中抽(chou)取(qu)信(xin)息(xi)(xi)。相(xiang)比于簡(jian)單(dan)地從(cong)(cong)大(da)(da)(da)段文本序列中做(zuo)信(xin)息(xi)(xi)抽(chou)取(qu),文檔(dang)信(xin)息(xi)(xi)抽(chou)取(qu)技術難度(du)更(geng)大(da)(da)(da)。
智(zhi)能文檔處理流程
如(ru)下圖,是(shi)智(zhi)能(neng)文(wen)檔(dang)統(tong)一(yi)處(chu)理流程。

圖(tu)1 智能文檔處理流程

主要包含(han)以下環(huan)節:
  • 文(wen)檔(dang)預處理
該步驟主要針(zhen)對(dui)Word、PDF等(deng)文(wen)檔協議進行解析處理。
  • OCR
通(tong)過(guo)通(tong)用OCR識別(bie)模型,對輸入(ru)的(de)文檔圖像上的(de)文字、印章、簽名、表格(ge)等通(tong)用要(yao)素(su)進行識別(bie),得(de)到文本(ben)和位置,以及(ji)表格(ge)結構(gou)化數(shu)據。
  • 版面分(fen)析
利用版(ban)面分析(xi)技術,定位出文檔圖像上所有的標題(ti)、段落、表(biao)格、圖表(biao)、頁(ye)眉(mei)、頁(ye)腳等版(ban)面信息(xi)。再利用標題(ti)和(he)段落等信息(xi),做文檔邏輯結構(gou)分析(xi),得(de)到(dao)文檔結構(gou)。
  • 信息(xi)抽取(qu)
基于版(ban)面和目(mu)錄分(fen)析的結(jie)果(guo),結(jie)合文檔(dang)協議解析或OCR的結(jie)果(guo),利用自然語言處理等(deng)技術(shu),進行(xing)文檔(dang)關鍵(jian)信息抽取。
  • 信息(xi)校驗
利(li)用(yong)預(yu)設的規則(ze),對抽取出的信(xin)息進行校驗,包括數據格式檢查(cha)、預(yu)設的審閱規則(ze)檢查(cha)等。
智能文檔(dang)處理應(ying)用(yong)場景
主要的智(zhi)能文(wen)檔處(chu)理應用場景(jing)包括:
  • 分類和標(biao)簽(qian)化
通過智能文(wen)檔(dang)(dang)處(chu)理技術,可以對大量文(wen)檔(dang)(dang)進行分類和標簽化,從而實現文(wen)檔(dang)(dang)的快速(su)檢索、內容推薦和歸檔(dang)(dang)處(chu)理等功能。
  • 信息抽取(qu)
智能(neng)文檔(dang)處(chu)理(li)可(ke)以(yi)幫助從文檔(dang)中抽取關鍵信(xin)息,如(ru)關鍵的短語、實體、事件等(deng)。這些信(xin)息在知識圖譜構建、智能(neng)搜索、智能(neng)比對、智能(neng)問答(da)等(deng)應(ying)用場景中具有重(zhong)要的價值。
  • 摘(zhai)要與(yu)生成
利用(yong)智能文檔處理技術(shu),可(ke)以對文檔進行自動摘要(yao),生(sheng)成簡(jian)潔、精煉的摘要(yao)內容。此外(wai),還可(ke)以根據用(yong)戶輸入的關鍵(jian)詞或短語生(sheng)成特定主(zhu)題的文章,以滿(man)足用(yong)戶需求。
  • 問答(da)與對(dui)話
通過智能文(wen)檔處(chu)理技(ji)術,可以構建智能問(wen)答系統,為用(yong)戶提供及時準確的文(wen)檔內容信息。
未(wei)來隨著大模型等人(ren)工智能(neng)技術的不斷發展,智能(neng)文(wen)檔處理將會在各(ge)個行業的應(ying)用場景(jing)中不斷普及化。
賽博智(zhi)能(neng)學習平臺智(zhi)能(neng)文(wen)檔處理
賽博智能(neng)學習(xi)平臺定位于一體化機器學習(xi)訓練平臺,集成了對于結構(gou)化和非結構(gou)文檔的(de)智能(neng)化處(chu)理功能(neng),包括(kuo)智能(neng)文檔分類、文檔解(jie)析(xi)和文檔信息抽取等。能(neng)夠(gou)支持合同、法律文書、招(zhao)投(tou)標(biao)(biao)文件等各種開放版式(shi)長文檔的(de)智能(neng)化處(chu)理。基于平臺自(zi)定義模(mo)(mo)板和自(zi)訓練模(mo)(mo)型(xing)能(neng)力,通過(guo)現場(chang)模(mo)(mo)板定制(zhi)、模(mo)(mo)型(xing)標(biao)(biao)注訓練的(de)方式(shi),能(neng)夠(gou)形成即時可用的(de)文檔AI能(neng)力。
如下圖,是賽博(bo)智(zhi)能學習平臺智(zhi)能文檔處(chu)理的基本(ben)流程。


圖2 賽博智能(neng)學(xue)習平(ping)臺智能(neng)文(wen)檔處理流程

未來,易(yi)道博識將繼(ji)續針對(dui)金融、能(neng)源(yuan)、通信等(deng)行業(ye)(ye)客(ke)戶,在業(ye)(ye)務運(yun)營(ying)、審核和(he)監(jian)督管(guan)理、信息檢索和(he)風險管(guan)理等(deng)場景(jing)下,圍繞數(shu)字化(hua)、自(zi)動化(hua)和(he)智能(neng)化(hua)需求,依托賽博智能(neng)學習平臺,為企(qi)業(ye)(ye)打(da)造強大(da)AI底座(zuo),助力企(qi)業(ye)(ye)建設基于(yu)AI模型全(quan)生(sheng)命(ming)周期的標準(zhun)化(hua)、一體化(hua)生(sheng)產(chan)運(yun)營(ying)體系(xi)。
賽(sai)博智能學(xue)習平臺(tai)以(yi)私(si)有化(hua)部署、現場訓練的形式滿足(zu)客(ke)戶(hu)對數據安(an)全要求(qiu),通過與業務系統深度(du)融合,滿足(zu)各業務場景(jing)在圖(tu)像(xiang)處理、OCR、智能文檔處理和NLP等方向需(xu)求(qiu)。
賽博智能學習平(ping)臺持續(xu)將AI大模型等前沿技(ji)術與(yu)行(xing)業(ye)(ye)數(shu)據深度結合(he),在技(ji)術與(yu)業(ye)(ye)務場景(jing)之間(jian)搭橋鋪路,讓(rang)AI技(ji)術快速在場景(jing)中(zhong)(zhong)落地,在應(ying)用場景(jing)中(zhong)(zhong)產(chan)生價(jia)值,帶動產(chan)業(ye)(ye)發展和升(sheng)級。
在線留言