日本免费A级毛一片_99久久综合狠狠综合久久_成年女人色毛片_亚洲av午夜福利精品一区二区

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

淺談智能文檔處理技術與應用

來源:易道博識 發(fa)布時間:2023-04-26
智能文檔處理介紹
智能(neng)(neng)文檔處理(IDP)是(shi)利用(yong)人工智能(neng)(neng)技(ji)術(shu),自(zi)動從(cong)復雜的(de)非結(jie)構化和半結(jie)構化文檔中(zhong)抽(chou)取關鍵數(shu)據(ju),并將(jiang)其轉換成結(jie)構化數(shu)據(ju)的(de)技(ji)術(shu)。IDP又稱為認知數(shu)據(ju)處理(Cognitive Data Processing)或智能(neng)(neng)數(shu)據(ju)捕獲(Intelligent Data Capturing)技(ji)術(shu)。
眾(zhong)所(suo)周知,商(shang)業(ye)數(shu)(shu)據(ju)(ju)是企(qi)(qi)業(ye)數(shu)(shu)字化(hua)(hua)轉(zhuan)型的(de)核心。然而(er),現實(shi)中80%的(de)商(shang)業(ye)數(shu)(shu)據(ju)(ju)都是非(fei)結構(gou)化(hua)(hua)格式,比如郵件、圖片和(he)(he)(he)各種企(qi)(qi)業(ye)文(wen)(wen)(wen)檔,其中非(fei)結構(gou)化(hua)(hua)文(wen)(wen)(wen)檔占(zhan)據(ju)(ju)了絕大多數(shu)(shu)。據(ju)(ju)統(tong)計(ji),到(dao)2025年,全球企(qi)(qi)業(ye)數(shu)(shu)據(ju)(ju)總量將(jiang)達(da)到(dao)175ZB。借助于IDP技術,企(qi)(qi)業(ye)能(neng)夠實(shi)現文(wen)(wen)(wen)檔自動化(hua)(hua)處理(li)(li)(li)、文(wen)(wen)(wen)檔語義(yi)理(li)(li)(li)解(jie)、智(zhi)能(neng)審(shen)核和(he)(he)(he)數(shu)(shu)據(ju)(ju)智(zhi)能(neng)分(fen)析等(deng)方面的(de)功能(neng),提(ti)升企(qi)(qi)業(ye)用戶文(wen)(wen)(wen)檔處理(li)(li)(li)的(de)效率(lv)和(he)(he)(he)質量,為企(qi)(qi)業(ye)降(jiang)本增效。
智(zhi)能文檔處理(li)難點
從(cong)文檔(dang)(dang)的結(jie)(jie)(jie)構(gou)特點上,我們可以將現(xian)實(shi)世界的文檔(dang)(dang)劃分(fen)為(wei)結(jie)(jie)(jie)構(gou)化、半結(jie)(jie)(jie)構(gou)化和(he)非結(jie)(jie)(jie)構(gou)化三種類型。對(dui)應(ying)到版式(shi)特征上,分(fen)別是固定(ding)版式(shi)、多版式(shi)和(he)開放版式(shi)三種類型。
結(jie)構化文(wen)檔具有版(ban)(ban)式(shi)(shi)固(gu)(gu)(gu)定(ding)的特點,同一(yi)類型不(bu)同樣本之間沒有差異,如(ru)(ru)固(gu)(gu)(gu)定(ding)版(ban)(ban)式(shi)(shi)的信息(xi)采集表、申(shen)請文(wen)件(jian)等。半(ban)結(jie)構化文(wen)檔版(ban)(ban)式(shi)(shi)相(xiang)對固(gu)(gu)(gu)定(ding),或(huo)稱為多版(ban)(ban)式(shi)(shi)文(wen)檔,同一(yi)類型不(bu)同樣本之間關(guan)鍵內容相(xiang)同,但(dan)(dan)是(shi)往(wang)往(wang)內容出現的位置卻不(bu)同,如(ru)(ru)不(bu)同供應(ying)商(shang)采購的送(song)貨單,每個(ge)供應(ying)商(shang)都不(bu)同,但(dan)(dan)是(shi)其關(guan)鍵內容都包含訂單號(hao)、商(shang)品信息(xi)等。
非(fei)結構化文檔又稱(cheng)為開放版式文檔,通(tong)常沒有顯著(zhu)的(de)(de)版式特(te)征,幾乎(hu)是純文本(ben)表(biao)達,雖(sui)然表(biao)達的(de)(de)內容(rong)相同,但是表(biao)達方式卻差異很大。常見的(de)(de)如(ru)合(he)同、簡歷、招(zhao)標文件(jian)等。
對于結構(gou)化(hua)和半結構(gou)化(hua)文檔(dang),由(you)于版式(shi)相對固(gu)定,當前(qian)行業(ye)內普遍的(de)做法是通過模(mo)板(ban)或深度學習(xi)模(mo)型的(de)方法,完(wan)成(cheng)分類和信(xin)息(xi)抽取(qu)等(deng)自動(dong)化(hua)處(chu)理(li),已經能夠解(jie)決大多數(shu)應用(yong)場景的(de)問題。但是,開放版式(shi)文檔(dang),由(you)于其天(tian)然的(de)諸(zhu)多難(nan)點,給智能文檔(dang)處(chu)理(li)帶來(lai)了很大的(de)困難(nan)。如下表,是我們歸納的(de)開放版式(shi)文檔(dang)處(chu)理(li)的(de)主要難(nan)點。


表(biao)1 開放(fang)版式文檔特(te)點

智能(neng)文檔(dang)處理核心(xin)技(ji)術
如表1,相(xiang)比于純文(wen)本或固定和多(duo)版(ban)式(shi)文(wen)檔,開(kai)放版(ban)式(shi)文(wen)檔處(chu)理具有諸多(duo)難(nan)點(dian)。因此,智能(neng)文(wen)檔處(chu)理過(guo)程必須綜合(he)應用計(ji)算機(ji)視覺(CV)、光(guang)學字(zi)符處(chu)理(OCR)、文(wen)檔解析、自然語言處(chu)理(NLP)和文(wen)檔信息抽取(qu)等關鍵技術,才能(neng)更好地實現自動化和智能(neng)化處(chu)理。
計(ji)算機(ji)視(shi)覺(CV)技術

CV技術主(zhu)要是對于文檔圖(tu)(tu)像(xiang)進行各種圖(tu)(tu)像(xiang)處理,常見如(ru)圖(tu)(tu)像(xiang)去噪(zao)聲、去干擾、圖(tu)(tu)像(xiang)增強(qiang)、圖(tu)(tu)像(xiang)壓縮、圖(tu)(tu)像(xiang)分割等。其處理目的主(zhu)要是為后續OCR環(huan)節(jie)提供高質量(liang)的圖(tu)(tu)像(xiang)輸入,以提升OCR的性(xing)能。同(tong)時(shi),利用圖(tu)(tu)像(xiang)檢測和分割等技術,可(ke)以實現文檔物理版面(mian)解析。

  • 光學(xue)字符處理(OCR)技(ji)術

OCR是(shi)將(jiang)紙質文(wen)(wen)檔(dang)、圖片等非數(shu)字(zi)化文(wen)(wen)件中的(de)(de)文(wen)(wen)字(zi)內容轉(zhuan)換為數(shu)字(zi)化格式的(de)(de)技(ji)術。當前主(zhu)流實(shi)現(xian)上,借助(zhu)表(biao)格識別、印章識別、勾(gou)選和二(er)維碼識別等技(ji)術,在OCR環節可以實(shi)現(xian)圖像中所有通(tong)用對象(文(wen)(wen)字(zi)、表(biao)格、印章、勾(gou)選、二(er)維碼、簽(qian)名等)的(de)(de)統一識別和輸出,作為后續智(zhi)能(neng)化文(wen)(wen)檔(dang)處理(li)環節的(de)(de)輸入。

  • 文(wen)檔解析(xi)技術

文檔(dang)解(jie)析(xi)(xi)是在文檔(dang)協議解(jie)析(xi)(xi)或OCR處理(li)的(de)(de)結果上(shang),通(tong)過版面分析(xi)(xi)、表(biao)格解(jie)析(xi)(xi)等(deng)技術,實現文檔(dang)物理(li)和邏輯結構的(de)(de)解(jie)析(xi)(xi),得到(dao)文檔(dang)內容的(de)(de)統一表(biao)示。以此作為(wei)進一步文檔(dang)分類、信(xin)息抽取和文檔(dang)比對(dui)等(deng)處理(li)的(de)(de)輸(shu)入(ru)。IDP通(tong)常需要(yao)能夠支(zhi)持所有格式的(de)(de)文檔(dang)輸(shu)入(ru),包括圖片、PDF、Word、OFD等(deng),因此,文檔(dang)解(jie)析(xi)(xi)環節需要(yao)能夠解(jie)析(xi)(xi)以上(shang)各種格式的(de)(de)輸(shu)入(ru)文件,將(jiang)其轉換成統一的(de)(de)表(biao)示形式,如JSON文件。

  • 自然語(yu)言處理(NLP)
NLP是(shi)(shi)一(yi)種(zhong)利用計算機(ji)技(ji)術(shu)對自然語(yu)言進行分(fen)(fen)(fen)析(xi)和處理(li)的技(ji)術(shu),常見(jian)的NLP任務包括分(fen)(fen)(fen)詞(ci)、詞(ci)性標注、句法分(fen)(fen)(fen)析(xi)、語(yu)義分(fen)(fen)(fen)析(xi)、文(wen)(wen)(wen)本(ben)分(fen)(fen)(fen)類、信息(xi)抽取(qu)(qu)、文(wen)(wen)(wen)檔(dang)(dang)摘(zhai)要(yao)(yao)、情(qing)感分(fen)(fen)(fen)析(xi)等。IDP中主(zhu)要(yao)(yao)使用的NLP技(ji)術(shu)包括文(wen)(wen)(wen)本(ben)分(fen)(fen)(fen)類、文(wen)(wen)(wen)本(ben)信息(xi)抽取(qu)(qu)、語(yu)義理(li)解等。通(tong)(tong)常的做法是(shi)(shi)將OCR輸出或文(wen)(wen)(wen)檔(dang)(dang)協議解析(xi)后的所有文(wen)(wen)(wen)本(ben)塊(kuai)進行拼接(jie),得到文(wen)(wen)(wen)本(ben)序列(lie),再(zai)通(tong)(tong)過文(wen)(wen)(wen)本(ben)分(fen)(fen)(fen)類、信息(xi)抽取(qu)(qu)等技(ji)術(shu),實現文(wen)(wen)(wen)檔(dang)(dang)的分(fen)(fen)(fen)類和信息(xi)抽取(qu)(qu)。另外,通(tong)(tong)過NLP技(ji)術(shu),也可以對文(wen)(wen)(wen)檔(dang)(dang)進行自動摘(zhai)要(yao)(yao)、情(qing)感分(fen)(fen)(fen)析(xi)和智(zhi)能問答等處理(li)。
  • 文檔信息抽取
相比(bi)于(yu)純(chun)文(wen)本,文(wen)檔(dang)的(de)(de)最大(da)特(te)(te)點(dian)是其富格式特(te)(te)點(dian)。因此(ci),文(wen)檔(dang)中(zhong)信息抽(chou)取(qu)必須依賴于(yu)版面位置等視覺(jue)特(te)(te)征,比(bi)如從文(wen)檔(dang)中(zhong)的(de)(de)圖表或表格中(zhong)抽(chou)取(qu)信息,或者從特(te)(te)定版面位置區域的(de)(de)結構化信息塊中(zhong)抽(chou)取(qu)信息。相比(bi)于(yu)簡單(dan)地從大(da)段文(wen)本序列中(zhong)做信息抽(chou)取(qu),文(wen)檔(dang)信息抽(chou)取(qu)技術難度(du)更大(da)。
智能(neng)文檔處(chu)理(li)流(liu)程
如下圖,是智能文檔統一(yi)處理流程。

圖1 智(zhi)能(neng)文(wen)檔處理流程

主要(yao)包含以(yi)下環節:
  • 文檔預處理
該(gai)步驟主要針對Word、PDF等文(wen)檔協議進行(xing)解(jie)析處理。
  • OCR
通過(guo)通用OCR識(shi)別模型(xing),對輸入的文檔圖像上的文字、印章、簽名(ming)、表格等通用要(yao)素進行識(shi)別,得(de)到文本和位(wei)置,以(yi)及(ji)表格結構(gou)化數據。
  • 版面(mian)分析(xi)
利用版面分析技術,定位(wei)出文檔圖像上(shang)所有的標題(ti)、段落(luo)、表格(ge)、圖表、頁眉、頁腳等版面信息。再(zai)利用標題(ti)和(he)段落(luo)等信息,做文檔邏輯(ji)結(jie)構分析,得到(dao)文檔結(jie)構。
  • 信息抽取
基于版面和目錄分析的結果,結合文檔(dang)協議解(jie)析或OCR的結果,利用自然語言處理等技術,進行文檔(dang)關(guan)鍵信息抽取(qu)。
  • 信息校(xiao)驗
利用(yong)預設(she)的規則(ze),對抽(chou)取(qu)出的信息進行校驗(yan),包括數據格式檢查(cha)、預設(she)的審閱規則(ze)檢查(cha)等(deng)。
智(zhi)能文檔(dang)處理應(ying)用場景
主要的智能(neng)文檔(dang)處理應(ying)用場(chang)景包(bao)括:
  • 分類和標簽化
通過智(zhi)能(neng)文(wen)檔(dang)處(chu)理(li)(li)技術,可(ke)以對大量文(wen)檔(dang)進(jin)行分類和標(biao)簽(qian)化,從(cong)而(er)實現文(wen)檔(dang)的(de)快速檢索、內容推薦和歸(gui)檔(dang)處(chu)理(li)(li)等功能(neng)。
  • 信息抽取
智能文(wen)檔處理(li)可以(yi)幫助從文(wen)檔中(zhong)抽取關鍵信(xin)息(xi),如關鍵的短語、實體、事件(jian)等(deng)。這些信(xin)息(xi)在知識圖譜構建(jian)、智能搜索、智能比對、智能問答(da)等(deng)應(ying)用場景(jing)中(zhong)具(ju)有重要(yao)的價值(zhi)。
  • 摘(zhai)要與生成
利(li)用智能文(wen)檔(dang)處理技(ji)術,可以(yi)對文(wen)檔(dang)進(jin)行自(zi)動(dong)摘(zhai)(zhai)要(yao),生成簡潔、精煉的(de)摘(zhai)(zhai)要(yao)內容。此外,還可以(yi)根(gen)據用戶輸入的(de)關鍵詞或(huo)短語生成特(te)定主題(ti)的(de)文(wen)章(zhang),以(yi)滿足用戶需求。
  • 問(wen)答與(yu)對話
通(tong)過智能文(wen)檔(dang)處理技(ji)術(shu),可(ke)以構(gou)建智能問答系統(tong),為用(yong)戶提供及時(shi)準確的文(wen)檔(dang)內容信(xin)息。
未(wei)來隨著大模(mo)型等(deng)人工智(zhi)能(neng)技(ji)術的(de)不斷(duan)(duan)發(fa)展,智(zhi)能(neng)文檔處理(li)將會在(zai)各個行業(ye)的(de)應用場景中(zhong)不斷(duan)(duan)普及化。
賽博智(zhi)能(neng)學習(xi)平臺智(zhi)能(neng)文檔處(chu)理
賽博智(zhi)(zhi)能(neng)(neng)學習(xi)平臺定(ding)位于(yu)一體化機(ji)器學習(xi)訓(xun)練(lian)(lian)平臺,集成了對于(yu)結構化和(he)非結構文檔(dang)的(de)智(zhi)(zhi)能(neng)(neng)化處理功能(neng)(neng),包括智(zhi)(zhi)能(neng)(neng)文檔(dang)分類、文檔(dang)解析(xi)和(he)文檔(dang)信(xin)息抽取等。能(neng)(neng)夠(gou)支持合同、法(fa)律文書、招投標文件等各種開(kai)放版式(shi)長文檔(dang)的(de)智(zhi)(zhi)能(neng)(neng)化處理。基于(yu)平臺自(zi)定(ding)義模板(ban)和(he)自(zi)訓(xun)練(lian)(lian)模型能(neng)(neng)力(li),通過現場模板(ban)定(ding)制、模型標注訓(xun)練(lian)(lian)的(de)方式(shi),能(neng)(neng)夠(gou)形成即時可用的(de)文檔(dang)AI能(neng)(neng)力(li)。
如下圖(tu),是賽博智能學習平臺智能文檔處理的基本流程。


圖2 賽博智能學習平(ping)臺智能文檔處理流程

未(wei)來,易道博(bo)(bo)識將繼續(xu)針(zhen)對金融、能源、通信(xin)等行業(ye)(ye)客(ke)戶(hu),在業(ye)(ye)務(wu)運營(ying)、審(shen)核和監督管理、信(xin)息檢索(suo)和風險管理等場景下,圍繞數字(zi)化(hua)、自動化(hua)和智能化(hua)需求,依托賽博(bo)(bo)智能學(xue)習平臺,為企(qi)業(ye)(ye)打造強大(da)AI底座(zuo),助力企(qi)業(ye)(ye)建(jian)設基于AI模型(xing)全生(sheng)命周期的標(biao)準化(hua)、一體化(hua)生(sheng)產運營(ying)體系。
賽博智能(neng)學習平臺以私(si)有化部署(shu)、現場訓練的形(xing)式滿足客戶對(dui)數據安全要求,通(tong)過與業務系統深度融合,滿足各業務場景在圖像處(chu)理、OCR、智能(neng)文檔處(chu)理和NLP等(deng)方向需(xu)求。
賽博智(zhi)能學習(xi)平臺(tai)持續(xu)將(jiang)AI大模型等前沿技(ji)術(shu)(shu)與行業數(shu)據深度結合(he),在(zai)技(ji)術(shu)(shu)與業務場(chang)景(jing)(jing)之間搭橋(qiao)鋪路,讓AI技(ji)術(shu)(shu)快速在(zai)場(chang)景(jing)(jing)中(zhong)落地(di),在(zai)應用場(chang)景(jing)(jing)中(zhong)產生價值,帶動產業發展和升級。
在線留言