��ޱ�3p��ߴ̼��Ľ��,��Ʒ�þþþ�Ʒ��

首頁動態資訊行業資訊

大模型技術在智能文檔處理中的應用（下篇）

來源：易道博識發布時間：2023-06-15

一個專業的IDP系統至少需要具備(bei)如下兩方(fang)面的(de)能力，才能夠(gou)滿足(zu)富格式(shi)文檔的(de)智能化處理(li)需求。

具備(bei)多(duo)模態信(xin)息處理能力

由于文檔本身多模(mo)態(tai)的(de)特點，決(jue)定了(le)IDP系統(tong)必(bi)須(xu)能夠綜合應用(yong)計算(suan)機視覺(jue)和(he)自然語言處(chu)(chu)理等(deng)技術，包括圖像處(chu)(chu)理、OCR、表(biao)格識別、文(wen)檔解析(xi)、文(wen)本分析(xi)、文(wen)本理解等(deng)，對(dui)于文(wen)檔中(zhong)的標題、段落、表(biao)格、圖表(biao)、印(yin)章、簽名(ming)等(deng)多模態信息(xi)進行識別、提(ti)取和進一步的理解和分析(xi)。

具(ju)備領域樣本高效(xiao)學習(xi)能(neng)力(li)

由于不同領(ling)(ling)域的文檔特征(zheng)差(cha)異很(hen)大，為(wei)了在領(ling)(ling)域數據上達到業務可用的精度要求，IDP系(xi)統必須具備領域樣本高(gao)效學習能力(li)，能夠生成優化后的模型(xing)，滿(man)足(zu)業(ye)務(wu)場景(jing)應用需求，為實(shi)際業(ye)務(wu)創(chuang)造價(jia)值。

多模(mo)(mo)態(tai)能(neng)力(li)(li)和領域學(xue)習(xi)能(neng)力(li)(li)等方面(mian)的(de)(de)要(yao)求(qiu)，決定(ding)了通用IDP系(xi)(xi)統是一個復雜的(de)(de)綜合性軟件系(xi)(xi)統，對于技術架(jia)構和系(xi)(xi)統設計提出了很高的(de)(de)要(yao)求(qiu)。架(jia)構上，IDP系(xi)(xi)統需要(yao)能(neng)夠(gou)(gou)兼容各(ge)種(zhong)深(shen)度學(xue)習(xi)框(kuang)架(jia)，并能(neng)夠(gou)(gou)對于各(ge)種(zhong)預訓(xun)練大模(mo)(mo)型(xing)(xing)(xing)、多模(mo)(mo)態(tai)預置模(mo)(mo)型(xing)(xing)(xing)和用戶自訓(xun)練的(de)(de)領域模(mo)(mo)型(xing)(xing)(xing)實現(xian)有效的(de)(de)模(mo)(mo)型(xing)(xing)(xing)治理。并且，能(neng)夠(gou)(gou)以統一的(de)(de)模(mo)(mo)型(xing)(xing)(xing)能(neng)力(li)(li)層，向文檔應(ying)用層提供接(jie)口，滿足上層智(zhi)能(neng)化(hua)應(ying)用的(de)(de)調用需求(qiu)。

大語言模型在智能文檔處理(li)中(zhong)的(de)價值與挑戰

如下圖，是一(yi)個(ge)常(chang)見(jian)的IDP系統(tong)模型技術(shu)棧。可以看(kan)出，LLMs僅僅是在自(zi)然語(yu)言文(wen)本這個模態(tai)上，作(zuo)為預訓練基礎模型（如紅(hong)色(se)高亮部分）。相比于文(wen)本領域(yu)的(de)處(chu)(chu)理能力，IDP系統中更加核心(xin)的(de)功能在(zai)于文(wen)檔(dang)圖像(xiang)和多(duo)模(mo)態(tai)信(xin)息的(de)綜合(he)處(chu)(chu)理能力，包括OCR、表格(ge)識別、印章識別，以及文(wen)檔(dang)分類、信(xin)息檢索和文(wen)檔(dang)抽取(qu)等。

圖2 IDP模型(xing)技術棧(zhan)

因此，對于(yu)IDP系統，大語言模型(xing)主要作用是幫助提升文檔(dang)文本的理(li)解和生成能力，尚無(wu)法完全(quan)替代IDP模型(xing)技術棧。

大語言模型在IDP系統(tong)的(de)主要應用包(bao)括：

提升(sheng)文(wen)檔分類(lei)精度

利用大語言模(mo)型強大的文(wen)本理(li)解能力，提(ti)(ti)升文(wen)檔中文(wen)本信息的分(fen)(fen)類能力，如段(duan)落和條款(kuan)，進而(er)提(ti)(ti)升文(wen)檔信息檢索和文(wen)檔分(fen)(fen)類的效果(guo)。

提供文(wen)檔知識問答能(neng)力(li)

相比于BERT等(deng)大語言模型(xing)，GPT大模型(xing)具備生成式的特點(dian)，能夠更好滿(man)足文(wen)檔知識實時問答的應(ying)用，幫(bang)助實現諸如“與你的文(wen)檔聊天”等(deng)應(ying)用功能。

提升信息抽取精度

大(da)語言模(mo)型在文(wen)(wen)本信息(xi)抽(chou)取方(fang)面(mian)具備(bei)強(qiang)大(da)的能力，如從特(te)定條款(kuan)或(huo)段落(luo)中(zhong)抽(chou)取實體、關(guan)(guan)系和事件，幫(bang)助提升文(wen)(wen)檔關(guan)(guan)鍵(jian)信息(xi)抽(chou)取能力。

提升條款和段落(luo)比對精度

利(li)用大語言模型強大的(de)理(li)解能力，能夠提(ti)升文檔中(zhong)不同條款、段(duan)(duan)落之(zhi)間(jian)，以及與(yu)標準條款和段(duan)(duan)落的(de)比對(dui)精度，改善(shan)文檔比對(dui)效果。

大語言模型在幫助提升IDP文本處(chu)理能力的同(tong)時，也面(mian)臨諸多(duo)挑(tiao)戰和風險，主(zhu)要包括：

模型輸入長度有限，長文(wen)檔處理能力受(shou)限

GPT-4具有最大32K Token輸入和25K Word輸(shu)入的(de)要求，限制了對于(yu)長(chang)文檔的(de)處(chu)(chu)理(li)能(neng)力，如幾十上百頁的(de)合同和報(bao)告文件。這就要求必須通(tong)過前(qian)置的(de)信息檢索或段落(luo)抽取等預處(chu)(chu)理(li)，提取出大(da)篇幅文檔中的(de)相關部分，再輸(shu)入大(da)模(mo)型進行后續任務(wu)處(chu)(chu)理(li)。

生成式(shi)特點，導致模型輸出無法(fa)溯源(yuan)，準(zhun)確(que)性差

不同于BERT等大模型，GPT(Generative Pre-trained Tranformer)模型(xing)屬于(yu)生成式語言模型(xing)，對于(yu)模型(xing)輸出的信息無(wu)法進(jin)(jin)行精(jing)準溯源，即很多情況下(xia)無(wu)法準確獲得輸出內容在文檔(dang)中的具體位置，這就增加了輸出的風險(xian)性。在對于(yu)模型(xing)精(jing)準度(du)要(yao)求(qiu)高的場景下(xia)，如金融業務場景，往往極小概(gai)率的風險(xian)也(ye)會帶來巨大的損失。因此，就需要(yao)通過(guo)模型(xing)優化(hua)和(he)后處理等方法進(jin)(jin)行有效規避(bi)，避(bi)免非法輸出問題。

領域知識匱(kui)乏(fa)，影響模型效果

上文(wen)提到，文(wen)檔的一大特(te)征在于(yu)其領(ling)域(yu)信(xin)息的多(duo)樣性和差(cha)異性。通用大語(yu)言模型通常基(ji)于(yu)公開的互(hu)聯網語(yu)料(liao)訓練獲得，包括維基(ji)百(bai)科、新(xin)聞文(wen)章、社交媒體等(deng)，因(yin)此，缺乏對于領(ling)域(yu)知識的(de)深度(du)學(xue)習(xi)(xi)(xi)和理解。實際應用中，必(bi)須結(jie)合領(ling)域(yu)數據基于預訓練語言模型(xing)進行學(xue)習(xi)(xi)(xi)和調優，以達到(dao)實際業務場景的(de)使用要(yao)求，這也是(shi)IDP系統必(bi)須具備高效(xiao)學(xue)習(xi)(xi)(xi)能力的(de)根本(ben)原因(yin)。

模型(xing)參數量巨大，對算力要求高

大模型通(tong)常具備較(jiao)大的參數規模，如(ru)GPT-3.5有(you)1750億參數，對于本地化(hua)和(he)私(si)有化(hua)部署場景下的算力成本具有很高的要求。因此，這些場景下，必須進行模型(xing)輕量化(hua)處理才能真正落地使(shi)用，如通(tong)過知識(shi)蒸餾和(he)模型(xing)量化(hua)等技術。

賽博結合大(da)模型技術(shu)打(da)造高效學(xue)習能(neng)力，提(ti)供IDP全新解決方案

賽(sai)博智(zhi)能學習(xi)平臺定位于(yu)一站式機器學習(xi)平臺，基于(yu)預置(zhi)的多模態能力(li)(li)和(he)高效的領域數據學習(xi)能力(li)(li)，支持對于(yu)圖片和(he)文檔等非結構化數據的智(zhi)能化處理。在預置多(duo)模態能(neng)力的(de)基礎上，提供高效(xiao)的(de)領域數據學習能(neng)力，是賽博平臺智能(neng)文檔(dang)處理的(de)核心優勢。如下圖(tu)，是關于(yu)賽博平(ping)臺智能(neng)文檔處理的核(he)心(xin)能(neng)力介紹。

圖3 賽博平(ping)臺智能文檔處理核心能力

主要的預置(zhi)多模態能力包括：

圖像(xiang)處理

提供通用文(wen)檔(dang)圖像檢測、區域(yu)分割和(he)矯正、文(wen)檔(dang)圖像質量(liang)檢測（模糊(hu)、反光、遮擋、拍屏、水印、復印、篡改、變形(xing)、切邊和(he)距離遠等(deng)）、干擾和(he)噪聲(sheng)去(qu)除等(deng)預置能力(li)。

OCR

提供通用(yong)和場(chang)景(jing)OCR功能。通用(yong)OCR支持對(dui)于常見(jian)的(de)文(wen)檔圖(tu)像要素的(de)識別，包括文(wen)本（打印(yin)、手寫、多語(yu)言(yan)）、表格(ge)、印(yin)章、勾選和簽名(ming)等。場(chang)景(jing)OCR功能支持超過(guo)50種場景文檔圖像的識(shi)別能力，涵蓋(gai)標準卡證、票據(ju)、表單(dan)和憑(ping)證。

文檔處理(li)

提供(gong)通用的文檔(dang)處理能力，包括文檔(dang)格式轉換、協議解析、版面分析、文檔(dang)解析等，以及(ji)合同等場景文檔(dang)抽取能力。

自然語言處理

提供基(ji)礎(chu)的自然語言處理功能，包括(kuo)文本分類、信息抽取、通用問答(da)、情感(gan)分析等。

如前(qian)節所述(shu)，文檔具有領域(yu)特(te)征差異(yi)大的特(te)點，主要(yao)表(biao)現在不(bu)同領域(yu)文檔之間在種類、版式、語料和表(biao)達方(fang)式等方(fang)面存(cun)在較大差異(yi)。因此(ci)，高(gao)效的領域(yu)文檔學習能力，是IDP系統必備(bei)的基本(ben)功能，這也是賽博平(ping)臺(tai)的核心功能之(zhi)一(yi)。如下圖是關于賽博平(ping)臺(tai)高效學習(xi)能力的原(yuan)理介紹。

圖4 賽博學習能力

賽博平臺IDP學習能力以大規模語言模型和文檔版式預(yu)訓(xun)練模型為基礎(chu)，通過下游任(ren)務(wu)中/小模型算法設(she)計，結合領域(yu)數據，高效(xiao)生成場景(jing)模型，并通(tong)過一(yi)鍵式模(mo)型部署和(he)API生成，輸出場景化AI能(neng)力，如(ru)文檔(dang)分類、信(xin)息(xi)檢索、文檔(dang)抽取(qu)、段落比對等。依(yi)托機器學習(xi)功能(neng)底座(zuo)，賽博(bo)平臺能(neng)夠提供文檔(dang)數據集(ji)標注、模(mo)型(xing)訓練、模(mo)型(xing)部署(shu)和(he)API應用(yong)等一體化操(cao)作功能(neng)，支(zhi)持用(yong)戶(hu)通過可視化頁(ye)面(mian)，高效(xiao)完成領域(yu)文檔(dang)數據的學習(xi)和(he)模(mo)型(xing)能(neng)力的輸出與應用(yong)。

另外，為(wei)了更好(hao)地滿足業務(wu)場(chang)景(jing)需求(qiu)，實現與業務(wu)深(shen)度融合(he)，賽博平臺支持模型輸(shu)出規則和(he)API代(dai)碼(ma)補丁定制，能夠在線(xian)實現模型輸(shu)出格式(shi)轉換、字段拆分(fen)與合(he)并(bing)、噪聲剔除以及其他高級后處理功能，有效解決模型輸(shu)出與業務(wu)需求(qiu)之間“最后一公(gong)里”的問題。

未來，易道博識(shi)將繼續立(li)足(zu)于金融(rong)、能源(yuan)、通信(xin)等(deng)行業，圍繞(rao)企業在(zai)日常業務運營、審核和監督(du)管(guan)理、信(xin)息檢索(suo)和風險(xian)管(guan)控等(deng)場景(jing)下的數(shu)(shu)智化(hua)轉型需求，依托賽博智能學習平臺底座，在(zai)滿足(zu)客戶數(shu)(shu)據(ju)安全的前提下，通過(guo)高效(xiao)學習能力，將大模型等(deng)前沿技術與客戶業務數(shu)(shu)據(ju)相結(jie)合(he)，發揮巨大效(xiao)能，通過(guo)與業務場景(jing)的深度融(rong)合(he)，為業務賦能。

上一篇：易道博識入選“第六屆數字金融創新大賽——2023數字金融創新先鋒榜”

下一篇：大模型技術在智能文檔處理中的應用（上篇）

返回列表

更多資訊

易道博識OCR智能識別方(fang)案，助力金融業(ye)降本增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

日本免费A级毛一片_99久久综合狠狠综合久久_成年女人色毛片_亚洲av午夜福利精品一区二区

搜索

大模型技術在智能文檔處理中的應用（下篇）

國內統一咨詢服務熱線

（早09:00 - 晚18:00）