日本免费A级毛一片_99久久综合狠狠综合久久_成年女人色毛片_亚洲av午夜福利精品一区二区

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

大模型技術在智能文檔處理中的應用(下篇)

來源:易道博識 發布時間:2023-06-15
一個專業的IDP系統至少需要具備(bei)如下兩方(fang)面的(de)能力,才能夠(gou)滿足(zu)富格式(shi)文檔的(de)智能化處理(li)需求。
  • 具備(bei)多(duo)模態信(xin)息處理能力

由于文檔本身多模(mo)態(tai)的(de)特點,決(jue)定了(le)IDP系統(tong)必(bi)須(xu)能夠綜合應用(yong)計算(suan)機視覺(jue)和(he)自然語言處(chu)(chu)理等(deng)技術,包括圖像處(chu)(chu)理、OCR、表(biao)格識別、文(wen)檔解析(xi)、文(wen)本分析(xi)、文(wen)本理解等(deng),對(dui)于文(wen)檔中(zhong)的標題、段落、表(biao)格、圖表(biao)、印(yin)章、簽名(ming)等(deng)多模態信息(xi)進行識別、提(ti)取和進一步的理解和分析(xi)。

  • 具(ju)備領域樣本高效(xiao)學習(xi)能(neng)力(li)

由于不同領(ling)(ling)域的文檔特征(zheng)差(cha)異很(hen)大,為(wei)了在領(ling)(ling)域數據上達到業務可用的精度要求,IDP系(xi)統必須具備領域樣本高(gao)效學習能力(li),能夠生成優化后的模型(xing),滿(man)足(zu)業(ye)務(wu)場景(jing)應用需求,為實(shi)際業(ye)務(wu)創(chuang)造價(jia)值。

多模(mo)(mo)態(tai)能(neng)力(li)(li)和領域學(xue)習(xi)能(neng)力(li)(li)等方面(mian)的(de)(de)要(yao)求(qiu),決定(ding)了通用IDP系(xi)(xi)統是一個復雜的(de)(de)綜合性軟件系(xi)(xi)統,對于技術架(jia)構和系(xi)(xi)統設計提出了很高的(de)(de)要(yao)求(qiu)。架(jia)構上,IDP系(xi)(xi)統需要(yao)能(neng)夠(gou)(gou)兼容各(ge)種(zhong)深(shen)度學(xue)習(xi)框(kuang)架(jia),并能(neng)夠(gou)(gou)對于各(ge)種(zhong)預訓(xun)練大模(mo)(mo)型(xing)(xing)(xing)、多模(mo)(mo)態(tai)預置模(mo)(mo)型(xing)(xing)(xing)和用戶自訓(xun)練的(de)(de)領域模(mo)(mo)型(xing)(xing)(xing)實現(xian)有效的(de)(de)模(mo)(mo)型(xing)(xing)(xing)治理。并且,能(neng)夠(gou)(gou)以統一的(de)(de)模(mo)(mo)型(xing)(xing)(xing)能(neng)力(li)(li)層,向文檔應(ying)用層提供接(jie)口,滿足上層智(zhi)能(neng)化(hua)應(ying)用的(de)(de)調用需求(qiu)。

大語言模型在智能文檔處理(li)中(zhong)的(de)價值與挑戰
如下圖,是一(yi)個(ge)常(chang)見(jian)的IDP系統(tong)模型技術(shu)棧。可以看(kan)出,LLMs僅僅是在自(zi)然語(yu)言文(wen)本這個模態(tai)上,作(zuo)為預訓練基礎模型(如紅(hong)色(se)高亮部分)。相比于文(wen)本領域(yu)的(de)處(chu)(chu)理能力,IDP系統中更加核心(xin)的(de)功能在(zai)于文(wen)檔(dang)圖像(xiang)和多(duo)模(mo)態(tai)信(xin)息的(de)綜合(he)處(chu)(chu)理能力,包括OCR、表格(ge)識別、印章識別,以及文(wen)檔(dang)分類、信(xin)息檢索和文(wen)檔(dang)抽取(qu)等。

圖2 IDP模型(xing)技術棧(zhan)

因此,對于(yu)IDP系統,大語言模型(xing)主要作用是幫助提升文檔(dang)文本的理(li)解和生成能力,尚無(wu)法完全(quan)替代IDP模型(xing)技術棧。
大語言模型在IDP系統(tong)的(de)主要應用包(bao)括:
  • 提升(sheng)文(wen)檔分類(lei)精度

利用大語言模(mo)型強大的文(wen)本理(li)解能力,提(ti)(ti)升文(wen)檔中文(wen)本信息的分(fen)(fen)類能力,如段(duan)落和條款(kuan),進而(er)提(ti)(ti)升文(wen)檔信息檢索和文(wen)檔分(fen)(fen)類的效果(guo)。

  • 提供文(wen)檔知識問答能(neng)力(li)

相比于BERT等(deng)大語言模型(xing),GPT大模型(xing)具備生成式的特點(dian),能夠更好滿(man)足文(wen)檔知識實時問答的應(ying)用,幫(bang)助實現諸如“與你的文(wen)檔聊天”等(deng)應(ying)用功能。
  • 提升信息抽取精度

大(da)語言模(mo)型在文(wen)(wen)本信息(xi)抽(chou)取方(fang)面(mian)具備(bei)強(qiang)大(da)的能力,如從特(te)定條款(kuan)或(huo)段落(luo)中(zhong)抽(chou)取實體、關(guan)(guan)系和事件,幫(bang)助提升文(wen)(wen)檔關(guan)(guan)鍵(jian)信息(xi)抽(chou)取能力。
  • 提升條款和段落(luo)比對精度

利(li)用大語言模型強大的(de)理(li)解能力,能夠提(ti)升文檔中(zhong)不同條款、段(duan)(duan)落之(zhi)間(jian),以及與(yu)標準條款和段(duan)(duan)落的(de)比對(dui)精度,改善(shan)文檔比對(dui)效果。
大語言模型在幫助提升IDP文本處(chu)理能力的同(tong)時,也面(mian)臨諸多(duo)挑(tiao)戰和風險,主(zhu)要包括:
  • 模型輸入長度有限,長文(wen)檔處理能力受(shou)限

GPT-4具有最大32K Token輸入和25K Word輸(shu)入的(de)要求,限制了對于(yu)長(chang)文檔的(de)處(chu)(chu)理(li)能(neng)力,如幾十上百頁的(de)合同和報(bao)告文件。這就要求必須通(tong)過前(qian)置的(de)信息檢索或段落(luo)抽取等預處(chu)(chu)理(li),提取出大(da)篇幅文檔中的(de)相關部分,再輸(shu)入大(da)模(mo)型進行后續任務(wu)處(chu)(chu)理(li)。
  • 生成式(shi)特點,導致模型輸出無法(fa)溯源(yuan),準(zhun)確(que)性差

不同于BERT等大模型,GPT(Generative Pre-trained Tranformer)模型(xing)屬于(yu)生成式語言模型(xing),對于(yu)模型(xing)輸出的信息無(wu)法進(jin)(jin)行精(jing)準溯源,即很多情況下(xia)無(wu)法準確獲得輸出內容在文檔(dang)中的具體位置,這就增加了輸出的風險(xian)性。在對于(yu)模型(xing)精(jing)準度(du)要(yao)求(qiu)高的場景下(xia),如金融業務場景,往往極小概(gai)率的風險(xian)也(ye)會帶來巨大的損失。因此,就需要(yao)通過(guo)模型(xing)優化(hua)和(he)后處理等方法進(jin)(jin)行有效規避(bi),避(bi)免非法輸出問題。
  • 領域知識匱(kui)乏(fa),影響模型效果
上文(wen)提到,文(wen)檔的一大特(te)征在于(yu)其領(ling)域(yu)信(xin)息的多(duo)樣性和差(cha)異性。通用大語(yu)言模型通常基(ji)于(yu)公開的互(hu)聯網語(yu)料(liao)訓練獲得,包括維基(ji)百(bai)科、新(xin)聞文(wen)章、社交媒體等(deng),因(yin)此,缺乏對于領(ling)域(yu)知識的(de)深度(du)學(xue)習(xi)(xi)(xi)和理解。實際應用中,必(bi)須結(jie)合領(ling)域(yu)數據基于預訓練語言模型(xing)進行學(xue)習(xi)(xi)(xi)和調優,以達到(dao)實際業務場景的(de)使用要(yao)求,這也是(shi)IDP系統必(bi)須具備高效(xiao)學(xue)習(xi)(xi)(xi)能力的(de)根本(ben)原因(yin)。
  • 模型(xing)參數量巨大,對算力要求高
大模型通(tong)常具備較(jiao)大的參數規模,如(ru)GPT-3.5有(you)1750億參數,對于本地化(hua)和(he)私(si)有化(hua)部署場景下的算力成本具有很高的要求。因此,這些場景下,必須進行模型(xing)輕量化(hua)處理才能真正落地使(shi)用,如通(tong)過知識(shi)蒸餾和(he)模型(xing)量化(hua)等技術。

賽博結合大(da)模型技術(shu)打(da)造高效學(xue)習能(neng)力,提(ti)供IDP全新解決方案
賽(sai)博智(zhi)能學習(xi)平臺定位于(yu)一站式機器學習(xi)平臺,基于(yu)預置(zhi)的多模態能力(li)(li)和(he)高效的領域數據學習(xi)能力(li)(li),支持對于(yu)圖片和(he)文檔等非結構化數據的智(zhi)能化處理。在預置多(duo)模態能(neng)力的(de)基礎上,提供高效(xiao)的(de)領域數據學習能(neng)力,是賽博平臺智能(neng)文檔(dang)處理的(de)核心優勢。如下圖(tu),是關于(yu)賽博平(ping)臺智能(neng)文檔處理的核(he)心(xin)能(neng)力介紹。 

圖3 賽博平(ping)臺智能文檔處理核心能力

主要的預置(zhi)多模態能力包括:
  • 圖像(xiang)處理

提供通用文(wen)檔(dang)圖像檢測、區域(yu)分割和(he)矯正、文(wen)檔(dang)圖像質量(liang)檢測(模糊(hu)、反光、遮擋、拍屏、水印、復印、篡改、變形(xing)、切邊和(he)距離遠等(deng))、干擾和(he)噪聲(sheng)去(qu)除等(deng)預置能力(li)。
  • OCR
提供通用(yong)和場(chang)景(jing)OCR功能。通用(yong)OCR支持對(dui)于常見(jian)的(de)文(wen)檔圖(tu)像要素的(de)識別,包括文(wen)本(打印(yin)、手寫、多語(yu)言(yan))、表格(ge)、印(yin)章、勾選和簽名(ming)等。場(chang)景(jing)OCR功能支持超過(guo)50種場景文檔圖像的識(shi)別能力,涵蓋(gai)標準卡證、票據(ju)、表單(dan)和憑(ping)證。
  • 文檔處理(li)
提供(gong)通用的文檔(dang)處理能力,包括文檔(dang)格式轉換、協議解析、版面分析、文檔(dang)解析等,以及(ji)合同等場景文檔(dang)抽取能力。
  • 自然語言處理

提供基(ji)礎(chu)的自然語言處理功能,包括(kuo)文本分類、信息抽取、通用問答(da)、情感(gan)分析等。

如前(qian)節所述(shu),文檔具有領域(yu)特(te)征差異(yi)大的特(te)點,主要(yao)表(biao)現在不(bu)同領域(yu)文檔之間在種類、版式、語料和表(biao)達方(fang)式等方(fang)面存(cun)在較大差異(yi)。因此(ci),高(gao)效的領域(yu)文檔學習能力,是IDP系統必備(bei)的基本(ben)功能,這也是賽博平(ping)臺(tai)的核心功能之(zhi)一(yi)。如下圖是關于賽博平(ping)臺(tai)高效學習(xi)能力的原(yuan)理介紹。

 圖4 賽博學習能力

賽博平臺IDP學習能力以大規模語言模型和文檔版式預(yu)訓(xun)練模型為基礎(chu),通過下游任(ren)務(wu)中/小模型算法設(she)計,結合領域(yu)數據,高效(xiao)生成場景(jing)模型,并通(tong)過一(yi)鍵式模(mo)型部署和(he)API生成,輸出場景化AI能(neng)力,如(ru)文檔(dang)分類、信(xin)息(xi)檢索、文檔(dang)抽取(qu)、段落比對等。依(yi)托機器學習(xi)功能(neng)底座(zuo),賽博(bo)平臺能(neng)夠提供文檔(dang)數據集(ji)標注、模(mo)型(xing)訓練、模(mo)型(xing)部署(shu)和(he)API應用(yong)等一體化操(cao)作功能(neng),支(zhi)持用(yong)戶(hu)通過可視化頁(ye)面(mian),高效(xiao)完成領域(yu)文檔(dang)數據的學習(xi)和(he)模(mo)型(xing)能(neng)力的輸出與應用(yong)。
另外,為(wei)了更好(hao)地滿足業務(wu)場(chang)景(jing)需求(qiu),實現與業務(wu)深(shen)度融合(he),賽博平臺支持模型輸(shu)出規則和(he)API代(dai)碼(ma)補丁定制,能夠在線(xian)實現模型輸(shu)出格式(shi)轉換、字段拆分(fen)與合(he)并(bing)、噪聲剔除以及其他高級后處理功能,有效解決模型輸(shu)出與業務(wu)需求(qiu)之間“最后一公(gong)里”的問題。
未來,易道博識(shi)將繼續立(li)足(zu)于金融(rong)、能源(yuan)、通信(xin)等(deng)行業,圍繞(rao)企業在(zai)日常業務運營、審核和監督(du)管(guan)理、信(xin)息檢索(suo)和風險(xian)管(guan)控等(deng)場景(jing)下的數(shu)(shu)智化(hua)轉型需求,依托賽博智能學習平臺底座,在(zai)滿足(zu)客戶數(shu)(shu)據(ju)安全的前提下,通過(guo)高效(xiao)學習能力,將大模型等(deng)前沿技術與客戶業務數(shu)(shu)據(ju)相結(jie)合(he),發揮巨大效(xiao)能,通過(guo)與業務場景(jing)的深度融(rong)合(he),為業務賦能。
在線留言