日本免费A级毛一片_99久久综合狠狠综合久久_成年女人色毛片_亚洲av午夜福利精品一区二区

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

大模型技術在智能文檔處理中的應用(上篇)

來(lai)源:易道博識(shi) 發布時間(jian):2023-06-15



ChatGPT爆火,大語(yu)言模型技(ji)術廣受關(guan)注(zhu)
ChatGPT是OpenAI公司基于大型預(yu)訓練語言(yan)模(mo)型(Large Language Models, LLM) GPT-3.5發(fa)布的智能(neng)聊天機器人,因(yin)其(qi)驚艷的語義理解、智能(neng)會話(hua)和文(wen)本(ben)(ben)生(sheng)成能(neng)力(li),獲得了全球1億月活用戶的熱(re)情追捧(peng)。ChatGPT可以從海量未標注數據(ju)集中獲得的信息(xi),自動識別、總結、翻譯、預(yu)測和生(sheng)成內容。3月15日,OpenAI又發(fa)布了GPT-4多模(mo)態(tai)大模(mo)型,該模(mo)型能(neng)夠支持文(wen)本(ben)(ben)和圖像輸入,與 GPT-3.5相比,其(qi)回答(da)準確度、文(wen)字輸入長度等(deng)各方面性(xing)能(neng)均有顯著提升。
ChatGPT的問世,開啟了新一輪(lun)的技(ji)術(shu)浪潮,標志著人工(gong)(gong)智能(neng)技(ji)術(shu)發展正(zheng)式進入了大模(mo)型時(shi)代。模(mo)型的背(bei)后其實(shi)是“知識”。未來,“模(mo)型”將無處不在(zai),人工(gong)(gong)智能(neng)與行業(ye)應(ying)用(yong)的結合會(hui)更(geng)加緊密,以模(mo)型驅動的發展范(fan)式變革正(zheng)在(zai)快速形成(cheng),整(zheng)個人工(gong)智(zhi)能行業(ye)的生態會愈發完整(zheng)。
可(ke)以看出,ChatGPT驚(jing)艷效果本質上來自(zi)于(yu)其(qi)背后(hou)的(de)(de)(de)大(da)(da)(da)語(yu)(yu)(yu)言(yan)模(mo)型(xing)技術(shu)(shu)。那(nei)么,究(jiu)竟什么是(shi)大(da)(da)(da)語(yu)(yu)(yu)言(yan)模(mo)型(xing)?大(da)(da)(da)語(yu)(yu)(yu)言(yan)模(mo)型(xing)是(shi)一種(zhong)基(ji)于(yu)深(shen)度學(xue)習(xi)算法的(de)(de)(de)自(zi)然語(yu)(yu)(yu)言(yan)處理(li)技術(shu)(shu),旨在讓計(ji)(ji)算機能夠理(li)解和(he)生(sheng)成(cheng)(cheng)自(zi)然語(yu)(yu)(yu)言(yan)文(wen)本。大(da)(da)(da)語(yu)(yu)(yu)言(yan)模(mo)型(xing)的(de)(de)(de)訓(xun)練通常需要海量的(de)(de)(de)文(wen)本數(shu)(shu)據(如維基(ji)百科(ke)、新聞(wen)文(wen)章(zhang)、社交媒體等)和(he)強大(da)(da)(da)的(de)(de)(de)計(ji)(ji)算資源。在訓(xun)練過(guo)程中,大(da)(da)(da)語(yu)(yu)(yu)言(yan)模(mo)型(xing)會(hui)通過(guo)學(xue)習(xi)這些數(shu)(shu)據中的(de)(de)(de)模(mo)式和(he)規律來調整自(zi)己的(de)(de)(de)權(quan)重和(he)參數(shu)(shu),從(cong)而提(ti)高(gao)自(zi)身(shen)對語(yu)(yu)(yu)言(yan)的(de)(de)(de)理(li)解和(he)生(sheng)成(cheng)(cheng)能力。大(da)(da)(da)語(yu)(yu)(yu)言(yan)模(mo)型(xing)的(de)(de)(de)應用非(fei)常廣泛,如語(yu)(yu)(yu)言(yan)翻譯、問答系(xi)統、語(yu)(yu)(yu)音識(shi)別(bie)和(he)文(wen)本生(sheng)成(cheng)(cheng)等。

智能文檔處(chu)理難點解析
智(zhi)能文檔處理(IDP,Intelligent Document Processing)是(shi)利用人(ren)工智能(neng)技(ji)術,自動從復雜的(de)(de)非結(jie)構化(hua)和(he)半結(jie)構化(hua)文檔中(zhong)抽取(qu)關鍵數據,并將其轉換成結(jie)構化(hua)數據的(de)(de)技(ji)術。常見的(de)(de)文檔包括純文本、帶格(ge)式文檔和(he)富格(ge)式文檔三種類型,如(ru)下圖示例。

圖1:常(chang)見文檔類型(xing)

  • 純文本

由(you)大(da)段純文字組(zu)成(cheng),內容形式比(bi)較單(dan)一。通常利(li)用自然語言處理(li)(li)技(ji)術,即(ji)可(ke)以完(wan)成(cheng)語義理(li)(li)解(jie)和(he)分析(xi)處理(li)(li)工作。
  • 帶(dai)格式文檔

如Word等帶有格(ge)式的(de)文檔,其(qi)主要特點是包(bao)含有結(jie)構化(hua)的(de)信息,可(ke)以直(zhi)接解析出(chu)文檔的(de)物理(li)元素(su)和邏輯結(jie)構,進而轉化(hua)為(wei)結(jie)構化(hua)數據。

  • 富格式文檔
相較(jiao)于純文本(ben)(ben)和(he)帶格(ge)(ge)式(shi)(shi)文檔,富(fu)格(ge)(ge)式(shi)(shi)文檔更加復雜,除了各種形(xing)式(shi)(shi)的(de)文本(ben)(ben)信(xin)息(xi)外,還包含有(you)豐富(fu)的(de)多(duo)模態元素(su),如表格(ge)(ge)和(he)圖片。富(fu)格(ge)(ge)式(shi)(shi)文檔具有(you)如下幾個方面的(de)特點(dian):
· 多樣性
富(fu)格(ge)式(shi)(shi)文檔(dang)的多(duo)樣性主(zhu)要體現在(zai)格(ge)式(shi)(shi)、種類、內容和(he)版(ban)式(shi)(shi)等(deng)(deng)維(wei)度。常見的格(ge)式(shi)(shi)有(you)(you)拍照圖像(xiang)、掃描件(jian)、可解析格(ge)式(shi)(shi)(如PDF)等(deng)(deng),版(ban)式(shi)(shi)包括有(you)(you)固(gu)定、多(duo)版(ban)式(shi)(shi)和(he)開放版(ban)式(shi)(shi)等(deng)(deng)類型。
· 多模態信(xin)息豐富性
富格式(shi)文檔包(bao)含有豐(feng)富的元(yuan)素信息,如文字、標(biao)題、段落、表格、圖(tu)表、印章、簽名(ming)、頁眉和(he)頁腳。
· 領(ling)域差異(yi)性
不同(tong)領(ling)(ling)域(yu)的文檔(dang)通(tong)常(chang)在種類、版(ban)式、語料和(he)表達方(fang)式方(fang)面差異很(hen)大,如金融、地產、教育和(he)醫療等,實(shi)際(ji)中存在著大量領(ling)(ling)域(yu)特定文檔(dang)。
· 長短不一致(zhi)性
從單張(zhang)圖(tu)片、單頁文檔(dang)到幾十上(shang)百頁的長文檔(dang),文檔(dang)的長度通(tong)常跨度很(hen)大。
以上富(fu)格式文檔特點,增加了通用IDP系統的(de)處(chu)理難度。
關于更(geng)詳(xiang)細的智(zhi)能文檔處理(li)難點介紹(shao),請參見《淺談智能文檔處理技術和應用》文章(zhang)。

在線留言