首个中文全词类知识库-百科知识树 开源啦!搭配开源标注工具,一招搞定知识关联!...
近年來,深度學習技術已廣泛應用于NLP領域,但實際應用效果往往受限于缺乏大規模高質量監督樣本。2018年底,預訓練語言模型橫空出世,極大緩解了這個問題,通過「超大規模無監督語料上的預訓練語言模型+相對少量的監督樣本進行任務精調(fine-tuning)」,可以大幅提升各類NLP任務的效果。
由于效果顯著和應用機制簡單,預訓練語言模型以前所未有的速度在業界得到廣泛應用,各大廠紛紛發布自己的預訓練模型。現在,我們已毫不懷疑預訓練語言模型的能力,并堅信它的發展必將持續提升各類NLP任務的效果。但是,對其能力的上限仍有疑問:預訓練語言模型能帶領我們徹底理解語言嗎?
預訓練語言模型的不足
2020年, 發布,再一次引發大家對"通用人工智能"的熱情。在一開始被GPT-3的效果驚艷之后,GPT-3的不足也暴露出來:雖然GPT-3能自動從海量的無監督語料中學習到豐富的共現知識,并成功應用于下游任務上,但GPT-3并未真正理解語言,它只是成功地記住和擬合了語料。
如上圖GPT-3關于眼睛的問答例子所示,如果一個事實沒有出現在語料中,預訓練語言模型只能通過已經記住的語料分布去泛化,這會導致出現不可控的答案。因為,大量的事實知識是不能泛化的,即使個體是相似的,它們各自的屬性值也不能隨意互換。舉個例子,如果一個模型的訓練語料是童話故事,那么它從故事中學到的事實知識(如,太陽是個老爺爺)是無法用于現實世界的。
這自然引出了一個問題,「模型沒有見過的事實,通過知識去補足它,無法泛化的事實,通過知識去約束它,是否可行呢?」 這就是知識圖譜在嘗試解決的問題。
用知識彌補模型的不足
知識圖譜通過將客觀世界中實體、概念、及其事實性描述以結構化的方式顯示表述出來,提供了一種更好地組織、管理、理解和使用知識的能力,并在搜索推薦、智能問答、大數據分析與決策等領域得到了成功應用。
不同領域的知識圖譜有不同的知識表示范圍和問題解決目標,例如:醫療圖譜主要描述疾病、癥狀、藥物、診斷相關知識,可用于輔助問診、輔助診斷、治療方案推薦等場景;商品知識圖譜主要描述商品屬性、特征、關聯關系等,可用于導購、客服、營銷等場景。
那么,「除了這些具體的領域事實知識和領域應用之外,還有哪些通用知識是模型欠缺的,能幫助模型像人一樣理解語言?」
實際上,人對事實知識的記憶能力是遠遜于模型的(模型可以輕易記住上億的精準事實知識,而人做不到),但「人的語言理解能力卻遠遠超過任何模型」。每個人的知識背景都不盡相同,但不同年齡、不同國家、不同專業的人,互相之間可以交流。一本架空小說,描述的事實和我們生活的真實世界完全不同,但讀者卻可以無障礙地理解。
我們自然會認為,一定存在一個通用且相對穩定的知識體系,能夠讓不同的人互相交流,能夠讓人讀懂從未見過的文章,能夠讓一個人給另一個人講解清楚新出現的名詞。但是,這樣的「通用知識體系是什么樣的?如何表征和構建?如何應用到NLP模型和任務中?」 遺憾的是,在人工智能領域,雖然從幾十年前已開始研究這些問題,但目前仍無共識性的答案,依然是大家共同努力探索的方向。
百度發布「解語」開源工具集,就是嘗試從中文詞匯理解和句子理解的角度,對這些問題進行初步探索:構建一個通用且相對穩定的中文詞匯知識體系,將文本與詞匯知識體系相關聯,讓模型對中文句子的理解能力更接近于人。
直播提醒
7月21日19:00,本文作者將直播分享項目詳情!加入PaddleNLP技術交流群即可觀看
解語:關聯中文文本與詞匯知識
為了能夠區分通用知識和領域知識,我們選擇這樣的切入點:「當一個人看到一個句子,如果事先不知道句子涉及的事實知識,怎么理解這個句子?」
顯然,人對句子的理解至少包括以下三層:
理解句子里都有哪些詞;
理解這些詞大概的意義,即便有不認識的詞,也能大概猜出這個詞指的是一個人、一件事、還是一種疾病;
理解這些詞之間的關系,并與腦海里已有的知識關聯。
基于這樣的考慮,我們構建了“解語”,主要包括兩部分:
「百科知識樹(TermTree)」:是一個描述所有中文詞匯(包括概念、實體/專名、領域術語、語法詞等,統一稱之為Term)的樹狀知識庫。
「中文詞類知識標注工具(WordTag)」:是首個能夠覆蓋所有中文詞匯的詞類知識標注工具,結合百科知識樹可實現定制化詞類序列標注。
「解語主頁」:https://www.paddlepaddle.org.cn/textToKnowledge
百科知識樹(TermTree)
百科知識樹由兩部分構成
「TermType詞類體系」:覆蓋所有中文詞匯詞類的樹狀知識體系,是對中文詞匯集合的一種全劃分層次表示;
「Term關系和屬性值」:描述具體Term之間關系和Term屬性值網狀圖譜,用于整合各應用知識圖譜;
本次開源的百科知識樹V1.0試用版中,包含了簡化版的TermType體系,以及約100萬數量的term集合(下載鏈接:https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz)。
與其他常見應用知識圖譜不同,百科知識樹的核心是概念詞,而非專名實體詞。因為在中文文本中,概念詞的含義是相對穩定的,而專名實體詞隨應用變化(例如,不同電商有不同的商品實體集,不同的小說站有不同的小說實體集),因此,百科知識樹通過 “提供常用概念集 + 可插拔的應用實體集/應用知識圖譜” 來達到支持不同的應用適配。
百科知識樹的主要特點:
采用樹狀結構(Tree),而不是網狀結構(Net/Graph)
樹結構是對知識空間的全劃分,網狀結構是對相關關系的描述和提煉。樹結構能夠更加方便做到對詞類體系的全面描述,也可以方便地與網狀結構結合使用;
樹結構適合概念層次的泛化推理,網狀結構適合相關性的泛化推理。樹結構的知識對統計相關知識有很好的互補作用,在應用中能夠更好地彌補統計模型的不足。
覆蓋所有中文詞匯詞類,經過大規模產業應用實踐
百科知識樹的詞類體系是在大規模產業應用實踐(如百科文本解析挖掘、query理解)中打磨出來的中文詞類體系,在理論上可能不是一個完備體系,但很適合通用領域中文解析挖掘任務。
中文詞類知識標注工具(WordTag)
WordTag是首個能夠覆蓋所有中文詞匯的詞類知識標注工具,旨在為中文文本解析提供全面、豐富的知識標注結果,可以應用于模板(挖掘模板、解析模板)生成與匹配、知識挖掘(新詞發現、關系挖掘)等自然語言處理任務中,提升文本解析與挖掘精度;也可以作為中文文本特征生成器,為各類機器學習模型提供文本特征。
使用WordTag工具可以方便為中文句子標注上詞類序列知識。如下圖所示,在PaddleNLP工具包中只需要三句代碼,就可以得到給定中文句子的詞類序列標注結果:
Wordtag與中文分詞、詞性標注、命名實體識別等工具的區別如下圖所示:
由于中文是孤立語,沒有詞的形態變化,句法結構弱,主要依賴“詞+詞序”表達語義。通過WordTag詞類知識標注產出完整的Term邊界以及上位詞類序列,能夠為文本提供更加豐富的詞匯知識特征,比一般分詞粒度穩定,比詞性特征區分度高,比命名實體識別覆蓋面廣,無論是直接用于挖掘,還是作為知識特征加入到DNN模型中,都是更全面的知識補充。
「WordTag的理想目標是在詞類序列標注這一維度上逼近人對句子的理解能力」,也就是說,當句子中出現未知詞匯時,能夠通過句子中其他的詞及詞類知識劃分它的邊界并分辨出它大概率是什么詞類。當前WordTag的效果距離這個目標還有相當大的距離,但通過不斷基于百科知識樹擴充和優化訓練樣本,WordTag會持續優化,逐步逼近這個目標。
不同場景下的文本解析可能有各自的特殊需求,結合百科知識樹,WordTag可實現定制化詞類序列標注。
解語的應用場景示例
應用場景1:分詞、命名實體識別、專名挖掘
有別于其他的分詞工具,WordTag的切分目標是盡可能將Term的完整邊界切分出來,使之更加適用于下游的挖掘任務,在實際應用中,也可以結合其他基礎粒度的中文分詞結果共同使用。同時,WordTag的標注詞類覆蓋了中文所有詞匯,其結果可以直接作為命名實體識別的候選結果使用,也可以結合百科知識樹進行更細粒度的詞類篩選,或直接用于專名挖掘。
例如上文的例子:
「WordTag結果」:李偉\人物類_實體 拿出\場景事件 具有\肯定詞 科學性\信息資料 、\w 可操作性\信息資料 的\助詞 《\w 陜西省高校管理體制改革實施方案\作品類_實體 》\w
可直接作為分詞結果,也可通過作品類_實體標簽、人物類_實體標簽得到實體候選,還可以結合百科知識樹進行其他詞類的挖掘和過濾。
應用場景2:文本挖掘模板/解析模板生成與匹配
在知識挖掘、query解析、語義一致性判定等應用中,文本挖掘/解析模板是最常用的規則模型。WordTag包含了覆蓋中文所有詞匯的詞類標注體系,在生成模板以及模板匹配上有著天然的優勢。用戶可以根據WordTag標注的樣本詞類序列,自動生成或配置更加豐富、精準的挖掘/解析模板,然后對目標文本使用WordTag標注,即可利用模板進行匹配,從而大大降低人工配置模板的代價,顯著提升生產效率。
例如,輸入文本:美人魚是周星馳執導的電影,可將抽取出的詞類直接構造成為挖掘匹配模板:[作品類_實體][肯定詞|是][人物類_實體][場景事件|執導][作品類_概念|電影] 利用該模板,以及結合百科知識樹進行概念擴展,可以匹配出所有該句式的文本,例如:
《狂人日記》是魯迅創作的第一個短篇白話日記體小說
《千王之王2000》是一部王晶于1999年執導的喜劇電影
《射雕英雄傳》是金庸創作的長篇武俠小說
WordTag的標注結果中,區分了“人物類_實體”和“人物類_概念”,以及“作品類_實體”和“作品類_概念”,使得模板生成更為精準。同時,百科知識樹中也區分了命名實體詞(eb: entity base)與非實體詞(cb: concept base),這樣,可以利用百科知識樹分別進行實體擴展(e.g., 周星馳->王晶)和概念擴展(e.g., 電影->小說),生成更加豐富多樣的模板,支持更細化的應用場景。
此外,模板也可用于文本分類和文本挖掘的樣本優化:使用WordTag產出樣本模板,再利用百科知識樹進行泛化約束,篩選出高置信度的樣本,或者過濾不合格的樣本。
應用場景3:詞類知識增強的DNN模型
很多研究在嘗試將知識引入模型,以獲得更好的應用效果。例如,[2]提出在關系抽取模型中增加實體類型的信息,以達到更優的知識抽取效果。
開發者們可以利用WordTag生成詞類特征,與知識增強的挖掘模型結合,應用于自己的中文挖掘任務;研究者們也可以利用WordTag與百科知識樹提供的豐富的詞類特征,探索更好的知識增強的中文挖掘模型。
除下游任務外,也可以將詞類知識應用于預訓練中,例如使用詞類知識控制預訓練語言模型的掩碼過程,讓預訓練語言模型具備更強的通用知識。
總結與展望
讓NLP模型對語言的理解能力逼近人類,是所有NLPer的努力目標。一方面,我們希望模型能自動學得語料中隱含的知識,另一方面,我們也希望將人類積累的通用知識通過更高效的方式融入到模型中,彌補語料的分布缺陷。
「解語」是從中文詞匯理解和句子理解的角度嘗試構建詞匯層次上的通用知識,并將其應用到中文文本知識標注中。目前的知識體系及標注效果還在持續優化中,此次作為開源數據和工具發布,也希望能和大家共同探索通用知識的表征與應用方案,打造更具有知識理解能力的NLP模型。
直播提醒
看完文章是不是有很多疑問想與作者交流?
請鎖定飛槳B站直播間!
7月21日19:00
本文作者將直播分享項目詳情!掃描下方二維碼進入PaddleNLP技術交流群,技術專家在線答疑解惑,直播鏈接也將同步到交流群中。
解語試用地址:https://www.paddlepaddle.org.cn/textToKnowledge
解語項目地址:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge
訪問PaddleNLP了解更多應用,Star 收藏跟進最新功能吧:https://github.com/PaddlePaddle/PaddleNLP
參考資料
[1] Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[J]. arXiv preprint arXiv:2005.14165, 2020.
[2] Zhong Z, Chen D. A Frustratingly Easy Approach for Entity and Relation Extraction[J]. arXiv preprint arXiv:2010.12812, 2020.點擊閱讀原文獲取直播鏈接:http://live.bilibili.com/21689802
總結
以上是生活随笔為你收集整理的首个中文全词类知识库-百科知识树 开源啦!搭配开源标注工具,一招搞定知识关联!...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 0x00007FF7C49A4C42 处
- 下一篇: 麻将牌和牌问题