可信知识实证在UGC时代情报应用中的思考与探索
可信知識實證在UGC時代情報應用中的思考與探索
在當前互聯網高度發達、可發布信息源和信息渠道猛增且多元化的大背景下,信息形態變得廣泛且多模。從傳統的紙質文檔,到中期的電子結構化文檔、電子非結構化文本,再到如今的語音信息、圖片信息、視頻流信息鼎立的局面,信息市場變得復雜而多變。
在UGC(用戶生產內容)以及數據眾包生產的大環境下,存在廣泛的信息過載和信息混亂的問題。但情報的挖掘、信息的二次加工顯得尷尬且必須,這對數據生產中的數據獲取端、知識抽取環節以及業務端三個方向提出了更高的要求。
事實上,支撐起目前自然語言處理相關落地產品的數據來源大多來自開源信息情報,門戶網站、各大垂直網站、論壇社區、“兩微一條”、政府報告、研究報告、政策公告、百科問答等公共數據。這為輿情監控、事件熱點挖掘、智能問答、文本生成、知識圖譜可視化、風險推理等多個落地應用帶來了諸多挑戰。
數據地平線充分認識到“可信知識實證”的重要性,并在底層知識庫構建、自然語言處理組件開發、產品應用上引入了可信知識溯源的思想,探索形成了多個可信語言資源庫、知識抽取平臺、大規模事理學習系統以及投研邏輯管理平臺。本期圍繞“可信知識實證在UGC時代情報落地中的思考與探索”這一主題進行分享。
一、UGC時代下的信息亂象
搜索引擎和UGC(用戶創作內容)無疑是當代生活中重要的科技力量,但它們產生的副作用也是客觀存在的,這直接帶來了兩個突出的問題,即信息過載以及信息模糊化。信息過載帶給用戶一種視覺上的壓迫感,而模糊化使得信息流中混雜著可信度參差不齊的元素,極大地擾亂了信息市場的正常運轉和人為決策。
圖1-謠言不斷的信息亂象圖
例如,新冠肺炎疫情防控過程中,關于防護措施以及感染情況的造謠傳播行為直接干擾疫情決策;杭州女子莫名失蹤案中,網紅蹲守事發現場直播并對案情涉及主人公進行身份、行為猜測,并發布不實信息的行為,直接妨礙公安事務管理;搜索引擎中返回用戶問題不實答案造成傷害;用戶對常用成語、對聯、古詩詞的篡改所引起的學生誤導等,明顯揭露出了當前社會對信息可靠性的迫切需求。
謠言與辟謠兩者之間的斗爭在信息市場上頻頻上演,信息的準確性、可靠性、實時性與全面性成為了目前信息處理領域對信息本身提出的四個要求,這一點,在嚴重依賴該信息而作出某種決策的行為或工作中表現得更為強烈。然而,就謠言和不實信息的斗爭而言,其需要花費大量的人力、物力,并對現行技術提出了極高的要求,無論在內容生產、內容加工還是在內容消費上,“知識可靠性驗證”的需求呼之欲出。
二、信息亂象下的情報挖掘應對措施
在信息亂象下的大背景下,進行情報的挖掘、信息的二次加工顯得尷尬且必須,這對數據生產中的各個環節的監控提出了更高的要求:
1、 在數據獲取端引入評分和審核機制
數據獲取端還有一道前序操作,即數據的生產控制,這一部分質量和可靠性的把控需要由發布平臺的機構進行控制,但由于這一措施需要將用戶進行創作限制,并可能會因此引起部分用戶的抵觸,還需為事先制定出發布規范和懲罰措施,這一控制需要花費大量的人力物力。有代表性的,如學術論文的寫作、眾包環節下的Wiki百科編輯等都是這一工作的典型代表。
圖2-Wiki百科中對知識信息的來源控制
在數據生產環節之后,許多數據獲取方式都具備限制性。這主要體現在對數據源的考慮上,在實際的業務場景中,需要充分考慮網站的權威性(從發布主體性質、發布主體的發布行為)、網站的安全性、網站來源的數據規模等多個因素。典型地,在具體實施的過程中,會請相關業務專家通過對網站的建模結果中對網站進行打分,并從中選擇得分較高的數據源(若國家政府部門、意見領袖等)作為目標數據源,或者將得分作為一個知識置信度計算因子融入到結構化知識的打分模型當中。
2、 在抽取環節加入知識校驗和過程數據關聯組件
知識抽取是對信息進行挖掘,也是保證知識準確性和可靠性最關鍵,也是難度最大的環節,主要體現在對原始真實內容的還原、數據內容真假性甄別、數據內容的算法抽取可靠性三個方面。
首先,對原始真實內容的還原,指的是對所獲取到的多源異構文本的內容處理上。在工業場景中,會經常遇到圖片型pdf、文本型pdf、docx、ppt、純文本等文本格式,mp3、wav等音頻格式,mp4、rmvb等視頻格式,如何通過格式轉換、版式分析以及文字流轉寫等方式將原始文本中的信息準確、完整的整理輸出,十分重要。例如,進行pdf處理過程中,常處理表格合并、段落合并,網頁文本處理中常需要處理噪聲標簽的干擾去除等,OCR處理中常常存在偏差,這都使得原始真實內容上存在誤差。
在這里插入圖片描述
圖3-pdf文檔內容還原中的表格問題
其次,針對數據內容真假性甄別,是在進行原始內容抽取后需要準確處理的一道工序。在數據內容真假上,存在通過人工構造謊言和謠言數據集進行訓練,形成分類模型的工作,但這一工作受限于訓練語料的規則,效果會受到很大限制。
另一個工作是真假性核查的工作,例如,在進行金融文檔核查過程中,借助數據指標知識、跨篇章文本之間的關聯關系等外部消息,以及內部文本上下文之間的勾稽關系對內部文本的準確性進行核查,也可以引入成立性規則與外部常識知識庫的方式進行準確性校驗。
圖4-pdf文檔真實性審查中的數據真實性校驗
最后,在數據內容的算法抽取可靠性的把控上,引入迭代模型,實現遞增式學習,在抽取過程中,充分重視人機協作的方式,開發各類的數據觀察工作、數據校驗工具、錯誤歸因工具、錯誤解釋工具以及回歸測試工具等,使系統可配置。同樣地,過程文本數據也重要,在算法進行知識抽取的環節中,應該將該結構化知識來源的各項元數據信息進行記錄和關聯,這一關聯的操作能夠給后續的業務開展留出較高的可擴展性和靈活性。
3、 在業務端調整知識交互形式與用戶反饋接口
知識交互形式與用戶反饋接口的建立是業務端進行調整的一個可行方向,雖然這在具體實施上會因業務而異。知識的可靠性、實時性和全面性是制約知識應用的重要因素,在充分承認現有自然語言處理知識抽取技術還不成熟的現實條件下,需要在技術現有情況和用戶需求這一天平中選擇一個平衡點,即在用戶端和產品展示端之間的一個信任支點。
將抽取過程、展示過程以及推理決策過程透明化是取信用戶的一條可行方式,這與現在知識可解釋性上存在某種關聯。例如,在結構化搜索場景中,將已給出結構化知識的關聯來源信息、評分信息進行關聯展示,并讓用戶參與對評分或結果的標記,這能夠使得這層信任逐步建立起來。采用這種人機協作,機器負責推薦并透明化,用戶負責對結果進行自行判定和干預,無論對于系統自身,還是對于業務的推進來說,都是大有裨益的。
三、基于多環節可信知識溯源的大規模實時事理學習系統
知識溯源是有效減輕當前輸入數據源不準確的重要途徑,從底層數據獲取中引入數據源的評分機制,并使用可解釋程度高的語言資源和處理組件,在多環節中確保知識可信。
數據地平線一直致力于可信的底層語言資源建設。一方面,我們建成了可信度較高的基礎語言知識庫,包括幾十個種類的領域詞典、詞法和句法規則庫、基礎知識圖譜等。其中,同義知識庫、概念知識庫、抽象知識庫、事理知識庫等知識庫已部分對外開放。另一方面,我們建設了可信知識抽取過程中所需要的自然語言處理平臺,如數地工場。
圖5-可信模式下的知識處理平臺-數地工場
基于可信的基礎語言知識庫和文本處理組件,我們在大規模實時事理學習系統“學跡”中引入了動態知識可溯源的展示模式。其核心思想在于:在返回用戶所檢索字符串關聯知識的基礎上,從知識可信度評分、知識存現出處(句子級)兩個角度,結合動態友好的交互方式,做到“來源可查”、“可信量化”、“精確到句”、“一觸即達”。如下圖所示,給出了“新冠肺炎疫情蔓延”在基于開源情報數據中得到的結構化事理知識的結果。
在這里插入圖片描述
圖6-學跡搜索結果中的知識實證截圖
為此,數據地平線為此設計了一套可靠的知識可信度評分算法。隨著信息源不斷增加,先前學習到的知識的可信度會被不斷更新,錯誤結果的權重被自動糾正,根據可信度排序,可以看到“學跡”最有把握的知識。
同樣,數據地平線嘗試了一種友好的方式來最大化地展示事理學習的動態過程。我們用連線和層級表示的方式,為每條知識都提供可視化的學習實證,從中可以看到知識的創造者、知識的創造時間、知識出現的上下文,知識學習來源的評分。
四、人機協作和實證模式下的投研邏輯管理平臺
數據地平線在金融事理圖譜以及金融領域的業務和技術沉淀,推出了一款基于人機協作和實證模式的投研管理平臺“投研云圖”。
投研云圖平臺是一款面向投資研究人員的邏輯圖譜創建、管理和研究工具,通過結合大規模數據采集技術,事理邏輯抽取、知識圖譜、情感分析等自然語言處理技術以及用戶可視化交互等技術,以機器智能推薦輔助、人工自定義編輯相結合的人際協作交互方式,從而支持投資邏輯圖譜的創建、共享、管理、應用等服務。
圖7-投研云圖的用戶場景截圖
“人機協作”和“知識實證”是投研云圖思想的兩個基本核心點,從消息面和數據面兩個角度出發,完成研究邏輯的自管理。在具體實現上:
首先,在底層可信知識的構建環節,依托后臺面向開源情報挖掘形成的事理圖譜、產業鏈圖譜數據,也可根據用戶自定義自有文本,自動挖掘形成相關結構化知識,完成海量實證邏輯知識自動構建。
其次,在人機交互方式的邏輯鏈條構建環節,基于事理圖譜知識庫,結合底層推薦組件,以實證的方式推薦給用戶,并使得用戶可以根據自己的主觀判斷,結合關聯的實證信息,快速地完成事件、行業數據、產業鏈三個層面的推薦,完成基于海量實證邏輯知識庫的潛在事件推薦和行業數據推薦。
最后,在利用人機交互完成邏輯知識庫的自動構建之后,可實現基于海量實證邏輯知識庫的歷史實證展示、基于自建領域事理的邏輯監測等多個功能。
投研云圖平臺的核心目標是構建一個以現有自然語言處理技術為核心的機器智能輔助、人工編輯為主的領域邏輯知識管理的監測預警平臺,以滿足各行業邏輯知識的創建、積累和管理。知識的可信、可控、通過實證方式輔助用戶進行自查、自管理是其中的核心。
五、總結
支撐目前自然語言處理相關落地產品的數據來源,大多來自開源信息情報、門戶網站、各大垂直網站、論壇社區、“兩微一條”、政府報告、研究報告、政策公告、百科問答等公共數據,這為輿情監控、事件熱點挖掘、智能問答、文本生成、知識圖譜可視化、風險推理等多個落地應用帶來了諸多挑戰。
為了應對這一挑戰,從經驗上來說,可以在數據獲取端引入評分和審核機制,在抽取環節加入知識校驗和過程數據關聯組件,對原始真實內容的還原、數據內容真假性甄別、數據內容的算法抽取可靠性等三個方面作相應工作。
數據地平線充分認識到了“可信知識實證”的重要性,并在底層知識庫構建、自然語言處理組件開發、產品應用上引入了可信知識溯源的思想,探索形成了多個可信語言資源庫、知識抽取平臺、大規模事理學習系統、投研邏輯管理平臺。
在大規模事理學習系統“學跡”中,數據地平線設計了一套可靠的知識可信度評分算法,并嘗試了一種友好的方式來最大化地展示事理學習的動態過程。
投研邏輯管理平臺“投研云圖”以現有自然語言處理技術為核心的機器智能輔助、人工編輯為主進行領域邏輯知識管理的監測預警,知識的可信、可控、通過實證方式輔助用戶進行自查、自管理是其中的根本核心點。
參考
1.數據地平線:https://datahorizon.cn
2.數地工場:https://nlp.datahorizon.cn
3.學跡:https://xueji.datahorizon.cn
4.投研云圖:https://yuntu.datahorizon.cn
5.https://zh.wikipedia.org/wiki/天問一號
If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn技術博客:https://blog.csdn.net/lhy2014
3、我的聯系方式: 劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,數據地平線,http://www.openkg.cn/organization/datahorizon.
5、我的工業項目:劉煥勇,數據地平線,大規模實時事理學習系統:https://xueji.datahorizon.cn.
6、我的工業項目:劉煥勇,數據地平線,面向事件和語義的自然語言處理工具箱:https://nlp.datahorizon.cn
總結
以上是生活随笔為你收集整理的可信知识实证在UGC时代情报应用中的思考与探索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据挖掘第一次作业
- 下一篇: 【Tensorflow】小白入门实战基础