NLP Chinese Corpus:大规模中文自然语言处理语料
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在 2019 年初這個時點上,普通的從業(yè)者、研究人員或?qū)W生,并沒有一個比較好的渠道獲得極大量的中文語料。
筆者想要訓(xùn)練一個中文的詞向量,在百度和 Github 上搜索了好久,收獲卻很少:要么語料的量級太小,要么數(shù)據(jù)過于成舊,或需要的處理太復(fù)雜。不知道你是否也遇到了這樣的問題?
我們這個項目,就是為了解決這一問題貢獻(xiàn)微薄之力。
項目地址:
https://github.com/brightmart/nlp_chinese_corpus
維基百科json版 (wiki2019zh)
104 萬個詞條(1,043,224 條;原始文件大小 1.6G,壓縮文件 519M;數(shù)據(jù)更新時間:2019.2.7)
下載鏈接:
https://storage.googleapis.com/nlp_chinese_corpus/wiki_zh_2019.zip
可能的用途:可以做為通用中文語料,做預(yù)訓(xùn)練的語料或構(gòu)建詞向量,也可以用于構(gòu)建知識問答。?
結(jié)構(gòu)
例子?
效果
經(jīng)濟學(xué)是一門對產(chǎn)品和服務(wù)的生產(chǎn)、分配以及消費進行研究的社會科學(xué)。西方語言中的“經(jīng)濟學(xué)”一詞源于古希臘的。
經(jīng)濟學(xué)注重的是研究經(jīng)濟行為者在一個經(jīng)濟體系下的行為,以及他們彼此之間的互動。在現(xiàn)代,經(jīng)濟學(xué)的教材通常將這門領(lǐng)域的研究分為總體經(jīng)濟學(xué)和個體經(jīng)濟學(xué)。微觀經(jīng)濟學(xué)檢視一個社會里基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經(jīng)濟學(xué)則分析整個經(jīng)濟體和其議題,包括失業(yè)、通貨膨脹、經(jīng)濟成長、財政和貨幣政策等。
其他的對照還包括了實證經(jīng)濟學(xué)(研究「是什么」)以及規(guī)范經(jīng)濟學(xué)(研究「應(yīng)該是什么」)、經(jīng)濟理論與實用經(jīng)濟學(xué)、行為經(jīng)濟學(xué)與理性選擇經(jīng)濟學(xué)、主流經(jīng)濟學(xué)(研究理性-個體-均衡等)與非主流經(jīng)濟學(xué)(研究體制-歷史-社會結(jié)構(gòu)等)。
經(jīng)濟學(xué)的分析也被用在其他各種領(lǐng)域上,主要領(lǐng)域包括了商業(yè)、金融、和政府等,但同時也包括了如健康、犯罪、教育、法律、政治、社會架構(gòu)、宗教、戰(zhàn)爭、和科學(xué)等等。到了21世紀(jì)初,經(jīng)濟學(xué)在社會科學(xué)領(lǐng)域各方面不斷擴張影響力,使得有些學(xué)者諷刺地稱其為「經(jīng)濟學(xué)帝國主義」。
在現(xiàn)代對于經(jīng)濟學(xué)的定義有數(shù)種說法,其中有許多說法因為發(fā)展自不同的領(lǐng)域或理論而有截然不同的定義,蘇格蘭哲學(xué)家和經(jīng)濟學(xué)家亞當(dāng)·斯密在1776年將政治經(jīng)濟學(xué)定義為「國民財富的性質(zhì)和原因的研究」,他說:
讓-巴蒂斯特·賽伊在1803年將經(jīng)濟學(xué)從公共政策里獨立出來,并定義其為對于財富之生產(chǎn)、分配、和消費的學(xué)問。另一方面,托馬斯·卡萊爾則諷刺的稱經(jīng)濟學(xué)為「憂郁的科學(xué)」(Dismal?science),不過這一詞最早是由馬爾薩斯在1798年提出。約翰·斯圖爾特·密爾在1844年提出了一個以社會科學(xué)定義經(jīng)濟學(xué)的角度:
.....
新聞?wù)Z料json版 (news2016zh)
250 萬篇新聞(原始數(shù)據(jù) 9G,壓縮文件 3.6G;新聞內(nèi)容跨度:2014-2016 年)
下載鏈接(密碼: film):
https://pan.baidu.com/s/1LJeq1dkA0wmYd9ZGZw72Xg
數(shù)據(jù)描述
包含了 250 萬篇新聞。新聞來源涵蓋了 6.3 萬個媒體,含標(biāo)題、關(guān)鍵詞、描述、正文。
數(shù)據(jù)集劃分:數(shù)據(jù)去重并分成三個部分。訓(xùn)練集:243 萬;驗證集:7.7 萬;測試集,數(shù)萬,不提供下載。
可能的用途:可以做為【通用中文語料】,訓(xùn)練【詞向量】或做為【預(yù)訓(xùn)練】的語料;也可以用于訓(xùn)練【標(biāo)題生成】模型,或訓(xùn)練【關(guān)鍵詞生成】模型(選關(guān)鍵詞內(nèi)容不同于標(biāo)題的數(shù)據(jù));亦可以通過新聞渠道區(qū)分出新聞的類型。
結(jié)構(gòu)
其中,title是新聞標(biāo)題,content是正文,keywords是關(guān)鍵詞,desc是描述,source是新聞的來源,time是發(fā)布時間
例子
百科類問答json版 (baike2018qa)
150 萬個問答(原始數(shù)據(jù) 1G 多,壓縮文件 663M;數(shù)據(jù)更新時間:2018 年)
下載鏈接(密碼: fu45):
https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA
數(shù)據(jù)描述
含有 150 萬個問題和答案,每個問題屬于一個類別。總共有 492 個類別,其中頻率達(dá)到或超過 10 次的類別有 434 個。
數(shù)據(jù)集劃分:數(shù)據(jù)去重并分成三個部分。訓(xùn)練集:142.5 萬;驗證集:4.5 萬;測試集,數(shù)萬,不提供下載。
可能的用途:可以做為通用中文語料,訓(xùn)練詞向量或做為預(yù)訓(xùn)練的語料;也可以用于構(gòu)建百科類問答;其中類別信息比較有用,可以用于做監(jiān)督訓(xùn)練,從而構(gòu)建更好句子表示的模型、句子相似性任務(wù)等。
結(jié)構(gòu)
其中,category是問題的類型,title是問題的標(biāo)題,desc是問題的描述,可以為空或與標(biāo)題內(nèi)容一致。
例子
公開評測
歡迎報告模型在驗證集上的準(zhǔn)確率。任務(wù) 1: 類別預(yù)測。?
報告包括:#1)驗證集上準(zhǔn)確率;#2)采用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)
基于#2和#3,我們會在測試集上做測試,并報告測試集上的準(zhǔn)確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標(biāo)記為未驗證。
翻譯語料 (translation2019zh)
520 萬個問答( 原始數(shù)據(jù) 1.1G,壓縮文件 596M)
下載鏈接:
https://storage.googleapis.com/nlp_chinese_corpus/translation2019zh.zip
數(shù)據(jù)描述
中英文平行語料 520 萬對。每一個對,包含一個英文和對應(yīng)的中文。中文或英文,多數(shù)情況是一句帶標(biāo)點符號的完整的話。
對于一個平行的中英文對,中文平均有 36 個字,英文平均有 19 個單詞(單詞如“she”)
數(shù)據(jù)集劃分:數(shù)據(jù)去重并分成三個部分。訓(xùn)練集:516 萬;驗證集:3.9 萬;測試集,數(shù)萬,不提供下載。
可能的用途:可以用于訓(xùn)練中英文翻譯系統(tǒng),從中文翻譯到英文,或從英文翻譯到中文;由于有上百萬的中文句子,可以只抽取中文的句子,做為通用中文語料,訓(xùn)練詞向量或做為預(yù)訓(xùn)練的語料。英文任務(wù)也可以類似操作。
結(jié)構(gòu)?
其中,english是英文句子,chinese是中文句子,中英文一一對應(yīng)。
例子
公開評測
歡迎報告模型在驗證集上的準(zhǔn)確率。任務(wù) 1: 類別預(yù)測。?
報告包括:#1)驗證集上準(zhǔn)確率;#2)采用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)
基于#2和#3,我們會在測試集上做測試,并報告測試集上的準(zhǔn)確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標(biāo)記為未驗證。
貢獻(xiàn)語料/Contribution
貢獻(xiàn)中文語料,請發(fā)送郵件至:
nlp_chinese_corpus@163.com
為了共同建立一個大規(guī)模開放共享的中文語料庫,以促進中文自然語言處理領(lǐng)域的發(fā)展,凡提供語料并被采納到該項目中,除了會列出貢獻(xiàn)者名單(可選)外,我們會根據(jù)語料的質(zhì)量和量級,選出前 20 個同學(xué),結(jié)合您的意愿,寄出鍵盤、鼠標(biāo)、顯示屏、無線耳機、智能音箱或其他等值的物品,以表示對貢獻(xiàn)者的感謝。
點擊以下標(biāo)題查看更多往期內(nèi)容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進展論文
F-Principle:初探理解深度學(xué)習(xí)不能做什么
自然語言處理中的語言模型預(yù)訓(xùn)練方法
兩行代碼玩轉(zhuǎn)Google BERT句向量詞向量
AI Challenger 2018 機器翻譯參賽總結(jié)
Google BERT應(yīng)用之紅樓夢對話人物提取
深度長文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的NLP Chinese Corpus:大规模中文自然语言处理语料的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度思考 | 从BERT看大规模数据的无
- 下一篇: 逃离数学焦虑、算法选择,思考做好机器学习