NLP语料、数据集
| 醫療NLP領域 https://github.com/lrs1353281004/Chinese_medical_NLP |
| 為中文自然語言處理領域發展貢獻語料 來自 <https://github.com/brightmart/nlp_chinese_corpus> 1.維基百科(wiki2019zh),100萬個結構良好的中文詞條 2.新聞語料(news2016zh),250萬篇新聞,含關鍵詞、描述 3.百科問答(baike2018qa),150萬個帶問題類型的問答 4.社區問答json版(webtext2019zh),410萬個高質量社區問答,適合訓練超大模型 5.翻譯語料(translation2019zh),520萬個中英文句子對 |
| Chinese-poetry: 最全中華古詩詞數據庫 來自 <【Github】Chinese-poetry: 最全中華古詩詞數據庫> |
| THUCTC: 一個高效的中文文本分類工具包 來自 <THUCTC: 一個高效的中文文本分類工具> |
?實體識別
https://github.com/CLUEbenchmark/CLUENER2020
清華大學開源的文本分類:CLUE
中文NLP.數據集搜索:https://www.cluebenchmarks.com/dataSet_search.html
綜合
CLUEDatasetSearch:中英文NLP數據集
幾乎最全的中文NLP資源庫
對話語料
chinese_chatbot_corpushttps://github.com/codemayq/chinese_chatbot_corpus
任務型對話:Task-Oriented-Dialogue-Research-Progress-Surveyhttps://github.com/AtmaHou/Task-Oriented-Dialogue-Research-Progress-Survey?用于對話系統的中英文語料https://github.com/candlewill/Dialog_Corpushttps://github.com/candlewill/Dialog_Corpus
總結
- 上一篇: Google开源项目风格指南-笔记
- 下一篇: UNICODE与UTF-8的转换