kaldi语音识别实战pdf_语音识别相关工具和资料分享
作者:帥帥家的人工智障
原創(chuàng)文章,轉(zhuǎn)載請申請原作者同意
常見的語音相關(guān)工具很多,這里介紹幾種常見的工具。主要有Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi、ESPnet、其他語音識別工具。常用的Kaldi,也有端到端的工具ESPnet等。Kaldi
Kaldi是 danpovey大神使用C++編寫的開源語音識別工具集。目前占據(jù)整個語音識別工具的半邊天。目前danpovey已經(jīng)加入國內(nèi)公司小米。
1 . 資源:
文檔:http://kaldi-asr.org/doc/build_setup.html
論文:http://publications.idiap.ch/downloads/papers/2012/Povey_ASRU2011_2011.pdf
kaldi作者Dan Povey's博客:http://www.danielpovey.com/kaldi-lectures.html
gitbook上面中文教程Chinese Doc of Kaldi:https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html 版本比較老。
2 . 截止到2019年11月底github活躍情況:
kaldi語音識別大神povery的課程資料,帥帥家的人工智障公眾號直接回復(fù):201912151PyTorch-Kaldi
Pytorch-Kaldi是一個開源的state-of-the-art DNN/RNN用于語音識別的項目。DNN部分依賴于Pytorch,數(shù)據(jù)預(yù)處理、特征提取、解碼等依賴于Kaldi。
1 . 資源:
github:https://github.com/mravanelli/pytorch-kaldi
論文:https://arxiv.org/abs/1811.07453
vedio:https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s
Next Version: SpeechBrain
2 . 截止到2019年11月底github活躍情況:
嗶哩嗶哩視頻鏈接:https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881SpeechBrain
SpeechBrain項目旨在完全基于PyTorch構(gòu)建新穎的語音工具包。借助SpeechBrain,用戶可以輕松創(chuàng)建語音處理系統(tǒng),范圍包括語音識別(HMM / DNN和端到端的系統(tǒng)),說話人識別,語音增強,語音分離,多麥克風(fēng)語音處理等。
目前只有預(yù)告還沒有正式發(fā)布
1 . 資源:
主頁:https://speechbrain.github.io/
github:https://github.com/speechbrain/speechbrain.github.io
vedio:https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be
2 . 截止到2019年11月底github活躍情況:
嗶哩嗶哩視頻鏈接:https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986pykaldi
PyKaldi是Kaldi語音識別工具包的Python腳本層。為Kaldi和OpenFst庫中的C ++代碼提供了易于使用,開銷低,一流的Python包裝器。可以使用PyKaldi編寫Python代碼來完成其他需要編寫C ++代碼的事情,例如調(diào)用低級Kaldi函數(shù),在代碼中操作Kaldi和OpenFst對象或?qū)崿F(xiàn)新的Kaldi工具。
1 . 資源:
文檔:https://pykaldi.github.io/
github:https://github.com/pykaldi/pykaldi
論文:https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf
2 . 截止到2019年11月底github活躍情況:
ESPnet
ESPnet是一個端到端的語音工具,專注于端到端的語音識別和端到端的文本轉(zhuǎn)語音。使用chainer和pytorch作為主要的深度學(xué)習(xí)引擎(框架)。遵循kaldi風(fēng)格的數(shù)據(jù)處理、特征提取和格式化等。提供了一個完整的pipline。
1 . 資源:
文檔:https://espnet.github.io/espnet/
github:https://github.com/espnet/espnet
論文:https://arxiv.org/abs/1804.00015?context=cs
2 . 截止到2019年11月底github活躍情況:
圖像那邊也有一個ESPnet,比如這個語義分割的演示視頻:https://www.bilibili.com/video/av48838117?from=search&seid=3905488616269165989其他語音工具
1 . 其他著名語音識別引擎及其特點:
2 . 移動或者手機端:
3 . 還有一些wiki的可以參考的:
wiki: https://en.wikipedia.org/wiki/List_of_speech_recognition_software我之前上傳b站的一些國外的語音相關(guān)的視頻
- 【 語音自然語言深度學(xué)習(xí)課程 】Deep Learning for Speech and Language(合輯)(英文字幕部分)
https://www.bilibili.com/video/av38854819/
- 【 語音 Speaker Recognition 】A Novel Method for Speaker Recognition without Active Enrollment(英文字幕)
https://www.bilibili.com/video/av36308563/
- 【 語音Speaker Verification 】Generalized End-to-End Loss for Speak(英文字幕)
https://www.bilibili.com/video/av36308874/
- 【語音 Speaker Verification】Deep Neural Network Embeddings for Text-Independe(英文字幕)
https://www.bilibili.com/video/av36308701/
- 【 兩分鐘論文 】This AI Learned To Isolate Speech Signals(英文字幕)
https://www.bilibili.com/video/av35977892/
相關(guān)推薦閱讀
? 免費中文語音數(shù)據(jù)集
歡迎關(guān)注我的公眾號“帥帥家的人工智障”,或者同名 微博,一起學(xué)習(xí)提升。
總結(jié)
以上是生活随笔為你收集整理的kaldi语音识别实战pdf_语音识别相关工具和资料分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何让两个输入框保持长度一直_投篮如何保
- 下一篇: python pyecharts_Pyt