1.Kaldi(1): 安装
2.新一代 Kaldi: 有 TTS Runtime 啦!码分
Kaldi(1): 安装
Kaldi是码分一个基于C++开发并遵循Apache License v2.0的语音识别工具包,它目前是码分ASR领域最受欢迎的工具之一。本文将基于Ubuntu . LTS系统,码分向您介绍Kaldi的码分安装方法。
安装Kaldi的码分源码卖第一步是按照官网提供的kaldi-asr.org/doc/tutor...指南,将Kaldi项目克隆至本地。码分
在克隆完项目后,码分进入kaldi-trunk目录,码分查看INSTALL文件的码分内容。
根据INSTALL文件的码分内容,我们需要先进入tools目录,码分并按照提示进行安装。码分完成tools目录的码分安装后,再进入src目录,码分继续按照提示进行安装。
在进入tools目录后,我们需要查看INSTALL文件的内容。根据文件内容,我们首先需要进入extras目录,并运行脚本check_dependencies.sh来检查各种依赖是PowerJob源码解读否安装。
进入extras目录并运行check_dependencies.sh脚本。
运行check_dependencies.sh脚本后,如果出现任何提示表明某些库未安装,应按照提示解决,直到运行check_dependencies.sh后出现“All OK.”的提示。
然后,返回上一级目录,进行编译。如果是在虚拟机上,建议使用make而非make -j 4,nsight源码阅读以避免因内存不足导致编译失败。在src目录下的编译也遵循同样的原则。
编译完成后,可能会提示irstlm未安装。此时,可以运行extras/install_irstlm.sh安装irstlm,但即使没有安装也可以先继续完成整个Kaldi的安装。
进入src目录,查看INSTALL文件的内容。
运行configure --shared命令。和龙网站源码
运行configure命令后,务必仔细阅读显示的提示,它可能和上文所示的内容有所区别。提示中会提醒你有哪些东西没安装好,并给出指导。遵循这些指导完成相关依赖的安装,直到运行configure后出现如上文所示的提示,提示的最后显示“SUCCESS To compile: ……”,此时才能进行后面的步骤。
执行最后的急速源码论坛步骤,编译Kaldi的源码。编译过程可能需要半个小时到一个小时,如果编译过程中未出现红色的error,最后出现“Done”,表明编译成功。
最后,运行一个例程来检验安装是否成功。运行egs/yesno/s5目录下的run.sh脚本。
如果出现如上文所示的结果,表明Kaldi安装成功。
新一代 Kaldi: 有 TTS Runtime 啦!
安装方式包括快速安装和源码编译。快速安装命令支持多种平台,详细信息可参考文档。对于使用其他语言API,如C/C++/Go/Kotlin/C#/Swift等需求,文档提供相应指南。
模型下载从网上获取。有三个开源VITS预训练模型可选,文档中包含详细下载方法。下载模型后,需注意支持嵌入式Linux,包括树莓派等。
使用模型前,还需下载特定Python文件。此文件可从GitHub仓库获取。
中文与英文多说话人模型的使用方法相似,主要差异在于模型文件的替换。速度调整可通过参数实现,如使用2倍速或0.8倍速。
体验sherpa-onnx中的文字转语音功能有三种方式:下载预编译的Android APK、在线体验和Windows可执行程序。Android APK提供下载链接,运行截图显示其使用效果。在线体验路径在Huggingface空间中提供,运行截图展示在线体验界面。Windows可执行程序无需额外安装,下载地址已提供。
总结,通过本教程,读者可了解如何使用sherpa-onnx实现文字到语音的转换。未来,我们计划在icefall中支持模型训练功能,以提升模型的灵活性与自定义性。