网站制作

[工程菜谱]基于wenet搞csj数据集的日文asr(三)

更新时间：2025-01-08 19:07:25

经过长时间的准备，现在终于可以开始利用wenet处理csj日语语音识别数据集的深入实践了。以下是本次内容的概要：

本次文章将主要围绕csj日语语音识别数据集的预处理工作进行讲解。在文章的第一部分，我们讨论了如何通过nvidia支持多GPU的Docker环境运行代码。具体操作步骤包括从nvcr.io/nvidia/nemo:v1拉取Docker镜像，设置必要的运行参数，如词典大小、使用sentence piece进行bpe处理等。

文章的第二部分详细介绍了csj日语语音识别数据集的处理流程。首先，我们对包含500小时数据的csj语料进行了基本文件夹布局的描述。接下来，我们开始实际操作，通过设置Docker运行环境，为后续的数据处理工作做好准备。在配置文件中，词典大小被设置为4096，采用sentence piece进行bpe编码。

接下来，我们将详细介绍csj数据的处理流程。这部分内容包括了对xml文件的切割、wav文件的切割与转换、文本和wav.scp文件的构建、时长过滤、词典构造以及data.list文件的创建。对于xml文件的切割，我们编写了一个名为wn.0.parse.py的脚本来进行操作。wav文件的切割则通过csj_tools下的wn.1.split_wav.py实现，将wav文件转换为小文件，并对非双声道文件进行双声道到单声道的转换。

在构建文本和wav.scp文件时，我们使用了csj_tools下的wn.2.prep.text.py脚本。这个脚本接收xml.simp、wav.split等输入，并将数据分割为训练集、测试1、测试2和测试3。对于时长过滤，我们编写了一个脚本，根据最小时长（如0.1秒）来筛选音频文件。词典的构造是基于训练集文本信息完成的，最终得到的tokenizer模型包含了若干文件，用于进一步的语音识别任务。

文章的最后部分介绍了如何通过run.sh脚本执行模型训练任务。模型训练的代码被集成在run.sh中，执行后可以实时查看训练进度。所有相关代码与步骤都已详细记录，后续将根据实际情况进行更新。

标签：工程菜谱基于wenet搞csj数据集的日文asr三

上一篇：中文版FlashCS3网页动画制作轻松学会图书信息

下一篇：htm、html、shtml到底有什么区别

首页

网站制作

关于

服务

联系我们

与我们合作

您也可通过下列途径与我们取得联系：

[工程菜谱]基于wenet搞csj数据集的日文asr(三)