语音识别 标签

PPASR语音识别(入门级)

  |   0 评论   |   0 浏览   |   夜雨飘零

在数据预处理方便,本项目主要是将音频执行梅尔频率倒谱系数(MFCCs)处理,然后在使用出来的数据进行训练,在读取音频时,使用 librosa.load(wav_path, sr=16000) 函数读取音频文件,再使用 librosa.feature.mfcc() 执行数据处理。MFCC 全称梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与 Hz 频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的 Hz 频谱特征,主要计算方式分别是预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT),最后提取语音数据特征和降低运算维度。本项目使用的全部音频的采样率都是 16000Hz,如果其他采样率的音频都需要转为 16000Hz,create_manifest.py 程序也提供了把音频转为 16000Hz。

基于Pytorch实现的MASR中文语音识别

  |   0 评论   |   0 浏览   |   夜雨飘零

MASR 使用的是门控卷积神经网络(Gated Convolutional Network),网络结构类似于 Facebook 在 2016 年提出的 Wav2letter,只使用卷积神经网络(CNN)实现的语音识别。但是使用的激活函数不是 ReLU 或者是 HardTanh,而是 GLU(门控线性单元)。因此称作门控卷积网络。根据我的实验,使用 GLU 的收敛速度比 HardTanh 要快。

  • 以下用字错误率 CER 来衡量模型的表现,CER = 编辑距离 / 句子长度,越低越好,大致可以理解为 1 - CER 就是识别准确率。