Hifigan感受野计算
HIFIGAN架构解析与感受野计算
HIFIGAN主要包括生成器和判别器,码分而最终推理仅需关注生成器。码分生成器由conve_pre、码分upsample*num_kernels个resblocks、码分conv_post三大组件构成。码分规范小程序源码
分析模型结构,码分源码 nft感受野大小主要受resblocks影响。码分resblocks由三个模块组成,码分每个模块包含一个空洞卷积与一个传统卷积。码分空洞卷积相当于卷积核变大,码分其视野宽度取决于diated因子。码分一个resblocks实质等同于六个1d卷积。码分
每个resblocks由三组(diated_conv1d+conv1d)构成,码分叁叁柒源码diated_rates为[1,码分3,5]。在每次卷积前,码分左右pad长度为(kernel_size-1)//2。以一组(diated_conv1d+conv1d)为例,mearm源码包括四个卷积层,kernel_size为3。空洞卷积的感受野大小可通过爱嘉牛LA提供的公式计算。
总结规律,梅花源码当前组所有层的卷积核大小决定最上层的感受野大小。根据公式计算,可得当前组感受野大小。
在生成器中,通过模拟源码的卷积方式,可计算出感受野大小。基于config_v1.json配置文件,upsample_rates设定为[8, 8, 2, 2],最终感受野为.帧。考虑到上采样后再卷积,需转换为帧的感受野大小,细节计算见源码。
2024-12-28 23:41
2024-12-28 22:22
2024-12-28 21:27
2024-12-28 21:26
2024-12-28 21:24