报告题目:基于相位谱预测的神经网络声码器
报告人:凌震华 教授
报告时间:2023年9月25日10: 00-12:00
报告地点:皇冠西配楼215会议室
邀请人:陈景东 教授
报告人简介:
凌震华,中国科学技术大学信息学院教授、博士生导师,语音及语言信息处理国家工程研究中心副主任,入选教育部CJ学者校企联聘学者。主要从事语音信号处理、自然语言处理等方向的研究。主持多项国家自然科学基金、国家重点研发计划课题、安徽省语音专项等科研项目,已发表论文200 余篇,累计被引8000余次,获国家科技进步奖二等奖、IEEE信号处理学会最佳青年作者论文奖等奖项。在Blizzard Challenge、 Voice Conversion Challenge等国际语音技术评测中多次获得测试指标第一名。曾任IEEE/ACM TASLP期I编委,现为IEEE高级会员、IEEE信号处理学会语音与语言处理技术委员会委员、中国计算机学会语音听觉与对话专委会执行委员、全国人机语音通讯学术会议常设机构委员会委员。
报告简介:语音合成是语音信号处理与人工智能领域的重要研究方向,声码器是统计参数语音合成的核心模块。目前,神经网络声码器重构语音质量相比于传统源-滤波器声码器提升显著,但直接预测点级的语音波形仍存在生成效率低的问题。为此,我们提出了一种幅度相位谱分级预测的神经网络声码器HiNet,分别预测语音幅度和相位谱后再重构波形。然而,受限于相位的卷绕性质,HiNet声码器并未实现相位的直接建模和全帧级的语音生成。进一步地,我们根据语音相位谱的特点,提出了一个新的神经网络语音相位预测模型NSPP,通过引入相位平行估计架构和抗卷绕损失,实现了对语音相位谱的直接精确预测。基于该相位预测模型,我们提出了幅度相位谱平行直接预测的全恢级神经网络声码器APNet,在保证生成质量的前提下提升了生成效率。除声码器之外,该相位预测模型也应用于语音增强等其他语音生成任务,取得了良好效果。