飙血推荐
  • HTML教程
  • JavaScript基础教程
  • MySQL教程
  • JavaScript正则表达式运用
  • php入门教程
  • Excel函数教程
  • AngularJS教程
  • ThinkPHP5.0教程
  • UEditor使用文档

论文翻译:2020_ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NE

时间:2022-05-31  作者:weixiao9349426  

论文地址:https://ieeexplore.ieee.org/abstract/document/9413510

基于双信号变换LSTM网络的回声消除

摘要

  本文将双信号变换LSTM网络(DTLN)应用于实时声学回声消除(AEC)任务中。DTLN结合了短时傅里叶变换和堆叠网络方法中的学习特征表示,这使得在时频和时域(也包括相位信息)中能够进行鲁棒的信息处理。该模型仅在真实和合成回声场景下训练60小时。训练设置包括多语言语音、数据增强、附加噪音和混响,以创建一个可以很好地适用于各种现实环境的模型。DTLN方法可在干净和嘈杂的回声条件下产生最先进的性能,从而有效地减少了回声和额外的噪声。在平均意见得分(MOS)方面,该方法比AEC挑战基准高出0.30。

关键字:AEC,实时,深度学习,音频,语音通信

1 引言

  在音频/视频通话中,如果扬声器的声音由近端扬声器播放,并被近端麦克风接收,就会出现声学回声。听到自己声音的回声的结果是非常恼人的,加大聆听力度是语音研究中的紧迫话题,尤其是对于远程情景而言,可靠的通信解决方案越来越重要。消除回声的一个标准方法是估计从扬声器到麦克风的脉冲响应,通过一个自适应滤波器,如归一化最小均方(NLMS)[1],并用估计的脉冲响应滤波远端信号。从近端传声器信号中减去这个估计信号。这种方法在只有远端信号存在且麦克风没有录下近端语音的情况下工作得最好。在远端和近端语音的情况下,也称为双说话场景,滤波器将不能正确适应或发散[2]。在这种情况下,双说话检测器经常被用来暂停适应。

  近年来,深度学习和神经网络已被应用于声学回声消除,并取得了令人信服的结果[3,4,5,6]。有几种方法将神经网络和自适应滤波器结合在混合系统中[4,5,6]。从深度学习的角度来看,AEC任务可以看作是一个语音或音频源分离问题[3]。近年来,语音分离领域取得了快速的发展[7,8,9]。但是,说话人分离的模型通常专注于序列处理而不是因果实时处理。由于不希望有高延迟,并且会增加语音通信的工作量,因此需要能够在帧基础上进行实时处理的系统。诸如门控循环单元(GRU)[10]或长期短期记忆(LSTM)[11]网络之类的循环神经网络(RNN)通常用于具有实时功能的模型。由于LSTM和GRU具有门和状态的信元结构,因此可以根据语音信号的要求,在帧的基础上对时间序列进行建模。在[3,4,5]中,已经将RNN应用于AEC问题。Interspeech 2020 [12]的深度噪声抑制挑战表明,各种架构都可以应用于实时信号增强[13,14,15]。为了解决AEC作为类似主题的问题,提出了AEC挑战[16],其目的是基于ITU P.808框架[17]提供一套通用的训练数据和客观评估,以比较各种方法。

  在本文中,双信号变换LSTM网络[15]适用于实时回声消除(DTLN-AEC)。原始的DTLN模型在消声,混响和实时测试集的实时场景中显示出了降低噪声的有益和鲁棒性[15]。它在堆叠网络方法中将短时傅立叶变换(STFT)与基于1D-Conv层的学习型特征表示相结合。该模型基于时频(TF)域和学习的特征域中的比率掩蔽(ratio masking)。由于这种设计选择,它可以利用STFT大小和学习到的特征表示的信息。由于尚不清楚这种方法是否有利于AEC,我们在此背景下应用该模型,旨在构建一个直接的基于RNN的端到端AEC系统,该系统可以很容易地集成到常见的信号处理链中。对于这个新的应用程序,通过将远端信号作为附加信息提供给每个模型块来扩展原始模型。这种扩展类似于[3]中所追求的过程,重要的区别是我们使用的是因果LSTM而不是因果BLSTM。最近的出版物表明,精心选择的训练设置和数据增强[18,19]对于实现语音增强的高质量语音至关重要。因此,本研究的第二个目标是通过广泛的数据增强来覆盖混响和多语言语音,从而提高AEC的鲁棒性。

2 方法

2.1 问题公式化

  对于回声消除系统,通常有两个输入信号,麦克风信号y(n)和远端麦克风信号x(n)。近端麦克风信号可以描述为以下信号的组合:

\[y(n)=s(n)+v(n)+d(n)  (1) \]

其中s(n)为近端语音信号,v(n)为可能的近端噪声信号,d(n)对应的回声信号是远端麦克风信号x(n)与传输路径h(n)的脉冲响应的卷积。传输路径是音频设备的缓冲所产生的系统延迟、扬声器的特性与放大器的结合以及近端扬声器与近端传声器之间的传递函数的组合。声回声场景如图1所示。所需要的信号是近端语音信号s(n),其他信号部分都应去掉。此任务为音频源分离任务。如果只有远端信号和噪声信号存在,那么需要的信号是无声的。

图1 带有附加噪声的回声情况的图示

2.2 适于AEC的DTLN模型

  在Interspeech 2020[12]的DNS挑战背景下,开发了双信号变换LSTM网络(DTLN)[15],以减少嘈杂混合语音中的噪声。DTLN方法适用于AEC任务(DTLN-AEC),如下所述。

  网络由两个分离的核组成。每个分离核有两个LSTM层和一个全连接层,使用sigmoid激活来预测掩模。第一个分离核由近端传声器信号和远端传声器信号的归一化对数功率谱串联馈电。每个麦克风信号都通过即时层标准化(instant layer normalization,iLN)分别标准化,以解决电平变化问题。即时层标准化类似于标准层标准化[20],其中每一帧都被单独标准化,但不会随着时间累积统计信息。这个概念是在[21]中作为信道层(channel-wise layer)规范化引入的。第一个核心预测了一个时频掩模,该掩模应用于近端传声器信号的非归一化幅度STFT。利用原始近端传声器信号的相位,用逆FFT将估计的幅度转换回时域。

  第二个核心使用由1D - conv层创建的学习特征表示。这种方法受到[9,22]的启发。将先前预测的信号的归一化特征表示和前边传声器信号的归一化特征表示馈入该核。为了将两个信号转换到时域,应用了相同的权值,但是分别使用iLN进行归一化以针对每个表示实现单独的缩放和偏置。第二核的预测掩码与第一个核输出的未归一化的特征表示相乘。这个估计的特征表示用一个1D - conv层转换回时域。为了重建连续时间信号,使用了重叠加过程。模型架构如图2所示。

  对于回声消除任务,选择帧长为32 ms,帧移位为8 ms。FFT大小为512,学习到的特征表示大小也是512。由于从语音中去除语音和噪声是相当具有挑战性的,因此与[15]中相当小的模型相比,我们选择了每层512个LSTM单元。这导致当前模型总共有1030万个参数。此外,我们还训练了每层128和256个单元的模型,以探究模型性能是如何随尺寸变化的。

图2 DTLN-AEC模型架构示意图

左边的处理链显示利用STFT信号变换

(用于近端和远端麦克风信号的分段和FFT分割) 的第一个分离核心;

右边的构建块代表具有学习功能转换的第二个核心

基于1D-conv层应用于第一核心和分段远端麦克风的输出信号。

2.3 数据集和数据集准备

  该挑战提供了两个训练数据集,一个是合成数据,一个是真实记录。合成数据集是从为[12]创建的数据集派生的。该数据集包括10,000个示例,包含单话音、双话音、近端噪声、远端噪声和各种非线性失真情况,其中每个示例包含远端语音、回声信号、近端语音和近端麦克风信号。前500个示例包含说话者的数据,这些数据不包含在任何其他测试数据集中。本数据集将用于仪器评估,称为“双语测试集”。更多细节,请参阅描述AEC挑战[16]的论文。在训练时,只使用远端信号和回声信号,并将其分割成4秒的大块。真实数据集由不同的真实环境组成,其中包含人类说话人和用不同设备捕获的信号。关于这一数据的详细信息在[16]中提供。与前面一样,只有远端信号和回声信号在这个数据集中以4秒为单位使用。为了使用P.808框架进行评估,挑战组织者提供了一个盲测试集。盲测集由大约800段录音组成,这些录音被分为一个干净的和有噪声的子集。

  从[23]收集的多语言数据中选择干净的语音作为近端信号。该数据集包含法语、德语、意大利语、汉语、英语、俄语和西班牙语。在[23]中描述了原始数据的各种来源。德国的数据由于质量差而被排除在外。将语音信号分割成持续时间为4s的样本。RMS小于等于零的样本将被丢弃,四舍五入误差可能导致RMS小于零。作为排除噪声信号的附加机制,每个文件都通过[15]中提出的语音增强模型进行处理,通过从噪声信号中减去估计的语音信号来估计一个语音和一个噪声信号。当信噪比低于5db时,语音文件被丢弃。最后,从每种语言中提取20小时,建立一个120小时的多语言语音数据集。

  为了覆盖回声场景中具有高方差的噪声类型,我们使用了[23]提供的噪声语料库。和之前一样,噪声文件被切割成4秒的样本,每个均方根值RMS小于或等于0的样本都被丢弃。此外,还加入了来自MUSAN语料库[24]的器乐(同样经过4s分段)。这导致大约140小时的噪声。

  最后,使用[25]收集的脉冲响应(IR)数据集,构建反映不同混响量影响的真实回声场景。数据集包含来自各种源的真实脉冲响应,如[26,27,28],以及基于图像方法[29]的模拟脉冲响应。对于每个脉冲响应,直接路径起点都已确定,并设置为位置0,正如[19]中建议的那样。

预训练模型DTLN-aec: https://github.com/breizhn/

2.4 训练和数据增强

  所有训练样本在训练过程中在线生成,不使用固定的近端语音、远端语音、噪声和IRs组合。总共使用了60小时的回声场景,48小时用于训练,剩余的12小时用于训练验证。训练时,使用挑战赛组织者提供的所有远端和回声信号(大约32小时的数据)。为了创建额外的回声数据,使用了之前创建的多语言数据集中的28小时语音。每个语音文件与随机选择的IR进行卷积,每个IR除以第一个样本的绝对值。在下一步中,除第一个样本外的所有样本都乘以从-25到0之间的均匀分布中随机获得的增益,以增加IRs。这个过程再次受到[19]的启发。

  在50%的情况下,噪声样本中会添加一个从正态分布中随机抽取的SNR,其平均值为5 dB,标准偏差为10 dB,以解决嘈杂的远端信号。为了创建回声信号,先前创建的远端信号被延迟一个10到100毫秒之间的随机值,以模拟处理和传输延迟。延迟信号被一个带通信号滤波,这个带通信号随机地具有较低的截止频率 和较高的截止频率 。这一步引入了额外的方差,并对设备内扬声器,特别是在低频区域通常较差的声传输特性进行了建模。最后,回波信号以与近端信号相同的IR进行卷积。由于原始质询数据集已经涵盖了此方面,因此不包括其他非线性。

  对于近端信号,使用来自多语言数据集的60h。每个语音文件由随机选择的IR信号进行卷积,IR信号按合成远端信号的比例进行随机缩放。为了提高语音信号的鲁棒性,将[18]降噪建议的随机谱整形方法应用于语音信号,并对各种传输效果进行建模。

  在70%的情况下,噪声被添加到近端语音,其信噪比从均值为5和标准偏差为10的正态分布中获取,从而将焦点转移到更具挑战性的近端噪声状态。随机频谱整形也独立应用于噪声信号。

  在5%的情况下,随机持续时间的近端语音片段被丢弃,以考虑到只有远端场景。在90%的情况下,回声信号被添加到近端语音,其语音-回声比取自一个正态分布,其均值为0dB,标准偏差为10dB。回声信号和远端语音信号都采用了随机谱整形。如果没有回声,则将远端信号设置为零,或者设置为-70到-120dB RMS范围内的低噪声,并随机进行频谱整形。作为模型输入的所有信号都受到随机增益的影响,增益从均匀分布中选择,范围从-25到0dB。

  选取[30]中首次提出的时域信噪比损失作为代价函数。信噪比损失是尺度相关的,这对于实时应用是可取的,并且隐含地集成相位信息,因为它是在时域计算的。使用Adam优化器[31]对模型进行100个epoch的训练,初始学习率为2e-4对512个LSTM单元,5e-4对256个单元,1e-3对128个单元。学习速率每两个epoch乘以0.98。应用值为3的梯度范数裁剪。批量设置为16个,样本长度设置为4s。在连续LSTM层之间引入25%的dropout以减少过拟合。使用验证集对模型的每个epoch进行评估,并使用验证集上性能最好的模型进行测试。

2.5 基线系统

  挑战赛组织者还提供了一个基于[32]的基线。基线包括两个GRU层和一个完全连接的网络,通过sigmoid激活来预测时频掩模。该模型采用传声器和回环信号的串联短时对数功率谱,预测了一种用于传声器信号STFT幅度的谱抑制掩模。利用传声器信号的相位,将预测的幅度谱用STFT逆变换回时域。由于基线模型在挑战中无法访问,一个额外的基线系统被训练来量化堆叠网络的性能,与使用时频屏蔽的连续LSTM层模型相比。该模型有四个连续的LSTM层,每个层有512个单元,然后是一个完全连接的部分,通过sigmoid激活来预测TF-mask。模型的输入等于DTLN-AEC模型的第一个分离核。掩模与近端传声器信号的非规格化幅度相乘,然后转换回时域。这种配置导致模型的参数为8.5M。该模型使用与DTLN-AEC模型相同的设置进行训练。

2.6 客观与主观评价

  广泛使用的PESQ[33]和ERLE[34]评价AEC系统的方法往往与主观评级[16]相关性不强。然而,如果模型按预期运行,客观的度量可以作为指示。因为用于仪器评估的数据集只包含双对话场景,而且因为AEC问题被视为一个源分离问题,所以SI-SDR[35]被用来评估分离性能。此外,PESQ被用来表示语音质量。这些度量用于用于在双向通话测试集上比较其他基准和大小不同的DTLN-aec模型。

  为了更好地了解AEC的真实表现,挑战赛组织者在Amazon Mechanical Turk平台上基于ITU P.808众包框架[17]进行了一项研究。共有四种情况评估:单话近端(P.808),单话远端(P.831[36]),双话回声(P.831)和双话其他干扰(P.831)。有关评级过程的更多细节,请参阅[16]。

3 结果

  客观评价和主观评价结果分别见表1和表2。

表1 基于PESQ [MOS]和SI-SDR [dB]的双通话测试集的净噪声远端信号、近端噪声信号和远端和近端噪声信号子集的结果。

表2 根据MOS对AEC-Challenge盲测集的主观评分。对于无噪声子集(ST =单端,DT =双端,NE =近端,FE =远端),置信区间为0.02。

  客观结果:对于所有的情况,所有的模型都比未处理的情况有改善。DTLN-aec的最大改进是512个单元,DTLN-aec的最小改进是128个单元。256个单元和512个单元的模型优于基线。在所有模型的所有噪声条件下,PESQ和SI-SDR相对于未处理条件的改善相对稳定。对于512个单元的模型,在所有条件下SI-SDR的平均改善为14.24 dB, PESQ的平均改善为0.78 MOS。

  主观结果: 在所有情况下,除了干净的单方通话近端情况外,DTLN-aec模型均优于AEC挑战基线。对于干净子集和噪声子集,MOS值的平均改善分别为0.34和0.26。

  执行时间的结果:为了遵守AEC 挑战的规则,一个音频帧的执行时间必须小于帧移,在我们的例子中是8毫秒。执行时间在两个cpu上测量,使用DTLN-aec的TensorFlow lite模型,每层512个LSTM单元。我们测量的执行时间为3.06 ms(使用2.6 GHz CPU的双核I5-3320M)和0.97 ms(使用3.5 GHz的I5-6600K四核CPU),两者都符合aec挑战规则。

4 讨论

  当比较不同大小的模型时,DTLN-aec模型似乎可以很好地扩展参数的数量:128个单元的小模型在有噪声的情况下已经达到了很好的改善,256个单元的模型在参数不到一半的情况下优于基线。这也显示了使用堆叠模型与使用四个连续LSTM层的模型相比的优势。对于AEC任务来说,使用具有更高建模能力的模型是一个优势,因为它不仅可以将语音从噪声中分离出来,还可以将语音从语音中分离出来,这可能是一个更具挑战性的任务——特别是当声音具有相似的特征时。对于为特定硬件量身定制的应用程序,模型的大小可以根据计算资源和功耗等约束条件来选择。

  包括四层基线在内的所有模型都显示出对双话测试集未处理信号的持续改进。这表明训练设置能够代表四种测试的双话条件的方差。在盲测试集上的结果也支持同样的结论。该模型显示,在所有包含回声信号或/和噪声的条件下,aec挑战基线都有改进。由于训练集只包含英语语音样本,所以我们的研究没有评估多语言的泛化,这应该在以后的研究中解决。在纯净的ST-NE条件下的结果表明,基线和DTLN-aec模型对无噪声和回声的纯净近端语音影响相似,对最优信号的不利影响非常有限。然而,在某些条件下,在收听处理后的信号时,仍然可以听到一些残余噪声。在未来对DTLN-aec模型的改进中,可以添加额外的降噪来进一步提高语音质量。为了减少仅在远端条件下的残留噪声,可以增加语音活动检测来检测近端语音并在没有近端语音的情况下对信号进行门控。

5 结论

  研究表明,双信号变换LSTM网络(DTLN-aec)可以成功地应用于实时声学回声消除。DTLN-aec在aec挑战的盲测试集和综合双语测试集上产生了最先进的性能,并在aec挑战中名列前五名。该模型在公开可用的数据上进行了广泛的数据增强训练,从而为现实世界的应用产生了可重复和鲁棒的模型。

6 参考文献

[1] Gerald Enzner, Herbert Buchner, Alexis Favrot, and Fabian Kuech, “Chapter 30. acoustic echo control,” Academic Press Library in Signal Processing, vol. 4, 12 2014.
[2] Jacob Benesty, Tomas Gansler, Dennis R Morgan, M Mohan Sondhi, ¨ Steven L Gay, et al., Advances in network and acoustic echo cancellation, Springer, 2001.
[3] H. Zhang and D. Wang, “Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” in INTERSPEECH, 2018.
[4] Amin Fazel, Mostafa El-Khamy, and Jungwon Lee, “Cad-aec: Context-aware deep acoustic echo cancellation,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6919–6923.
[5] Lu Ma, Hua Huang, Pei Zhao, and Tengrong Su, “Acoustic echo cancellation by combining adaptive digital filter and recurrent neural network,” arXiv preprint arXiv:2005.09237, 2020.
[6] Guillaume Carbajal, Romain Serizel, Emmanuel Vincent, and Eric Humbert, “Joint nn-supported multichannel reduction of acoustic echo, reverberation and noise,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2158–2173, 2020.
[7] John R Hershey, Zhuo Chen, Jonathan Le Roux, and Shinji Watanabe, “Deep clustering: Discriminative embeddings for segmentation and separation,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016, pp. 31–35.
[8] Morten Kolbæk, Dong Yu, Zheng-Hua Tan, and Jesper Jensen, “Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 10, pp. 1901– 1913, 2017.
[9] Yi Luo and Nima Mesgarani, “Tasnet: time-domain audio separation network for real-time, single-channel speech separation,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 696–700.
[10] Junyoung Chung, Caglar Gulcehre, Kyunghyun Cho, and Yoshua Bengio, “Empirical evaluation of gated recurrent neural networks on sequence modeling,” in NIPS 2014 Workshop on Deep Learning, December 2014, 2014.
[11] Sepp Hochreiter and Jurgen Schmidhuber, “Long short-term memory,” ¨ Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[12] Chandan KA Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, et al., “The interspeech 2020 deep noise suppression challenge: Datasets, subjective testing framework, and challenge results,” arXiv preprint arXiv:2005.13981, 2020.
[13] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, “A perceptually-motivated approach for low-complexity, real-time enhancement of fullband speech,” arXiv preprint arXiv:2008.04259, 2020.
[14] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, “Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement,” arXiv preprint arXiv:2008.00264, 2020.
[15] Nils L Westhausen and Bernd T Meyer, “Dual-signal transformation lstm network for real-time noise suppression,” arXiv preprint arXiv:2005.07551, 2020.
[16] Kusha Sridhar, Ross Cutler, Ando Saabas, Tanel Parnamaa, Hannes Gamper, Sebastian Braun, Robert Aichner, and Sriram Srinivasan,“Icassp 2021 acoustic echo cancellation challenge: Datasets and testing framework,” arXiv preprint arXiv:2009.04972, 2020.
[17] Babak Naderi and Ross Cutler, “An open source implementation of itu-t recommendation p. 808 with validation,” arXiv preprint arXiv:2005.08138, 2020.
[18] Sebastian Braun and Ivan Tashev, “Data augmentation and loss normalization for deep noise suppression,” in International Conference on Speech and Computer. Springer, 2020, pp. 79–86.
[19] Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, and Arvindh Krishnaswamy, “Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss,” arXiv preprint arXiv:2008.04470,2020.
[20] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton, “Layer normalization,” arXiv preprint arXiv:1607.06450,2016.
[21] Yi Luo and Nima Mesgarani, “Conv-tasnet: Surpassing ideal timefrequency magnitude masking for speech separation,” arXiv preprint arXiv:1809.07454, 2018.
[22] Yi Luo and Nima Mesgarani, “Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation,” IEEE/ACM transactions on audio, speech, and language processing, vol. 27, no.8, pp. 1256–1266, 2019.
[23] Chandan KA Reddy, Harishchandra Dubey, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, “Icassp 2021 deep noise suppression challenge,” arXiv preprint arXiv:2009.06122, 2020.
[24] David Snyder, Guoguo Chen, and Daniel Povey, “Musan: A music, speech, and noise corpus,” arXiv preprint arXiv:1510.08484, 2015.
[25] Tom Ko, Vijayaditya Peddinti, Daniel Povey, Michael L Seltzer, and Sanjeev Khudanpur, “A study on data augmentation of reverberant speech for robust speech recognition,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 5220–5224.
[26] Keisuke Kinoshita, Marc Delcroix, Takuya Yoshioka, Tomohiro Nakatani, Emanuel Habets, Reinhold Haeb-Umbach, Volker Leutnant, Armin Sehr, Walter Kellermann, Roland Maas, et al., “The reverb challenge: A common evaluation framework for dereverberation and recognition of reverberant speech,” in 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. IEEE, 2013, pp. 1–4.
[27] Satoshi Nakamura, Kazuo Hiyane, Futoshi Asano, Takanobu Nishiura, and Takeshi Yamada, “Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition,” LREC, 2000.
[28] Marco Jeub, Magnus Schafer, and Peter Vary, “A binaural room impulse response database for the evaluation of dereverberation algorithms,” in 2009 16th International Conference on Digital Signal Processing. IEEE, 2009, pp. 1–5.
[29] Jont B Allen and David A Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[30] Ilya Kavalerov, Scott Wisdom, Hakan Erdogan, Brian Patton, Kevin Wilson, Jonathan Le Roux, and John R Hershey, “Universal sound separation,” in 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019, pp. 175–179.
[31] Diederik P. Kingma and Jimmy Ba, “Adam: A method for stochastic optimization,” CoRR, vol. abs/1412.6980, 2015.
[32] Yangyang Xia, Sebastian Braun, Chandan KA Reddy,Harishchandra Dubey, Ross Cutler, and Ivan Tashev “Weighted speech distortion losses for neural-network based real-time speech enhancement,”in ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE, 2020, pp.871–875.
[33] “ITU-T P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs.,2001.
[34] “ITU-T G.168: Digital network echo cancellers.,2012.
[35] Jonathan Le Roux, Scott Wisdom, Hakan Erdogan, and
John R Hershey, “Sdr–half-baked or well done?,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2019, pp. 626–630.
[36] “ITU-T P.831: Subjective performance evaluation of network echo cancellers.,” 1998.

标签:编程
湘ICP备14001474号-3  投诉建议:234161800@qq.com   部分内容来源于网络,如有侵权,请联系删除。