一、Fisher算法在语音声学模型分析中的研究与应用(论文文献综述)
俞永乾[1](2021)在《语音识别技术在铁路车务仿真培训系统中的应用研究》文中提出我国综合实力的提升促使国内铁路交通的飞速发展,铁路的安全运输就成了一个不可忽视的问题,在人力可控范围内将危险系数降至最低,行车指挥人员就起着决定性的作用。除调度等关键位置的人员紧缺外,铁总还下发文件强调铁路职工必须持证上岗,而到岗新职员在短时间内不能快速上手业务,因此车站就得配备相应的培训系统。随着现代技术的飞速发展,铁路车务仿真培训系统也探究结合语音识别技术,用于培训专业素质过硬的技术人才,然而现阶段的培训还停留在简单的流程操作层面,不能实现全方位立体培训人才的目的。针对以上问题,本文基于铁路车务仿真培训系统对铁路术语进行语音识别研究,将前沿技术与传统行业相结合,以此来提高培训效果,为以后的实现智能交通奠定基础。本文的主要研究内容如下:(1)现实生活当中噪音干扰会使语音识别准确率降低,传统的单通道降噪方法对非平稳的语音信号存在一定的局限性,而基于联合字典的降噪方法具有特征选择和可解释性的特点,在语音信号降噪方面被广泛使用,但其仍旧存在区分性不足等问题。针对该问题提出了一种改进联合字典降噪算法,首先用稀疏表示法表示语音信号和噪音信号经过短时傅里叶变换得到的频域幅度谱,其次对稀疏表示的字典实现双重稀疏表示,提升字典恢复能力和自适应性,然后在此基础上加入fisher区分性约束项,使得语音字典和噪音字典两者类间散度增大类内散度减小增加区分性,最后结合降噪语音的相位谱再利用短时逆傅里叶变换恢复出纯净语音信号,从而达到降噪的目的。实验结果表明,本文提出的改进联合字典降噪算法其感知语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)和输出信噪比(Signal Noise Ratio,SNR)均高于另外两种对比方法,降噪效果有了进一步的提升。(2)国内语音识别技术已经趋于成熟,但主要是面向大众群体,没有针对铁路行业进行研究,如果单纯将现阶段主流的语言识别软件引入,不能达到预期的识别效果。针对于铁路术语的特点,建立铁路语音特有的词典和训练数据,以此来探究适合于铁路语音识别的声学模型,首先利用隐马尔可夫模型分别结合深度神经网络、循环神经网络、长短时记忆神经网络和双向长短时记忆神经网络建立四种声学模型,训练后并将其应用与铁路术语的识别,对实验结果进行对比分析,四种声学模型中,Bi LSTMHMM模型在铁路术语语音识别的词错率最低。然而HMM模型本身存在一定的局限性,在训练声学模型前要做语音的对齐处理需要知道对应的标签,这都需要耗费一定的时间和尽力。进一步优化模型,本文将连接时序分类模型引入代替HMM模型。实验结果表明,使用Bi LSTM-CTC模型比Bi LSTM-HMM混合模型更便利,模型的词错率进一步降低。
沈侃文[2](2021)在《基于机器学习的OSAHS鼾声识别技术研究》文中指出打鼾是人们日常生活中一种常见现象,患有打鼾症状的人在人群中的比例已达到20%~40%。打鼾不仅给患者带来麻烦并影响患者的同伴,而且还威胁着患者的健康。阻塞性睡眠呼吸暂停综合征是一种呼吸系统疾病,打鼾是其主要症状之一,白天的时候患者容易疲倦,同时会引起心血管疾病。当前,诊断和分析该疾病的主要技术方法是多导睡眠图(Polysomnogram,PSG),但它需要患者在睡眠实验室住一整晚且在患者身上需要连接大量的生理电极。鼾声信号的声学分析方法由于它“非侵入式”、低成本和实用等特性,引起了众多学者的关注和研究,具有很大的发展潜能。因此,有必要对OSAHS病理鼾声进行声学分析,以便为OSAHS患者提供便捷、实用和低成本的检测方法。在本文中,将硬件平台与PSG设备标记结合使用以进行数据采集。在对鼾声信号进行预处理之后,对实验对象的鼾声样本进行声学分析,鼾声信号中包含并携带了人类呼吸道的结构信息和特征,分析和研究了多名单纯打鼾者和OSAHS患者的鼾声样本,研究发现,与正常人相比OSAHS患者的呼吸通道发生了结构变化。因此,鼾声信号的声学分析方法可以判断被测人员是否患有OSAHS。研究发现,正常人和OSAHS患者的鼾声在声学特征上有很大的差异,本文实验提取了鼾声样本的线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC),Mel倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC),融合LPCC-MFCC,频谱质心共五种特征。对于大维度的LPCC和MFCC特征,在Fisher比的基础上使用了两种方法的特征融合,融合特征维度保持不变,识别效果更好。同时,抗噪性能也得到改善。最后,使用PSG设备标记患者的鼾声样本,并将呼吸紊乱事件中的鼾声分为二类鼾声,即单纯打鼾者鼾声和OSAHS病理鼾声。本文实验首先验证了支持向量机不同核函数对鼾声样本分类的影响,并对最优核函数根据不同的声学分析特征进行分类实验。实验表明,高斯径向基核函数对二类鼾声信号具有最佳的整体识别准确率,且融合特征方案具有更好的分类性能,整体识别准确率达到了95.8%。此外通过决策树模型的方法,首先验证了XGBoost、随机森林、决策树模型对鼾声样本分类的效果,实验结果表明,XGBoost算法对鼾声样本的分类具有更好的整体效果,鼾声的识别准确率达到了96.7%,可以作为鼾声样本分类的最优分类方法。实验结果验证了本文方法在辅助诊断OSAHS病症上的可行性,可为临床实验提供一定的帮助。
邹博[3](2020)在《基于融合特征的说话人识别技术研究》文中指出语音是人类日常生活中获取和传递消息最为便捷的一种主要媒介,它携带着丰富的信息。由于每个人的声道结构在出生时就被决定,并且每个人都是独一无二的,这使得利用说话人的声音来辨别身份的生物技术成为了现实。在生物识别领域中,影响识别结果的两个重要因素分别是分类模型和特征参数,一旦选定了所用的模型,识别性能主要依赖于特征参数的选择。高质量的特征参数不仅可以减少系统的误判概率,并且还能够缩短训练模型和分类所用的时间。因此,从语音信号中提炼出与说话人身份具有高度相关性的特征是一个重要的研究课题。针对上述问题,本文提出了基于深浅层融合特征的说话人识别系统以及基于优化权系数融合特征的说话人识别系统。本文开展的研究如下:(1)首先对说话人识别相关的研究背景以及工作意义进行充分了解,然后阐述了说话人识别的基本知识,主要包括本文所用到的语音预处理技术、声学特征参数MFCC提取的具体流程、SVM分类器的原理。另外,为了去除特征中可能包含的冗余信息,引入了两种特征筛选策略,为后续展开的研究提供技术基础。(2)为了找到一种鲁棒性更强并能够全面对说话人身份信息进行表征的特征,本文在对GMM和DNN深入研究后,提出了一种基于深浅层融合特征的说话人识别系统。传统特征表示的是有关声道结构方面的物理信息,它是一种浅层的表述,而DNN挖掘的是更深层的特征,是一种更为抽象的描述,将它们融合能够使得性能互补。该方法首先提取MFCC参数然后分别利用两个不同分支进行进一步处理。一方面输入到DNN中来提取深度特征并进一步通过GMM获取深度高斯超矢量,另一方面直接通过GMM获得传统高斯超矢量。最后将二者水平拼接组成一种新的特征,基于该特征对SVM进行训练和对说话人身份进行辨认。通过实验仿真发现,所提出的融合特征能够有效地提升识别率。(3)当说话人的个数增加时,系统的识别率将会降低。另外,在基于融合特征的说话人识别系统中,不同特征对最后的识别结果贡献程度不同。为了更加准确对其进行衡量,通过对两种寻优算法进行研究,提出了基于优化权系数融合特征的说话人识别系统。在对三种特征进行融合前,先利用GA或者SA算法对各自的权重系数进行寻优,然后乘以对应的系数进行融合来构建一种新的说话人识别系统。通过实验结果表明,对特征进行加权再进行融合的识别性能要优于直接进行融合时的特征性能。
陆云[4](2020)在《基于脑电的听觉注意解码与情绪识别的认知计算研究》文中认为随着智能科学的发展,人工智能技术已取得了日新月异的进步,在一些应用中,现有人工智能已展现出了超越人类的解决问题能力和技术优势。近年来运用认知计算进行类脑人工智能技术开发,成为了研究者关注的焦点。现有的人工智能技术,虽然借助大数据分析和以深度学习为代表的机器学习方法实现了一定程度的类脑智能,但依旧没有获得跨越式的技术发展。面对复杂声音事件中听觉识别、语音理解以及情感决策等任务,现有的智能算法与信号处理技术依然表现得无能为力,而这些任务对人类而言人们凭借心理的觉察、注意、情绪认知等智能,往往能够轻易完成。这种认知智能是现有人工智能技术还不能轻易达到的。本文以听觉注意和心理情绪为研究对象,旨在从脑电活动中探索心理状态解码的认知计算方法,研究听觉目标注意识别、听觉选择性注意解码和跨个体心理情绪状态识别的认知计算方法构建与实现技术,赋予认知计算系统具有像人一样的注意认知智能和情绪感知智能,主要内容如下:对脑电信号解码方法展开了深入研究与分析。鉴于时间序列分解与重构方法和熵测度相结合的技术优势能够有效提高脑电信号解码性能,本文利用奇异谱分析(SSA)和熵测度相结合的方法来构建脑电信号解码方法。所设计的脑电解码方法先使用SSA方法从脑电信号中分解得到各阶SSA分量;然后基于脑电信号SSA分量,采用熵测度方法进行脑电熵特征提取;最后利用支持向量机作为模式分类器开展脑电信号解码任务。实验采用不同眼睛状态的脑电信号为例进行脑电解码性能测试。实验结果表明,所提出的脑电信号解码方法有效地提高了脑电信号解码的准确率,实现了眼睛状态的脑电识别任务的性能优化。对熵测度快速计算方法展开了深入研究与分析。为了提高近似熵、样本熵、多尺度熵等熵测度计算效率以增强其应用潜力,本文利用向量不相似判定准则来实现熵测度快速计算。该快速计算方法对熵测度计算步骤中最耗时的向量距离计算进行优化,通过构建一个向量不相似判断准则,在向量距离计算开始前对不相似向量进行预判断。实验利用仿真信号和真实脑电数据展开样本熵、近似熵、时移多尺度熵计算的时间性能测试,实验结果表明与传统方法的熵测度计算相比较,该熵测度快速计算方法能显着地降低算法的执行时间,有效提高了熵测度计算效率。对基于单次脑电信号的听觉注意解码展开了深入研究。利用脑电熵测度与机器学习相结合的方法,基于单次脑电信号建立了一种听觉目标注意识别方法。实验设计了包含三种听觉目标注意状态的听觉实验,采集了13名受试者的认知脑电数据进行研究。实验结果显示这一方法能够有效从单次脑电信号中实现听觉目标注意状态识别。本文还利用深度LSTM神经网络构建了一种听觉选择性注意解码方法。通过两说话人双耳分听范式的听觉实验,采集了21名受试者的认知脑电数据进行实验研究。实验数据显示所提出的方法对受试者听觉选择性注意的目标语音识别,获得优异的识别准确率。实验结果充分表明基于LSTM模型的听觉选择性注意解码方法能够从单次脑电信号中对听觉选择性注意实现高精度的解码。对基于脑电信号的跨个体心理情绪状态识别展开了深入研究。脑电情绪响应的个体差异性容易导致情绪识别方法的普适性及泛化能力存在局限性,本文利用动态样本熵模式学习构建了一种跨个体情绪识别方法。实验利用脑电情感数据集SEED对15名受试者开展跨个体情绪识别。通过与已有的相关研究结果比较,实验结果表明所提出的基于动态样本熵模式学习具有更有好的跨个体情绪识别性能,表现出了更好的普适性与泛化能力。所构建的跨个体情绪状态识别的认知计算方法,实现了脑电情绪模式识别的优化与创新,能够从脑电信号中对人们的心理情绪状态进行有效预测。本文通过对听觉注意与心理情绪状态的脑电解码研究,从脑电活动中构建了心理状态解码的认知计算方法,能够对相关心理状态进行预测,可赋予认知计算系统拥有像人一样的注意认知智能和情绪感知智能。
陈可江[5](2020)在《隐写安全性增强与分布保持隐写研究》文中研究说明信息通信技术的不断发展和移动互联网的普及给信息传输带来了便利,但同时也带来了风险。在互联网上传输或存储的敏感数据容易遭他人窃取。为了保护数据安全,以往人们采用加密技术,将敏感数据加密成无意义的密文信息。但是加密这个行为暴露了敏感数据的存在,容易引来攻击。因而既能保护秘密信息内容,也能隐藏传输行为的隐写技术越来越受关注。隐写的对立面是隐写分析。近年来,隐写分析技术在快速发展,给数字隐写带来许多挑战。传统的自适应隐写方法,已经难以满足隐蔽通信或隐蔽存储的要求。如何提升现有隐写算法的安全性或设计更安全、高效的数字隐写算法是信息隐藏领域亟待研究的问题。面向隐蔽通信和隐蔽存储的需求,本文对如何提升隐写算法的安全性展开了研究。针对利用传统隐写方法得到的载密对象和载体对象始终存在分布差异的问题,基于深度学习生成模型开展了分布保持隐写研究。本文的主要研究工作和创新点可以归纳如下:1.提出了图像隐写的微尺度隐写失真模型观察现有图像自适应隐写算法的修改点分布,发现在平滑区域仍然有不少修改点,这说明现有隐写失真定义不够精细。基于图像增强技术,本文提出了微尺度隐写失真模型。在增强图像上定义隐写失真,赋值给原始图像,使隐写集中在纹理复杂区域。根据离散余弦变化的正交性,引入DCT域滤波,将微尺度隐写失真模型应用在JPEG图像隐写上,并从理论上证明了算法的高效性。实验结果表明,应用微尺度隐写失真模型可以有效提升现有隐写算法的安全性。2.提出了基于多级失真递归编码的JPEG图像可逆隐写算法为了提高隐蔽存储的效率,本文提出了基于多级失真递归编码的JPEG图像可逆隐写算法。基于JPEG图像编码的特点,提出载体系数幅度选择策略。根据隐写修改对空域的影响,定义载体系数的修改失真。通过解最小化失真的优化问题完成DCT块选择。借助多级失真递归编码完成信息嵌入、提取和载体恢复。实验表明,本文提出的JPEG图像可逆隐写算法能够有效保持图像视觉质量,减少码率扩张,和提升抗检测性。3.提出了音频隐写的失真定义函数及其非加性隐写算法音频在网络上大规模传输,研究音频自适应隐写具有重要意义。根据音频载体的低幅值区域容易被建模的特点,提出了大幅值优先修改的原则,并通过实验验证了其合理性。针对当前隐写分析特征是基于导数滤波残差构造的特点,结合大幅值优先修改的原则,提出了基于导数滤波残差的隐写失真定义方法。考虑隐写修改是相互影响的,本文设计了音频隐写的非加性方案。实验结果表明,本文提出的音频隐写失真方法提升了抗检测能力。并且,非加性方案还能进一步提升隐写安全性。4.提出了基于深度学习生成模型的分布保持隐写算法利用深度学习生成模型生成的数据在网络上被广泛使用,具备了成为数字隐写载体的基础。同时,生成模型给我们提供了生成数据的显式概率分布或同分布采样器。基于显式生成模型,结合算术编码,提出了基于解压缩的分布保持隐写算法,并从信息论的角度证明了在载体序列足够长的情况下,载体载密分布一致。基于隐式生成模型,结合拒绝采样算法,提出基于采样的分布保持隐写算法。基于语音合成任务,构建了高效实用的隐写系统,并通过隐写分析实验验证了载体载密语音难以区分。
周晶[6](2020)在《回放语音攻击检测中特征参数的研究》文中进行了进一步梳理说话人识别技术因与其他生物特征识别技术相比,具有无须身体接触、无须记忆、获取过程快捷等优点,成为目前人们常选用的验证方法。但是,随着各种录音设备的出现,攻击者使用录音回放语音侵入认证系统更为简单。因此,如何防止回放语音的攻击已成为说话人识别技术研究的重点。本文基于ASVspoof 2017挑战赛的数据库,对不同类型的录音设备、回放设备产生的回放语音进行分析,重点对语音特征参数提取进行研究。传统特征提取方法中,语音频谱的特征信息没有得到充分提取和利用,采用了强化低频层频谱信息的方法,影响了攻击检测性能。而实际上,原始语音和回放语音的主要差异体现在高频层上,针对现有技术的不足,提出基于Fisher准则的融合特征检测算法和基于多层滤波的倒谱特征检测算法,从而更好地检测回放语音。本文主要工作内容如下:1.详细分析了预处理对信号的影响,对当前主流的语音特征参数MFCC、LFCC、LPC、IMFCC、CQCC等进行研究和算法实现,为改进特征参数打下基础。研究了三种经典的分类模型:高斯混合模型、支持向量机和高斯混合模型—通用背景模型,并对多种模型进行测试,结果表明GMM模型的识别性能最高。2.从波形、语谱图、频率信息量等多个角度探究两种语音的区分性特征,进一步了解录音产生的语音跟原始语音间的本质性差异,通过实验分析,发现两种语音的差异更多的表现在高频层,低频层差异小,且易受设备类型的影响。3.结合MFCC、LFCC、IMFCC特征参数的特性与Fisher准则,选取区分能力较好的特征分量,提出了一种基于Fisher准则的融合特征检测算法。从不同高斯阶数、不同特征参数及其组合、时间复杂度的角度进行实验对比,证明了该算法对提高系统检测效果与运行效率是有效的。4.针对频谱上的差异,在高频层采用逆梅尔滤波增强说话人信息的提取,突出差异,在低频层采用线性滤波与梅尔滤波组合,避免特征参数的叠加。多层融合,获得L-M-I滤波器组,从而形成新的倒谱特征。探究预加重系数、动态特征、CMVN、高斯阶数对检测结果的影响,证明了算法的可行性和有效性。实验结果表明,分类器为GMM时,多层滤波检测算法检测效果最优,在测试集上,等错误率为2.57%,相比MFCC、CQCC、LFCC、IMFCC、L-I,分别降低12.86%、9.66%、4.51%、3.33%、1.63%。并在SVM、Ada Boost分类器中均有稳定的检测效果。最后与说话人确认系统结合,能够有效抵抗回放语音攻击。
李仁仁[7](2020)在《面向自动驾驶汽车的交通声学环境感知方法研究》文中提出环境感知是汽车实现自动驾驶的基础。随着自动驾驶汽车技术的不断发展,对环境感知的技术要求越来越高,多传感器融合已经是实现自动驾驶环境感知的必然趋势。本文通过交通环境声学事件的识别达到对声学环境的部分感知,弥补传统感知系统的感知死角。在交通环境中,行车安全对交通环境声学事件的基础识别率和鲁棒性都有很高的要求。本文依托某研究中心的实验条件,完成对110警笛声、120警笛声、119警笛声和尖叫声四种交通环境声学事件的采集和识别,主要研究内容如下:第一,搭建基于梅尔频率倒谱系数(MFCC)和支持向量机(SVM)模型的交通环境声学事件识别基线系统,通过实验验证基线系统对交通环境声学事件有较高的识别率,但也发现鲁棒性不理想。第二,为了进一步提高交通环境声学事件识别基线系统的基础识别率,通过分析四种声音信号的时频域特性和规律,提出3维时频域特征提取方法;其次利用增减分量法对MFCC分析,剔除MFCC参数中的干扰项;最后提出一种基于经验模态分解(EMD)的特征参数优化方法,使特征参数在提取过程中有滤波效果。通过特征参数优化方法提取的特征记为EMD-MFCC优化组合参数,实验证明,EMD-MFCC优化组合参数有更好的抗噪效果和更高的基础识别率。第三,为了进一步提高交通环境声学事件识别系统的抗噪性,提出基于小波包变换的交通环境声学事件去噪方法。从理论和实验两方面分析对比常用阈值准则和阈值函数,提出多阈值准则和一种改进的阈值函数,达到更优的去噪效果,实现了阈值函数对噪声的自适应性。同时,分析常用小波包基函数和小波包分解层数对识别性能的影响,对小波包基函数和分解层数进行优选。最后实验验证本文对基于小波包变换的交通环境声学信号去噪方法的优化,能大幅度提高识别系统对低信噪比含噪声音的识别率,使交通环境声学事件识别系统具备适应复杂交通环境的能力。第四,通过对SVM分类器的理论分析,找出对识别性能产生影响的因素:核函数以及核函数参数。首先通过实验对比SVM模型中常用核函数对识别性能的影响,其次,对比不同寻优算法对惩罚因子和核参数的影响。实验结果表明,高斯核函数具有较高的识别率和最短的训练时间;采用粒子群算法进行参数寻优所用时间更短,而且所得参数对噪声有更好的适应性。最后仿真验证在行驶工况下交通环境声学事件识别系统的有效性。研究结果表明,本文通过特征参数优化、去噪算法优化和SVM模型优化三方面,将交通环境声学事件识别系统对无噪声污染的交通环境声学事件的基础识别率提升至99.17%,对含噪20dB以上的交通环境声学事件的识别率可以达到87.08%,对0-10dB的低信噪比含噪交通环境声学事件的识别率平均提高52.66%,提高了交通环境声学事件识别系统的基础识别率和鲁棒性。最后通过仿真验证了行驶工况下交通环境声学事件识别系统可行性。
李平[8](2020)在《基于声纹识别的身份认证与反欺骗算法研究》文中研究说明基于生物特征的身份认证方法凭借其对身份的表征能力、使用的便利性、不易盗取的优势逐渐成为身份认证技术中的重要方法。在生物特征中,声纹既包含个人的生理特征,也包含个性的行为特征,相比指纹,人脸等静态特征具有更高的安全性,是身份认证技术中的研究热点和未来趋势。当前声纹识别技术在实际应用中的瓶颈问题是其面对多变环境时的识别稳定性和面对假冒语音攻击时的安全保障能力。首先,在实际应用中除了周围环境噪声的干扰,说话人自身状态的改变如生病,情绪波动等都会改变声音特性,从而影响声纹认证的稳定性。面对该问题,当前声纹识别技术开始从基于单特征建模逐步发展为基于多特征构建身份模型,意图从多特征中提取出更稳定的身份信息。但目前的多特征融合方式多为直接拼接,这种方式无法有效发挥各类特征的作用,并且会极大的增加特征维度和训练的复杂度。其次,随着技术的发展目前一些通过技术手段伪造的语音和真实语音相似,极大的威胁着声纹认证技术的安全性。针对该问题,在声纹识别领域专门形成了对反欺骗算法的研究,但当前的对策主要是对各类攻击单独讨论,尚未和声纹验证任务进行有效融合,这限制了声纹身份认证技术的实际应用。因此,本文针对上述问题进行了三点工作,首先,梳理各类声纹特征,并分别基于理想环境数据集,非常态语音数据集对各类声纹特征的有效性进行实验,基于实验结果对各类特征的稳定性展开对比和分析。之后,本文基于实验结果构建多层声纹特征集,提出基于Fisher比的双层多特征融合算法,该融合机制基于Fisher 比分别从特征层和决策层对多层特征进行层内多特征融合和分层的决策加权融合。实验显示,本文提出的多特征融合模型相比单特征模型表现了更好的性能。最后,本文提出了基于多任务学习和多特征融合的声纹验证及反欺骗算法。该算法结合之前提出的基于Fisher比的多特征融合方法,并使用多任务学习机制对声纹验证和反欺骗算法两个任务同时建模。两个任务互相补充,使声纹验证任务中包含对欺骗语音的防御信息。实验显示,该模型能够全面提高声纹验证的稳定性和安全性。
沈钰瑞[9](2020)在《基于鼾声信号识别的呼吸暂停综合征的监测研究》文中研究表明阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者睡眠呼吸过程中由于上气道咽部结构堵塞而出现呼吸紊乱的病理行为,包含低通气和呼吸暂停症状。且该病症是一系列心血管疾病的诱因,严重危害患者健康。长期以来,多导睡眠仪(PSG)是医院对于呼吸障碍症状的检测手段,但存在仪器监测复杂且受众率低的缺点。本文从鼾声信号分析的角度对病理鼾声进行分析,目的在于为OSAHS患者提供便捷家用且低成本的监测方法。本文通过硬件平台结合PSG设备标注进行数据采集,对于家用环境下环境噪声复杂多样的睡眠鼾声信号进行端点检测算法的研究。在信号预处理过程后,对于常规算法在低信噪比(SNR)环境下检测率低,漏音和误判现象,采用多窗谱谱减降噪结合子带能熵比法的端点检测复合算法。实验结果显示,在复杂噪声环境下,不同受试者的鼾声信号端点检测结果准确。在添加Noise-92标准噪音数据库中不同类别噪声后,鼾声片段的端点检测识别率依然达到96%。本文算法实现了对于整夜鼾声信号中目标鼾声段的准确截取。对于采集的鼾声样本,以患者信息表和各类别鼾声样本构建鼾声样本数据库,方便之后数据的查询和管理。其次,对于受试者鼾声样本进行声学分析,探讨普通打鼾与OSAHS患者打鼾在声学特征上的差异。本文实验提取了鼾声样本的Mel倒谱系数(MFCC),线性预测倒谱系数(LPCC),共振峰,基频,谱熵,PR500,频谱质心和频谱平坦度等特征。对于大维度的MFCC和LPCC特征,基于Fisher比进行了两种方案的特征融合,融合特征维度不变且识别效果更好。最后,结合PSG设备对患者鼾声样本进行标记,并将呼吸紊乱事件中鼾声分为普通,低通气中以及呼吸紊乱事件前后四类鼾声。首先验证了支持向量机不同核函数对于鼾声样本分类的效果,并对最优核函数基于不同声学分析特征进行分类实验。实验表明:径向基核函数对于四类鼾声信号整体识别率效果最好,且融合特征方案分类性能更好,达到了81.6%整体识别率,AUC达到0.923。并通过集成学习的方法,经过调参后的XGBoost算法对于鼾声样本分类整体效果更好,AUC达到了0.943,可作为最优分类方法对鼾声样本进行分类。实验结果验证了本文方法对于辅助监测OSAHS病症的可行性,可在临床上提供一定的借鉴。
李宗晏[10](2019)在《基于字典学习的说话人识别算法研究》文中指出说话人识别是一种通过分析话者声音中带有身份信息的特征来对话者身份进行识别的技术。它是一个综合了多个学科的研究课题,它交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等不同领域的知识。以应用在需要进行身份认证的各种安全领域、互联网应用及通信领域、呼叫中心领域等。目前,说话人识别的技术已经日臻成熟,但在真实的使用环境中,说话人识别系统对噪声的抗干扰能力,即噪声鲁棒性问题仍是较大的困扰,也是对其的广泛应用产生了巨大阻碍。本文便针对此问题进行研究。本文以说话人识别和稀疏分解技术为背景,分析经典高斯混合背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)方法与身份认证矢量(Identity Vector,i-vector)方法的优劣,并着重研究稀疏分解在说话人识别领域的应用,主要目的是提高噪声环境下的说话人识别系统识别率,以及减少内存,提高计算速度等。首先,本文对语音信号及说话人识别的基本原理进行了分析。从语音信号的声学产生机理、信号的预处理(端点检测、分帧、加窗)、梅尔倒谱系数(Mel-Frequency Cepstrum,MFCC)等常用特征的提取、系统识别率的判断参数都做了详细介绍。另外,还分析了经典的GMM-UBM系统模型及算法。然后,本文对业内最为流行的身份认证矢量(Identity Vector,i-vector)特征框架进行了分析,对i-vector的概念原理、提取方式进行了叙述和验证。同时对泛用的线性判别分析(Linear Discriminant Analysis,PLDA)也进行了阐述。另外,还介绍了几种对i-vector的信道补偿方法,如线性区分分析变换、长度规整和数据白化等。使用Timit语音库进行实验验证,得到其在纯净语音环境下识别率较高,噪声环境下鲁棒性较差的结论。接下来,本文提出了一种基于字典学习和低秩矩阵分解(Low Rank Structured Dictionary Learning,LRSDL)的说话人识别系统。受字典学习和低秩矩阵分解在图像和语音增强领域的应用启发,我们将说话人的i-vector特征作为字典原子,将低秩矩阵分解添加到字典学习中,从而得到带有说话人i-vector共性特征和噪声的低秩字典,使最后测试语音的i-vector在子字典上的投影少受到共性和噪声部分的干扰,提高识别的准确率。最后,针对信噪比低时,两种方法识别率均较低的问题,本文提出了一种基于LRSDL和i-vector融合的说话人识别系统,在打分阶段对i-vectorPLDA和LRSDL方法的打分结果进行加权平均,结果表明这种方法能在低信噪比环境下对系统性能做出有效改善。
二、Fisher算法在语音声学模型分析中的研究与应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Fisher算法在语音声学模型分析中的研究与应用(论文提纲范文)
(1)语音识别技术在铁路车务仿真培训系统中的应用研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 论文研究背景及意义 |
1.2 车务培训系统 |
1.2.1 培训系统现状 |
1.2.2 当前培训存在的问题 |
1.3 国内外研究现状 |
1.4 论文主要工作及安排 |
2 语音识别技术原理 |
2.1 语音识别系统基本构造 |
2.2 语音信号的处理 |
2.3 声学模型 |
2.3.1 GMM-HMM声学模型 |
2.3.2 基于深度学习的声学模型 |
2.4 语言模型 |
2.5 解码器 |
2.6 本章小结 |
3 语言识别前端降噪处理 |
3.1 语音信号模拟 |
3.2 传统稀疏表示联合字典降噪 |
3.2.1 稀疏表示 |
3.2.2 联合字典降噪 |
3.3 改进的稀疏表示联合字典降噪 |
3.3.1 双重稀疏算法 |
3.3.2 Fisher区分性约束项 |
3.4 LASC算方法 |
3.4.1 LARS方法 |
3.4.2 LARC算法 |
3.5 实验分析 |
3.6 本章小结 |
4 车务语音识别神经网络声学模型的研究 |
4.1 铁路术语特点 |
4.2 神经网络声学模型 |
4.2.1 深度神经网络模型 |
4.2.2 循环神经网络 |
4.2.3 LSTM神经网络 |
4.2.4 Bi LSTM循环神经网络 |
4.3 实验设置 |
4.3.1 数据的准备 |
4.3.2 参数设置实验分析 |
4.4 连接时序分类 |
4.5 CTC训练及分析 |
4.6 本章小结 |
结论 |
致谢 |
参考文献 |
攻读硕士学位期间科研成果 |
(2)基于机器学习的OSAHS鼾声识别技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要研究内容及章节安排 |
1.3.1 主要研究内容 |
1.3.2 章节安排 |
1.4 本章小结 |
第2章 鼾声信号相关理论与鼾声数据采集 |
2.1 鼾声发音机制和物理特性 |
2.1.1 语音发音机制 |
2.1.2 鼾声发音机制和物理特性 |
2.2 OSAHS简介 |
2.2.1 OSAHS病理 |
2.2.2 OSAHS评判标准 |
2.2.3 OSAHS的治疗 |
2.3 鼾声识别系统流程 |
2.4 鼾声数据的采集与处理 |
2.4.1 鼾声数据的采集 |
2.4.2 鼾声数据截取与分类 |
2.5 本章小结 |
第3章 鼾声信号预处理与鼾声特征提取 |
3.1 鼾声信号预处理 |
3.1.1 预加重 |
3.1.2 分帧加窗 |
3.1.3 端点检测简介 |
3.1.4 鼾声信号端点检测判决机制 |
3.2 鼾声信号特征提取 |
3.2.1 特征提取含义 |
3.2.2 线性预测倒谱系数特征提取 |
3.2.3 Mel频率倒谱系数特征提取 |
3.2.4 频谱质心特征提取 |
3.2.5 特征参数融合 |
3.3 鼾声特征集统计 |
3.4 本章小结 |
第4章 基于支持向量机的OSAHS鼾声分类 |
4.1 实验数据集准备 |
4.2 鼾声分类模型 |
4.2.1 支持向量机 |
4.3 实验结果和分析 |
4.3.1 声学特征对于样本分类的结果 |
4.3.2 SVM的融合鼾声特征分类 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第5章 基于决策树模型的OSAHS鼾声分类 |
5.1 实验数据集准备 |
5.2 鼾声分类模型 |
5.2.1 决策树 |
5.2.2 XGBoost |
5.2.3 随机森林 |
5.3 实验结果和分析 |
5.3.1 声学特征对于样本分类的结果 |
5.3.2 决策树模型的融合鼾声特征分类 |
5.3.3 实验结果分析 |
5.4 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录 |
(3)基于融合特征的说话人识别技术研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 说话人识别的研究现状与发展 |
1.3 说话人识别技术现存问题 |
1.4 论文研究内容与结构安排 |
1.4.1 论文研究内容 |
1.4.2 论文结构安排 |
第二章 说话人识别基本理论 |
2.1 说话人识别的基本结构 |
2.2 语音信号的预处理技术 |
2.2.1 语音信号的采样 |
2.2.2 预加重 |
2.2.3 分帧和加窗 |
2.2.4 端点检测 |
2.3 语音特征参数的提取 |
2.4 支持向量机 |
2.5 常用特征降维策略 |
2.5.1 主成分分析 |
2.5.2 Fisher系数特征筛选 |
2.6 本章小结 |
第三章 基于深浅层融合特征的说话人识别 |
3.1 引言 |
3.2 传统语音特征 |
3.2.1 高斯混合模型 |
3.2.2 传统重组高斯超矢量 |
3.3 深度语音特征 |
3.3.1 深度神经网络相关理论 |
3.3.2 深度重组高斯超矢量 |
3.4 基于深浅层融合特征的说话人识别系统构建 |
3.5 实验结果仿真分析 |
3.5.1 实验环境与语料库 |
3.5.2 不同网络参数对系统性能的影响 |
3.5.3 高斯分量数对系统性能的影响 |
3.5.4 基于深度瓶颈特征和传统特征说话人性能对比 |
3.5.5 所提系统与其他方法性能的对比 |
3.5.6 不同特征降维方法对比实验 |
3.6 本章小结 |
第四章 基于优化权系数融合特征的说话人识别 |
4.1 引言 |
4.2 常用寻优算法 |
4.2.1 遗传算法 |
4.2.2 模拟退火算法 |
4.3 基于寻优算法融合特征的说话人识别系统构建 |
4.4 实验仿真与结果分析 |
4.4.1 不同算法参数对系统性能的影响 |
4.4.2 不同权值说话人识别性能对比 |
4.4.3 不同特征的性能对比 |
4.4.4 不同特征降维方法的性能对比 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(4)基于脑电的听觉注意解码与情绪识别的认知计算研究(论文提纲范文)
摘要 |
ABSTRACT |
主要缩写和符号 |
第1章 绪论 |
1.1 课题的研究背景 |
1.1.1 认知计算 |
1.1.2 听觉注意 |
1.1.3 情绪与情感 |
1.2 课题研究的目的及意义 |
1.3 国内外研究现状 |
1.3.1 听觉注意解码及其相关研究的发展概况 |
1.3.2 心理情绪状态识别及其相关研究的发展概况 |
1.4 现有相关研究工作的评述 |
1.5 本文主要研究内容 |
第2章 基于奇异谱分析和熵测度的脑电信号解码方法研究 |
2.1 引言 |
2.2 基于脑电的心理状态解码主要原理 |
2.2.1 脑电信号解码的基本框架 |
2.2.2 脑电熵特征 |
2.2.3 机器学习 |
2.2.4 性能度量 |
2.3 基于熵测度的脑电信号解码方法 |
2.4 基于SSA和熵测度相结合的脑电信号解码方法 |
2.4.1 所提出的脑电信号解码算法的系统框图 |
2.4.2 奇异谱分析 |
2.4.3 脑电信号的SSA分解与重构 |
2.4.4 基于SSA方法和熵测度的脑电熵特征提取 |
2.4.5 模式分类器 |
2.5 算法性能测试 |
2.5.1 实验设置 |
2.5.2 脑电熵特征的统计分析 |
2.5.3 眼睛状态的脑电识别结果 |
2.6 本章小结 |
第3章 基于向量不相似判定准则的熵测度快速算法研究 |
3.1 引言 |
3.2 熵测度方法的应用缺点 |
3.3 熵测度快速计算方法研究现状 |
3.4 利用VDS判定准则实现熵测度快速计算 |
3.4.1 熵测度计算流程分析 |
3.4.2 向量不相似判定准则 |
3.4.3 基于VDS方法的样本熵加速计算算法 |
3.4.4 不相似向量的占比分析 |
3.5 算法性能测试 |
3.5.1 实验设置 |
3.5.2 仿真信号的样本熵计算结果与讨论 |
3.5.3 脑电信号的样本熵计算结果与讨论 |
3.5.4 时移多尺度熵和近似熵计算结果与讨论 |
3.5.5 算法参数对熵测度计算效率的影响 |
3.6 本章小结 |
第4章 利用单次脑电实现听觉注意解码的认知计算 |
4.1 引言 |
4.2 听觉注意与神经影像学证据 |
4.2.1 听觉感知与选择性注意 |
4.2.2 基于对象的听觉注意 |
4.3 基于熵测度和机器学习的听觉目标注意识别 |
4.3.1 听觉目标注意的实验方案 |
4.3.2 研究方法 |
4.3.3 实验结果与分析 |
4.4 基于LSTM模型的听觉选择性注意解码 |
4.4.1 听觉选择性注意的实验方案 |
4.4.2 研究方法 |
4.4.3 实验结果 |
4.5 本章小结 |
第5章 动态熵模式学习实现跨个体情绪识别的认知计算 |
5.1 引言 |
5.2 基于生理信号情绪识别的研究难点 |
5.3 基于熵测度的脑电情绪模式学习 |
5.4 基于动态熵模式学习的心理情绪状态识别 |
5.4.1 跨个体情绪效价识别的系统框图 |
5.4.2 情绪脑电数据 |
5.4.3 动态样本熵 |
5.4.4 特征降维 |
5.4.5 模式分类器 |
5.5 实验结果与讨论 |
5.5.1 脑电动态样本熵的统计分析 |
5.5.2 脑电动态样本熵的时域剖面分析 |
5.5.3 跨个体情绪效价识别的结果 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(5)隐写安全性增强与分布保持隐写研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 隐写与隐写分析技术概述 |
1.2.1 数字隐写概述 |
1.2.2 隐写分析概述 |
1.3 研究现状 |
1.3.1 空域图像隐写 |
1.3.2 JPEG图像隐写 |
1.3.3 时域音频隐写 |
1.3.4 研究发展趋势 |
1.4 本文主要工作及内容安排 |
第2章 相关理论与方法 |
2.1 隐写 |
2.1.1 最小化失真隐写 |
2.1.2 可逆隐写 |
2.2 隐写编码 |
2.3 失真定义原则 |
2.3.1 纹理复杂度优先原则 |
2.3.2 失真扩散原则 |
2.3.3 方向一致性原则 |
2.4 隐写分析 |
2.4.1 空域富模型特征 |
2.4.2 音频马尔可夫特征 |
2.4.3 集成分类器 |
2.5 本章小结 |
第3章 图像微尺度隐写失真模型 |
3.1 微尺度隐写失真模型框架 |
3.2 微尺度隐写失真模型在空域图像隐写中的应用 |
3.3 微尺度隐写失真模型在JPEG图像隐写中的应用 |
3.3.1 JPEG图像自适应隐写 |
3.3.2 JPEG图像微尺度隐写失真定义 |
3.3.3 块间扩散原则 |
3.4 微尺度隐写失真模型在边信息隐写中的应用 |
3.5 空域图像隐写实验结果 |
3.5.1 实验设置 |
3.5.2 参数设置 |
3.5.3 探究图像增强的作用 |
3.5.4 隐写安全性 |
3.6 JPEG图像隐写实验结果 |
3.6.1 实验设置 |
3.6.2 参数设置 |
3.6.3 修改点可视化 |
3.6.4 变异系数分析 |
3.6.5 隐写安全性 |
3.6.6 图像增强方案比较 |
3.6.7 计算复杂度 |
3.7 本章小结 |
第4章 基于多级失真递归编码的JPEG图像可逆隐写 |
4.1 可逆隐写 |
4.2 基于直方图平移的JPEG图像可逆信息隐藏 |
4.2.1 JPEG图像编码 |
4.2.2 JPEG可逆信息隐藏 |
4.3 基于多级失真递归编码的JPEG图像可逆隐写 |
4.3.1 失真定义 |
4.3.2 载体选择 |
4.3.3 信息嵌入 |
4.3.4 信息提取和载体恢复 |
4.4 实验结果与评估 |
4.4.1 实验设置 |
4.4.2 参数设置 |
4.4.3 视觉质量 |
4.4.4 码率扩张 |
4.4.5 抗检测能力 |
4.5 本章小结 |
第5章 基于导数滤波的音频隐写算法及其非加性方案 |
5.1 引言 |
5.1.1 高幅值优先修改原则 |
5.1.2 导数滤波残差 |
5.2 基于导数滤波的时域语音隐写方案 |
5.3 音频隐写的非加性方案 |
5.3.1 音频联合失真隐写 |
5.3.2 音频失真更新隐写 |
5.4 实验结果与评估 |
5.4.1 实验设置 |
5.4.2 参数设置 |
5.4.3 隐写分析安全性能比较 |
5.5 本章小结 |
第6章 基于生成模型的分布保持隐写方案 |
6.1 引言 |
6.1.1 生成模型 |
6.2 基于隐式生成模型的分布保持隐写 |
6.2.1 消息映射 |
6.2.2 基于Waveglow的分布保持隐写系统 |
6.2.3 安全性讨论 |
6.3 基于显式生成模型的分布保持隐写 |
6.3.1 基于WaveNet的分布保持隐写系统 |
6.3.2 基于自适应算术编码信息嵌入和提取 |
6.3.3 安全性证明 |
6.4 实验结果 |
6.4.1 实验设置 |
6.4.2 基于Waveglow的分布保持算法实验结果 |
6.4.3 基于WaveNet的分布保持算法实验结果 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 论文总结 |
7.2 未来工作展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(6)回放语音攻击检测中特征参数的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 回放语音检测技术的研究历史与现状 |
1.2.1 研究发展状况 |
1.2.2 小结 |
1.3 论文的研究内容和章节安排 |
第二章 回放语音特征参数研究 |
2.1 说话人识别系统的框架 |
2.2 回放语音的预处理 |
2.3 回放语音的特征提取 |
2.3.1 基于听觉模型的特征参数 |
2.3.2 基于线性模型的特征参数 |
2.3.3 基于声门特性的特征 |
2.3.4 常数Q变换倒谱系数 |
2.4 本章小结 |
第三章 回放语音识别模型研究 |
3.1 高斯混合模型 |
3.1.1 GMM模型定义 |
3.1.2 GMM的训练 |
3.1.3 GMM的识别算法 |
3.2 高斯混合模型—通用背景模型 |
3.2.1 GMM-UBM模型定义 |
3.2.2 MAP自适应算法 |
3.3 支持向量机 |
3.3.1 SVM算法原理 |
3.3.2 LIBSVM |
3.4 本章小结 |
第四章 回放语音与原始语音特征对比分析 |
4.1 回放语音和原始语音的比较 |
4.2 实验样本设置 |
4.3 时域波形分析 |
4.4 语谱图分析 |
4.5 频率信息量分析 |
4.6 实验结果分析 |
4.7 本章小结 |
第五章 基于特征参数的回放语音检测算法 |
5.1 实验语音库与评判标准 |
5.2 选取实验特征 |
5.2.1 梅尔滤波器设计 |
5.2.2 逆梅尔滤波器与线性滤波器设计 |
5.3 基于Fisher准则的融合特征检测算法 |
5.3.1 Fisher准则 |
5.3.2 基于Fisher准则的融合特征提取算法 |
5.3.3 实验结果分析 |
5.3.3.1 高斯阶数对检测结果的影响 |
5.3.3.2 不同特征参数及其组合的对比实验 |
5.3.3.3 时间复杂度的对比实验 |
5.4 基于多层滤波的倒谱特征检测算法 |
5.4.1 多层滤波器组设计 |
5.4.2 实验结果分析 |
5.4.2.1 预加重系数对检测结果的影响 |
5.4.2.2 动态特征对检测结果的影响 |
5.4.2.3 特征规整对检测结果的影响 |
5.4.2.4 不同特征参数的对比实验 |
5.4.2.5 不同检测方法的对比实验 |
5.5 防回放语音攻击的说话人确认系统 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士期间发表的论文 |
(7)面向自动驾驶汽车的交通声学环境感知方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题背景及意义 |
1.2 声音识别技术国内外研究现状 |
1.2.1 语音识别技术研究现状 |
1.2.2 声学事件识别技术研究现状 |
1.2.3 声音识别鲁棒性研究现状 |
1.3 本文主要研究内容 |
第2章 建立基于MFCC和 SVM的交通环境声学事件识别系统 |
2.1 搭建交通环境声学事件识别基线系统 |
2.2 交通环境声学事件采集 |
2.3 提取特征参数 |
2.3.1 预处理 |
2.3.2 MFCC提取 |
2.4 SVM模型 |
2.4.1 SVM分类原理 |
2.4.2 采用SVM对声音样本进行分类 |
2.5 交通环境声学事件识别基线系统实验分析 |
2.6 本章小结 |
第3章 交通环境声学事件特征参数的优化 |
3.1 时频域特征参数提取 |
3.1.1 声学事件时频谱特征分析 |
3.1.2 组合特征参数实验分析 |
3.2 MFCC分量优化实验分析 |
3.3 基于EMD的 MFCC特征参数的优化 |
3.3.1 EMD分解原理 |
3.3.2 基于EMD分解的MFCC特征优化 |
3.3.3 基于EMD分解的优化参数实验分析 |
3.4 本章小结 |
第4章 基于小波包变换的交通环境声学信号的去噪 |
4.1 小波包去噪原理及关键问题 |
4.2 阈值准则 |
4.2.1 常用阈值准则 |
4.2.2 组合阈值准则与常用阈值准则去噪实验对比 |
4.3 阈值函数 |
4.3.1 传统阈值函数及其缺陷分析 |
4.3.2 改进阈值函数 |
4.3.3 改进阈值函数与传统阈值函数去噪实验对比 |
4.4 小波包基函数与分解层数的实验分析 |
4.5 改进小波包去噪的声音识别实验分析 |
4.6 本章小结 |
第5章 支持向量机模型参数的优化 |
5.1 SVM模型核函数选择 |
5.2 惩罚因子c、核函数参数g的优选 |
5.2.1 K折交叉验证算法 |
5.2.2 粒子群算法寻优 |
5.3 实验分析不同寻优算法对参数和识别率的影响 |
5.4 行驶工况下交通环境声学事件识别系统的识别性能仿真 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
参考文献 |
致谢 |
硕士期间的研究成果 |
(8)基于声纹识别的身份认证与反欺骗算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外发展历程和研究现状 |
1.3 声纹身份认证的难点问题 |
1.4 本文的主要研究内容及创新点 |
1.5 本文的组织结构 |
第二章 声纹识别的相关技术基础 |
2.1 声纹识别的原理 |
2.2 声纹身份认证系统的结构框架 |
2.3 语音预处理 |
2.3.1 预加重 |
2.3.2 分帧和加窗 |
2.3.3 端点检测 |
2.4 特征提取 |
2.4.1 线性预测倒谱系数LPCC |
2.4.2 梅尔倒谱系数MFCC |
2.4.3 感知线性预测系数PLP |
2.5 识别模型 |
2.5.1 GMM-UBM |
2.5.2 身份向量模型 |
2.6 性能评价 |
2.7 本章小结 |
第三章 声纹特征有效性分析 |
3.1 研究问题及研究方法 |
3.2 数据集及实验设置 |
3.2.1 数据集 |
3.2.2 实验设置 |
3.3 实验一: 声纹生理特征的有效性对比 |
3.3.1 声纹生理特征概述 |
3.3.2 实验提取的特征参数及属性 |
3.3.3 实验结果与分析 |
3.4 实验二: 声纹行为特征的有效性对比 |
3.4.1 声纹行为特征概述 |
3.4.2 实验提取的特征参数及属性 |
3.4.3 实验结果与分析 |
3.5 实验三: 声纹组合特征的有效性对比 |
3.5.1 声纹组合特征概述 |
3.5.2 实验提取的特征参数及属性 |
3.5.3 实验结果与分析 |
3.6 本章小结 |
第四章 基于多特征融合的声纹身份认证 |
4.1 研究问题和研究方法 |
4.2 构建多层声纹特征集 |
4.3 基于Fisher比的双层多特征融合算法设计 |
4.3.1 Fisher准则 |
4.3.2 算法概述 |
4.3.3 基于Fisher比的特征层融合算法构建 |
4.3.4 基于Fisher比决策层融合算法构建 |
4.4 实验结果与分析 |
4.4.1 数据集 |
4.4.2 实验设置 |
4.4.3 实验结果 |
4.5 本章小结 |
第五章 基于多任务学习和多特征融合的声纹验证及欺骗算法的设计与实现 |
5.1 研究问题及研究方法 |
5.2 技术伪造类欺骗语音与已有对策 |
5.2.1 语音合成 |
5.2.2 语音转换 |
5.3 基于多任务学习和多特征融合的声纹验证及反欺骗算法 |
5.3.1 算法概述 |
5.3.2 基于Fisher比和attention机制的多特征融合方法 |
5.3.3 基于多任务学习的模型构建 |
5.4 实验结果与分析 |
5.4.1 数据集 |
5.4.2 实验设置 |
5.4.3 实验结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(9)基于鼾声信号识别的呼吸暂停综合征的监测研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要研究内容及章节安排 |
1.3.1 主要研究内容 |
1.3.2 章节安排 |
1.4 本章小结 |
第2章 鼾声信号相关理论与鼾声数据库 |
2.1 鼾声发音机理与物理特性 |
2.1.1 语音发声机理 |
2.1.2 鼾声发音机理和物理特性 |
2.2 OSAHS概述 |
2.2.1 OSAHS病理 |
2.2.2 诊断标准 |
2.3 鼾声识别系统流程 |
2.4 鼾声数据库的构建 |
2.4.1 鼾声数据采集 |
2.4.2 鼾声数据截取与分类 |
2.4.3 鼾声数据库构建 |
2.5 本章小结 |
第3章 鼾声信号预处理和端点检测算法 |
3.1 鼾声信号预处理 |
3.1.1 信号的预加重 |
3.1.2 信号的分帧加窗 |
3.2 鼾声端点检测算法研究 |
3.2.1 端点检测概述 |
3.2.2 常用端点检测算法 |
3.2.3 鼾声端点检测判决机制 |
3.2.4 对数能量与子带谱熵法相结合的子带能熵比法端点检测 |
3.2.5 基于多窗谱估计谱减法和子带能熵比法复合检测算法实现及仿真 |
3.3 本章小结 |
第4章 睡眠鼾声信号特征提取 |
4.1 特征提取意义 |
4.2 Mel频率倒谱系数特征提取 |
4.3 线性预测类特征提取 |
4.4 共振峰特征提取 |
4.5 频率类特征提取 |
4.6 基频特征提取 |
4.7 特征参数融合 |
4.7.1 Fisher法则 |
4.7.2 MFCC和 LPCC特征融合 |
4.7.3 MFCC和 LPCC特征融合实验 |
4.8 声学特征集 |
4.9 本章小结 |
第5章 阻塞性睡眠呼吸暂停/低通气综合征鼾声分类 |
5.1 实验准备 |
5.1.1 实验对象与数据集准备 |
5.1.2 鼾声分类标准 |
5.2 鼾声分类模型 |
5.2.1 支持向量机 |
5.2.2 XGBoost |
5.3 实验结果和分析 |
5.3.1 声学特征对于样本分类的结果 |
5.3.2 XGBoost实验结果 |
5.3.3 实验结果分析 |
5.4 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 |
(10)基于字典学习的说话人识别算法研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 说话人识别简述 |
1.2 说话人识别研究背景 |
1.3 稀疏分类与字典学习 |
1.4 系统评价标准 |
1.5 论文主要内容及工作安排 |
第二章 说话人识别基本原理和模型 |
2.1 声学信号的数学模型 |
2.2 预处理 |
2.2.1 预加重 |
2.2.2 分帧和加窗 |
2.2.3 语音端点检测 |
2.3 特征提取 |
2.3.1 线性预测系数 |
2.3.2 梅尔频率倒谱系数 |
2.4 GMM-UBM 模型 |
2.4.1 GMM-UBM 基本概念 |
2.4.2 GMM 模型的参数估计 |
2.4.3 说话人模型自适应 |
2.4.4 GMM-UBM 说话人识别系统 |
2.5 本章小结 |
第三章 基于i-vector的说话人识别系统 |
3.1 引言 |
3.2 联合因子分析 |
3.2.1 JFA原理 |
3.2.2 模型训练 |
3.2.3 JFA参数估计 |
3.3 i-vector说话人模型 |
3.3.1 i-vector原理 |
3.3.2 i-vector提取 |
3.4 高斯概率线性判别分析 |
3.4.1 PLDA原理 |
3.4.2 分数计算 |
3.4.3 i-vector预处理 |
3.5 实验分析 |
3.6 本章小结 |
第四章 基于字典学习的说话人识别算法 |
4.1 引言 |
4.2 字典学习与低秩矩阵分解 |
4.3 基于LRSDL的说话人识别系统 |
4.4 实验分析 |
4.4.1 实验环境 |
4.4.2 实验步骤及结果 |
4.5 基于LRSDL和 i-vector融合的说话人识别系统 |
4.5.1 系统原理 |
4.5.2 实验分析 |
4.6 本章小结 |
第五章 总结与展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
致谢 |
四、Fisher算法在语音声学模型分析中的研究与应用(论文参考文献)
- [1]语音识别技术在铁路车务仿真培训系统中的应用研究[D]. 俞永乾. 兰州交通大学, 2021
- [2]基于机器学习的OSAHS鼾声识别技术研究[D]. 沈侃文. 杭州电子科技大学, 2021
- [3]基于融合特征的说话人识别技术研究[D]. 邹博. 南京邮电大学, 2020(03)
- [4]基于脑电的听觉注意解码与情绪识别的认知计算研究[D]. 陆云. 哈尔滨工业大学, 2020(01)
- [5]隐写安全性增强与分布保持隐写研究[D]. 陈可江. 中国科学技术大学, 2020(01)
- [6]回放语音攻击检测中特征参数的研究[D]. 周晶. 南京财经大学, 2020(04)
- [7]面向自动驾驶汽车的交通声学环境感知方法研究[D]. 李仁仁. 江苏大学, 2020(02)
- [8]基于声纹识别的身份认证与反欺骗算法研究[D]. 李平. 北京邮电大学, 2020(05)
- [9]基于鼾声信号识别的呼吸暂停综合征的监测研究[D]. 沈钰瑞. 杭州电子科技大学, 2020(02)
- [10]基于字典学习的说话人识别算法研究[D]. 李宗晏. 南京邮电大学, 2019(02)