基于深度神经网络的病理嗓音研究

实现过程:

一:关于病理嗓音的特征提取,这里分析的是嗓音疾病,而不是去分析所有疾病。

二:基于深度神经网络病理嗓音分类, 对嗓音病理性质进行分类,以及对嗓音疾病的严重程度进行分类。


相关的预备知识:

1.关于声音和嗓音形成的基本原理:
声音产生的本质是振动,物体的振动力度越大,响度越大;振动的频率越高,音调越高;不同物体发出的声音是不一样的,这取决于音色。人能听到声音的前提是音调在20到20000Hz,并且响度在一个范围内。这里有个问题,生活中我们常说一个人的声音太小了,听不见,这里指的是响度,如果声音的频率很小,但是响度很大,人耳依旧是听不到的。这里举个例子:
对于低音频超高响度的次声波,人耳没有这个感受能力,不会听到。人体倒是可以感受,如果能量足够,可以把人体震得肝肠断裂,超声波也是如此。
尽管物体振动了,也不一定能产生声波,这里有个前提就是介质,物体的振动带动空气分子的振动,就形成了声波,声波的传输速度为340m/s,这里注意声波是一种横波,纵波也有但是可以忽略不计。然后振动的空气分子引起耳膜的振动,并引起大脑的感知,人就感觉到了声音。
2.声音的基本参数:音调 响度 音色
很容易建立的几个坐标曲线就是,时间和响度,时间和音调。音色该如何辨别呢???*
3.我们该对声音的哪些特征参数进行提取,当然,这取决于分析模型中所需要的参数,这里介绍一下目前常用的声音模型,这里使用的是DNN也就是深度神经网络。为什么选择这个模型呢?

原文地址:https://www.cnblogs.com/misakimei/p/12141601.html

时间: 2024-07-29 10:41:36

基于深度神经网络的病理嗓音研究的相关文章

基本概念 深度神经网络压缩与优化研究_王征韬

深度神经网络压缩与优化研究 文献来源:王征韬. 深度神经网络压缩与优化研究[D].电子科技大学,2017. 摘要:深度学习是近年来机器学习领域最有影响力的研究方向,在计算机视觉.自然语言处理的许多问题上都取得了突出的效果.深度学习的本质是大数据支撑下,由多层人工神经网络堆叠形成的信号处理系统,具有参数数目多,计算复杂度高等特点.深度学习的训练和运行都需要大量的运行空间与并行计算设备,这些需求阻碍了深度学习在资源有限的设备,如手机.平板电脑和嵌入式设备上的应用.另一方面,神经网络中普遍存在过参数化

基于深度学习的目标检测研究进展

前言 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置.其实刚刚的这个过程就是目标检测,目标检测就是"给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别". 目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在

回望2017,基于深度学习的NLP研究大盘点

回望2017,基于深度学习的NLP研究大盘点 雷锋网 百家号01-0110:31 雷锋网 AI 科技评论按:本文是一篇发布于 tryolabs 的文章,作者 Javier Couto 针对 2017 年基于深度学习的自然语言处理研究进行了大盘点.雷锋网 AI 科技评论根据原文进行了编译. 在过去的几年里,深度学习(DL)架构和算法在诸如图像识别和语音处理等领域取得了世人瞩目的进步.然而在最开始的时候,深度学习在自然语言处理(Natural Language Processing, NLP)领域的

深度|余凯:基于深度学习的自动驾驶之路

2016年是一个非常重要的历史节点,标志着知行合一的人工智能系统将走向历史舞台.它改变的不光是下围棋,会改变很多很多事情.——余凯 在“2016年智能汽车•上海论坛”之“ADAS与自动驾驶趋势论坛”上,地平线机器人创始人兼CEO余凯博士发表了题为“基于深度学习的自动驾驶之路”的主题演讲. 这里有技术普及,有行业观察,还有对未来生活的美好展望.你想知道的有关深度学习和自动驾驶的一切,我们今天都告诉你. 1深度学习 · 诞生与成长 每个人都在讲大数据,就像每个中学生都在讲“性”,但是他们从来没有经历

[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

译自:http://sebastianruder.com/multi-task/ 1. 前言 在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务.然后,我们通过精细调参,来改进模型直至性能不再提升.尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好.具体来说,这些信息就是相关任务的监督数据.通过在相关任务间共享表示信息,我们的模型在

深度学习与脑机接口_1(基于卷积神经网络的P300信号检测)

参考论文<Convolutional Neutral Networks for P300 Detection with Application to Brain-Computer Interfaces> Hubert Cecotti and Axel Gra¨ser ?1.所研究问题:检测单次刺激P300信号的有无(即不经过叠加平均) 以下四个图全部都包含P300波形: 我们只能从图1和4中观察出P300波形,图2和图3很难确定的说P300波形存在与否(然而实际上是有的) 提出问题:如何在叠加

TensorFlow实现基于深度学习的图像补全

目录 ■ 简介 ■ 第一步:将图像理解为一个概率分布的样本 你是怎样补全缺失信息的呢? 但是怎样着手统计呢?这些都是图像啊. 那么我们怎样补全图像?  ■ 第二步:快速生成假图像 在未知概率分布情况下,学习生成新样本 [ML-Heavy] 生成对抗网络(Generative Adversarial Net, GAN) 的架构 使用G(z)生成伪图像 [ML-Heavy] 训练DCGAN 现有的GAN和DCGAN实现 [ML-Heavy] 在Tensorflow上构建DCGANs 在图片集上跑DC

从图像到知识:深度神经网络实现图像理解的原理解析

摘要:本文将详细解析深度神经网络识别图形图像的基本原理.针对卷积神经网络,本文将详细探讨网络中每一层在图像识别中的原理和作用,例如卷积层(convolutional layer),采样层(pooling layer),全连接层(hidden layer),输出层(softmax output layer).针对递归神经网络,本文将解释它在在序列数据上表现出的强大能力.针对通用的深度神经网络模型,本文也将详细探讨网络的前馈和学习过程.卷积神经网络和递归神经网络的结合形成的深度学习模型甚至可以自动生

深度神经网络DNN的多GPU数据并行框架 及其在语音识别的应用

深度神经网络(Deep Neural Networks, 简称DNN)是近年来机器学习领域中的研究热点,产生了广泛的应用.DNN具有深层结构.数千万参数需要学习,导致训练非常耗时.GPU有强大的计算能力,适合于加速深度神经网络训练.DNN的单机多GPU数据并行框架是腾讯深度学习平台的一部分,腾讯深度学习平台技术团队实现了数据并行技术加速DNN训练,提供公用算法简化实验过程.对微信语音识别应用,在模型收敛速度和模型性能上都取得了有效提升--相比单GPU 4.6倍加速比,数十亿样本的训练数天收敛,测