什么是语音识别技术?语音识别是怎么实现的
随着计算机技术的发展,语音识别已经成为信息产业的一个标志性现象,在交互式应用中,语音识别已经逐渐进入我们的日常生活,并迅速成为" 未来改变人们生活方式的关键管理方法 "之一,这也是人们一直梦寐以求的事情。
语音识别是语音处理领域的一个重要研究领域,其最终目标是让人类用自然语言与机器进行交流。
1、什么是语音识别技术?
各种终端的智能化和集成化水平越来越高,传统的信息检索方式和动作菜单越来越无法实现。 迫切需要一种更便捷的信息检索和命令执行模式来代替传统的按键操作。
语音识别技术是一种新的高科技技术,它可以让机器将音频信号转换成相应的文本或命令,即自动语音识别(ASR),以将人的声音转换成可读的输入,如按键、二进制代码或字符序列。
2、语音识别技术应用在哪些领域呢?
语音输入系统,更符合人的正常习惯,比键盘输入更自然,更高效。
语音控制系统,即用语音控制工作,比人工控制更快、更方便.可应用于各个领域,如工业控制、语音拨号、智能家电、音响网络玩具等。
基于客户语音交流的智能对话信息检索系统为用户提供自然、友好的数据库检索服务,如家庭服务、酒店服务、旅游服务、票务预订系统、医疗服务、银行服务、股票查询服务等。
3、语音识别过程(传统的基于HMM的语音识别)
在进行语音识别之前,通常需要去除文本第一部分末尾的声音,以减少后续步骤的干扰。 这种声音去除操作通常称为VAD。
帧将声音连接成一个单独的片段,每个片段称为一个帧。
形状转换.通常使用12 - 维向量来提取MFCC特征,它描述了通过耳朵的生理特征在12 - 维向量中获得的帧的形状.这个过程被称为声学.声音已经转化为12线n矩阵(观察到的序列)。
进行语音解码。 创建情景网络就是在单词网络中创建一个层次网络,然后部署在情景网络中.语音识别过程中很可能在情景网络中找到对应路径的发音.路径寻找算法是一种动态分支算法,称为Viterbi算法,用于在全局范围内寻找最优路径.观察和过渡概率(声学模型),语言概率(语言学模型)。
4、语音识别需要怎样的设备?
语音识别系统使用的硬件很便宜,大部分电脑都有声卡和麦克风,使用起来很方便。 语音识别还是有一些弊端的,发音会随着时间的推移而改变,所以需要使用生物识别模板。
语音也会发生变化--鼻涕、声音嘶哑、情绪紧张或青春期。"语音识别系统的误差比指纹识别系统要高,因为人的声音不像指纹那么独特。"对于快速傅里叶变换系统,必须与处理器进行交互,这比指纹系统更有效率。 目前,语音识别系统并不适合移动应用或使用电池作为电源的系统。
5、及展望
二十一世纪是信息与网络、信息与网络飞速发展的时代,人与人之间的距离越来越近,互联网和手机越来越方便,信息资源传播速度越来越快,人与机器之间的互动越来越重要,语音识别的研究和应用让人们无论何时何地,都能做到言出必行,它为人们获取社会信息资源和现代服务提供了便利条件 以下是语音识别的方向和趋势。