新闻资讯
- 17876661076
- 17876661076
- 1152696177@qq.com
- 广州市南沙区丰泽东路106号
语音识别,助力会议语音转写
来源:本站 发表时间:2022-08-20 14:27:21
通常会议记录的速度是慢于说话速度的,而对于大部分会议而言,会议记录内容是参与人员复盘和会议重点提炼的一手材料,尤其是对于大型讨论决策型会议,会议记录的内容准确性不言而喻。
在语音转写技术出现以前,会议记录高度依赖会议记录人员或书记员的精确录入,后期还需要进行大量词汇填充工作,繁琐且出错率高。
科技是第一生产力,大数据应用的延伸和硬件系统的成本降低、性能的提升,反哺了人工智能所需要的原始训练资料,根据相关机构预测,中国语音识别的商用市场在2024年会达到接近300亿的收入规模,而GPU的使用量与训练速度也在成倍增长。随着越来越多的头部互联网厂商的布局和许多新兴玩家的加入,使得相应的应用产品愈发趋于成熟,开始走向大规模的商业化,而类似于会议记录困难这样的问题,自动实时语音转写录入技术的到来将会得到完美解决。
Q1:语音识别技术是如何发展的?
主要有四个阶段。第一个阶段(模板匹配阶段)是上个世纪50到60年代,语音识别尚处在萌芽阶段,通过模板匹配的方式实现,这个阶段的特点是只能理解有限的词汇和内存中的数字,并不能将语音信号转化为完整的语句或者词汇,且对于不同的声音模型,机器的识别也极为有限。
第二个阶段(模式和特征分析阶段)是智能语音识别的起步阶段,时间点是上世纪70、80年代,这一阶段可以通过对声音进行设置特定的模式和参数,并基于大量词汇可以进行连续的语音识别。仍然处于研究和探索的阶段,这一阶段的成果主要出自于各高校和研究所。
第三个阶段(概率统计建模阶段)为成长阶段,此阶段研究算法主流为概率统计算法建模,主要模型为HHM隐马尔科夫模型和DMM高斯混合模型,这一阶段开始有了面向商用市场的初期产品。而神经网络模型也在这一时期稳定发展,DBN深度置信网络由HINTON在2006年提出,并频繁出现在语音识别领域,开始挑战主流的算法模型。
第四个阶段(深度神经网络阶段)也就是2010年至今,消费级产品越来越常见并且更加专业化,而主流算法模型开始转向为神经网络模型,语音识别作为AI交互的接口,应用的场景也更加多样巧妙。
Q2:语音识别和语音转写有什么区别?
实际上这两种技术是包含关系,即语音转写技术是AI语音识别技术的一个分支。语音识别的研究对象是指以语音为研究对象,通过语言处理和模式识别让机器自动识别理解人类口述语言,进而转化成文本或者命令的技术。从中可以看出,语音识别是一门涉及广泛的技术,与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。而语音转写则是其中一种输出方式,最直接的就是转换成为可视化文本样式输出,即为语音转写技术,它包含了识别与转写两个流程。
下一篇:深度理解数字音频处理技术
- 2022-08-20 智能会议系统告诉你,会议还可以这样开
- 2022-08-20 浅析网络化会议扩声系统
- 2022-08-20 一种基于自适应啸叫抑制技术的教学扩声设计
- 2022-08-20 如何应对扩声系统中令人头疼的噪声?
- 2022-08-20 深度理解数字音频处理技术
- 2022-08-20 语音识别,助力会议语音转写