语音识别技术,又称为自动语音识别(Automatic Speech Recognition,ASR),它是以语音为研究对象,通过语音信号处理和模式识别让机器理解人类语言,并将其转换为计算机可输入的数字信号的一门技术。
语音识别技术在生活中的应用已经非常广泛,在车载导航、智能家居、日常办公等领域都有涉及,给人们生活带来了很多便利。
文字录入是语音识别最基本的应用,一般通过语音输入法进行。这方面做得较好的有IBM、微软、科大讯飞等,很多输入法都用的是讯飞的语音识别引擎。如果发音标准,在高达95%的识别率下,对于大量文字的录入,效率还是比较高的,甚至对于一些OCR难度较大的材料,也可以采用人工语音输入来解决。
把语音转换成文字,看起来似乎跟语音输入一样,在QQ和微信中,也可以把聊天中发送的语音直接转换成文字。但是在以前,如果想把一首MP3的朗诵文件转换成文本,还是要大费周章的。现在这个问题就很简单了,在语音识别引擎的支持下,很多软件都能实现语音文件转换。例如,利用搜狗输入法的MP3转文字功能,就可以把单田芳的评书MP3识别转换成文本文件。
会议速记是对录入速度的极大考验,因为正常说线多字,一般人的文字录入速度不太容易达到。但是如果会议发言的语音较标准,环境噪声小,就完全可以由机器对讲话进行语音识别记录,自动转换成文字。例如,在一些法庭的庭审现场,也会通过语音识别来分担员的工作。
很多时候,记者在采访和访谈时都会录音,以便回去后复听,避免遗漏和错误。在整理这些录音时,就可以采用语音识别的方法快速地得到文字版的采访过程记录,提高工作效率。
图书馆在查找资料时,常常会与检索打交道。检索方式从最初的卡片式检索变为后来的电子检索,很大程度地方便了借阅。但是如果支持语音检索的话,会更进一步地提高检索效率。
在手机上的视频剪辑软件中,有一个功能很受欢迎,就是语音转字幕。只要发音不是太难懂,视频中的语音都可以很方便地转换成字幕,并且保持与画面同步,如快影、剪映等都有这个功能,不仅实用,而且极大地节省了制作时间。但是在计算机上的传统视频编辑软件中,却很少具备这种智能化操作功能。
机器人能够跟人聊天的前提,当然也是需要具备语音识别功能,能够“听”出人在说什么,并且还需要具备语义识别功能,即能够听“懂”人在说什么。微软的小冰、IBM的沃森助理等,都具有较高的智能化水平。当然,它们不仅仅需要语音识别,更重要的是要基于人工智能、自然语言处理和大数据,才能实现像人一样聊天。
智能音箱本质上也是一个聊天机器人,不过它从计算机和手机软件中独立出来,不再依赖于计算机和手机,适应性更好。常见的天猫精灵、小爱同学、百度小度等,都是具有一定智能和应用特色的产品。
用语音发命令,让机器和设备去执行,这早已不是科幻场景,在智能家居、车载设备上都已充分应用。其前提也是先运用语音识别。
如果说简单的声控是单向响应的话,那么人机语音交互则是双向沟通。最常见的车辆导航,可以接受驾驶人的语音指令,根据目的地启用地图和导航,然后再根据车辆定位的反馈向驾驶人发出指示。
2021年,工业和信息化部批复组建国家智能语音创新中心等4家国家制造业创新中心。国家智能语音创新中心依托合肥智能语音创新发展有限公司组建,将围绕多语种语音识别、语音合成、语义理解和专用人工智能语音芯片等研发方向,构建集共性技术研发、测试验证、中试孵化和成果转移转化于一体的创新平台,提升我国智能语音行业技术水平和产品竞争力。
2020年,全国高级法院院长会议在北京召开。会议指出,要全面深化智慧法院建设,以电子卷宗深度应用为抓手,全面推广庭审语音识别、文书智能纠错、类案强制检索等应用,努力攻克以人工智能为核心的一批关键技术,持续深化智慧审判建设。要全方位升级执行办案平台,打通审判与执行办案平台数据接口,持续在执行管理、网络查控、联合惩戒、司法拍卖等环节信息化建设上发力,提升智慧执行水平。
2021年,省工业和信息化厅印发《河北省新一代信息技术产业发展“十四五”规划》,提出到2025年,全省新一代信息技术产业实现跨越式发展。其中,在“发展重点”篇章中提出发展语音识别、图像识别、知识处理等智能系统,培育人工智能解决方案提供商,开发一批量大面广的新型人工智能终端产品。
6月26日,备受瞩目的2022年中国·廊坊国际经济贸易洽谈会开幕,长城新媒体集团推出AI虚拟主播冀小青播报廊洽会系列报道。长城新媒体集团AI虚拟主播依托语音识别、人脸建模、口唇预测、音频驱动等自主关键技术,能够实现智能驱动,快速便捷地进行新闻直播。
近日, 中国电信沧州分公司利用5G+工业互联网技术为国家能源集团沧州黄骅港务公司打造的智能专用网络成功开通并顺利通过验收。在黄骅港煤炭码头,巨大的装船机随着工作人员的语音指令准确动作,运行过程中全程网络通畅、识别准确、动作流畅,这标志着中国电信5G网络+智能操控的装船机智能化解决方案在黄骅港成功落地。该项目也使黄骅港成为世界首个应用5G+语音识别技术的智能散货港口。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。