"); //-->
首个支持74个语种方言免切换语音大模型破解强干扰场景下语音识别难题
近期科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目,获得国家科学技术进步奖一等奖。这一次星火语音大模型迎来新突破。
刘庆峰认为,语音将成为万物互联时代人机交互的主要方式,人机交互最重要的场景是远场、噪声、多人说话、多语言,因此万物互联时代的AIUI(人工智能用户界面)要满足远场高噪声、多语言多方言、全双工、多模态等标准。科大讯飞也主导制定了全双工语音交互ISO/IEC国际标准,并于2023年5月发布。
面向万物互联时代,本次星火语音大模型发布的多语种多方言免切换语音识别能力,可支持37个语种、37种方言“自由对话”。其中,37个语种识别效果领先OpenAI whisper-V3,37个方言识别效果平均提升30%。现场,科大讯飞演示了讯飞输入法混合方言和外语的语音输入效果,能让输入效率大大提高。
科大讯飞还发布了软硬件一体化讯飞同传系统,可支持大会同传、会议同传、展厅同传、旅游同传等多场景使用。本次参会的嘉宾座位上同样配备讯飞同传的收听设备,佩戴后即可实时收听多语种AI同声传译。
针对强干扰场景下的语音识别难题,科大讯飞突破了多人混叠场景下的极复杂场景语音转写技术,即使在三人混叠说话场景也能实现86%的语音识别准确率。三位讯飞研究院的研究员现场实测,在噪音场景下同时混叠着说话,正常人耳已难以听清,只见讯飞星火的多模态能力不但实现了三人重叠语音的角色分离,还能实时转写出每个人的语音,准确的效果引发现场掌声不断。未来多模态的语音识别技术将应用在讯飞听见智慧办公服务平台、智慧屏等办公产品中。
大模型正在推动人机交互变革,语音领域的所有应用都值得被重构。在大模型加持下,星火汽车智能座舱全新升级,不但具备了多语种多方言的“自由交互”,还具备多情感多模态的超拟人交互,让人车交互更有温度。当前在汽车领域,讯飞语音交互产品国内市占率稳居第一,同时广泛出口到世界各地。星火大模型为一汽、奇瑞、广汽、江淮、长城等车企的众多车型,赋予了高度智能的交互体验。
为了让大模型更好落地,科大讯飞还打造了端云一体和软硬一体的解决方案,赋能家电、机器人等更多行业场景。面向具身智能和人形机器人企业需求,本次科大讯飞正式发布机器人超脑平台2.0,业内首个支持多模态交互,目前超400家机器人企业已经采用讯飞机器人超脑平台。
星火大模型助力“中式”智能座舱走向世界
科大讯飞面向万物互联时代,星火语音大模型再突破,发布72个语种/方言免切换对话,破解强干扰场景下语音识别难题,发布国际领先的极复杂场景语音转写,并通过云边端及软硬一体化解决方案,为汽车智能座舱,开辟出了更广阔的天地。智能座舱再升级 多模态创造新场景
多模态能力也为车上的硬件开辟了全新的应用空间。传统的DMS主要用于监测驾驶员疲劳状况,在大模型的赋能下,视觉判断能够高精度获取包括心跳、呼吸、血压在内的多项身体健康指标,在用户无感的状态下长期记录跟踪。讯飞星火健康专家在此基础上联动讯飞医疗资源,为车主提供30种以上健康问题的监测诊断,守护车主安全出行。
硬核科技助力 芯算融合让域控更强劲
以讯飞最具代表性的语音算法为例,通过异构将语音降噪、唤醒、识别、合成从CPU移植到NPU后,能够降低60%的CPU算力需求。而通过在资源富裕的NPU上部署更大模型,能够在本地实现媲美云端的语音识别效果。这就是红旗EH7、蔚来ES8等一批新款车型上,语音识别又快又准背后的技术秘密。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。