科大讯飞重磅发布星火大模型4.0，整体性能全面领先，打造国产大模型最强平替

传感器技术 | 2024-06-30 13:28:54 阅读：234

导读：6月27日，科大讯飞在北京国家会议中心升级发布讯飞星火V4.0。本次升级后，讯飞星火全面对标ChatGPT-4 Turbo，在8个国际主流测试集中排名第一，在国内大模型中全面领先。

首个支持74个语种方言免切换语音大模型破解强干扰场景下语音识别难题

近期科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目，获得国家科学技术进步奖一等奖。这一次星火语音大模型迎来新突破。

刘庆峰认为，语音将成为万物互联时代人机交互的主要方式，人机交互最重要的场景是远场、噪声、多人说话、多语言，因此万物互联时代的AIUI（人工智能用户界面）要满足远场高噪声、多语言多方言、全双工、多模态等标准。科大讯飞也主导制定了全双工语音交互ISO/IEC国际标准，并于2023年5月发布。

面向万物互联时代，本次星火语音大模型发布的多语种多方言免切换语音识别能力，可支持37个语种、37种方言“自由对话”。其中，37个语种识别效果领先OpenAI whisper-V3，37个方言识别效果平均提升30%。现场，科大讯飞演示了讯飞输入法混合方言和外语的语音输入效果，能让输入效率大大提高。

科大讯飞还发布了软硬件一体化讯飞同传系统，可支持大会同传、会议同传、展厅同传、旅游同传等多场景使用。本次参会的嘉宾座位上同样配备讯飞同传的收听设备，佩戴后即可实时收听多语种AI同声传译。

针对强干扰场景下的语音识别难题，科大讯飞突破了多人混叠场景下的极复杂场景语音转写技术，即使在三人混叠说话场景也能实现86%的语音识别准确率。三位讯飞研究院的研究员现场实测，在噪音场景下同时混叠着说话，正常人耳已难以听清，只见讯飞星火的多模态能力不但实现了三人重叠语音的角色分离，还能实时转写出每个人的语音，准确的效果引发现场掌声不断。未来多模态的语音识别技术将应用在讯飞听见智慧办公服务平台、智慧屏等办公产品中。

大模型正在推动人机交互变革，语音领域的所有应用都值得被重构。在大模型加持下，星火汽车智能座舱全新升级，不但具备了多语种多方言的“自由交互”，还具备多情感多模态的超拟人交互，让人车交互更有温度。当前在汽车领域，讯飞语音交互产品国内市占率稳居第一，同时广泛出口到世界各地。星火大模型为一汽、奇瑞、广汽、江淮、长城等车企的众多车型，赋予了高度智能的交互体验。

为了让大模型更好落地，科大讯飞还打造了端云一体和软硬一体的解决方案，赋能家电、机器人等更多行业场景。面向具身智能和人形机器人企业需求，本次科大讯飞正式发布机器人超脑平台2.0，业内首个支持多模态交互，目前超400家机器人企业已经采用讯飞机器人超脑平台。

星火大模型助力“中式”智能座舱走向世界

科大讯飞面向万物互联时代，星火语音大模型再突破，发布72个语种/方言免切换对话，破解强干扰场景下语音识别难题，发布国际领先的极复杂场景语音转写，并通过云边端及软硬一体化解决方案，为汽车智能座舱，开辟出了更广阔的天地。

发布会现场，科大讯飞使用新款奇瑞星纪元ET，展示了包括东北话、天津话、英语、俄语在内的语音助理免切换交互。以奇瑞为代表的中国汽车出海军团，以领先的新能源与智能化技术，在多个国家市场取得了亮眼的成绩。去年中国汽车出海销量超过520万台，首次跃居世界第一。如今依托讯飞星火大模型，科大讯飞将有能力为全球更多国家的更多车主，送去中国本土级别的汽车智能体验；助力包括奇瑞、上汽、广汽、长城、长安、比亚迪等在内的中国汽车出海品牌，进一步实现品牌向上。

智能座舱再升级多模态创造新场景

随着ChatGPT-4o的发布，多模态能力成为大模型热点概念。多模态模型结合了文本、图像、声音等多种数据类型的处理能力。相较于传统的语音输入、提问闲聊，多模态能力极大地扩展了大模型的应用边界。“能听会看”的大模型，认知能力从“拟人”上升到“类人”，加入到智能座舱场景中，犹如为汽车加上了一个看不见的“随行全能助理”。

比如随着新能源智能汽车的加速普及，越来越多的车主感到过去在驾校里学到的知识“不够用”了；一度还曾有新能源车企高管提出“要与驾校合作，让大家了解新型汽车的使用方法”的争议言论。针对这一问题，科大讯飞研发了基于星火大模型的用车助手：不同于传统的操作手册，用车助手能够实时监测理解车辆状况，根据当下的路况车况，精准解答用户对用车的问题。例如在不同的路况下，帮助用户开启自动驾驶辅助；在不同的天气下，引导用户正确使用车灯；根据实时车况，精准给出维修保养建议等。

多模态能力也为车上的硬件开辟了全新的应用空间。传统的DMS主要用于监测驾驶员疲劳状况，在大模型的赋能下，视觉判断能够高精度获取包括心跳、呼吸、血压在内的多项身体健康指标，在用户无感的状态下长期记录跟踪。讯飞星火健康专家在此基础上联动讯飞医疗资源，为车主提供30种以上健康问题的监测诊断，守护车主安全出行。

硬核科技助力芯算融合让域控更强劲

在大模型、多场景不断创造新体验的背后，是汽车智能座舱对算力需求的不断升级：为了支持越来越多的智能化功能应用、支撑多模态融合趋势，AI算法日益丰富，传统座舱SOC都将面临CPU算力不足的窘境。相较于PC/手机行业硬件更迭的频率，汽车产品陪伴用户的生命周期要长久得多，也更需要我们通过算法的精研，在存量成熟平台上为用户最大限度榨取出SOC性能价值。科大讯飞作为国内领先的智能座舱全域解决方案提供商，充分发挥自身技术优势，将智能汽车算法与智能汽车芯片深度融合部署，支撑多模态融合交互应用，实现高效推理、高效移植、高效调试。

以讯飞最具代表性的语音算法为例，通过异构将语音降噪、唤醒、识别、合成从CPU移植到NPU后，能够降低60%的CPU算力需求。而通过在资源富裕的NPU上部署更大模型，能够在本地实现媲美云端的语音识别效果。这就是红旗EH7、蔚来ES8等一批新款车型上，语音识别又快又准背后的技术秘密。

而在更火热的大模型领域，通过端云协同部署方案，在云端利用大模型实现多轮贯穿、流式对话、全领域规划、可控对话、多领域知识深度理解的同时，在本地部署十亿级别参数的端侧模型，用于增强本地语义理解能力，不仅能够明显优化响应时间，还能够有效保障极速、离线、多模、隐私安全类业务闭环体验。端云协同部署方案下，星火大模型能够在98%以上的云端意图分类准确率下，将本地大模型语义增强提升40%，响应速度降低500ms。奇瑞星途星纪元、广汽埃安、长城魏牌都已选择星火端云部署方案，提升车载大模型性能。在科大讯飞看来，人工智能的发展应用，不仅仅是烈火烹油的技术竞争，还是长坡厚雪的应用坚守。科大讯飞始终秉持成就客户的企业价值观，运用最新研究成果，覆盖真实场景需求，始终和中国汽车企业站在一起，以科技普惠的愿景，为中国乃至世界提供美好的出行体验。 来源：声光界

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。