新闻  |   论坛  |   博客  |   在线研讨会
科大讯飞重磅发布星火大模型4.0,整体性能全面领先,打造国产大模型最强平替
传感器技术 | 2024-06-30 13:28:54    阅读:234   发布文章

导读:6月27日,科大讯飞在北京国家会议中心升级发布讯飞星火V4.0。本次升级后,讯飞星火全面对标ChatGPT-4 Turbo,在8个国际主流测试集中排名第一,在国内大模型中全面领先。 



图片



首个支持74个语种方言免切换语音大模型破解强干扰场景下语音识别难题


近期科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目,获得国家科学技术进步奖一等奖。这一次星火语音大模型迎来新突破。

刘庆峰认为,语音将成为万物互联时代人机交互的主要方式,人机交互最重要的场景是远场、噪声、多人说话、多语言,因此万物互联时代的AIUI(人工智能用户界面)要满足远场高噪声、多语言多方言、全双工、多模态等标准。科大讯飞也主导制定了全双工语音交互ISO/IEC国际标准,并于2023年5月发布。

面向万物互联时代,本次星火语音大模型发布的多语种多方言免切换语音识别能力,可支持37个语种、37种方言“自由对话”。其中,37个语种识别效果领先OpenAI whisper-V3,37个方言识别效果平均提升30%。现场,科大讯飞演示了讯飞输入法混合方言和外语的语音输入效果,能让输入效率大大提高。

科大讯飞还发布了软硬件一体化讯飞同传系统,可支持大会同传、会议同传、展厅同传、旅游同传等多场景使用。本次参会的嘉宾座位上同样配备讯飞同传的收听设备,佩戴后即可实时收听多语种AI同声传译。

针对强干扰场景下的语音识别难题,科大讯飞突破了多人混叠场景下的极复杂场景语音转写技术,即使在三人混叠说话场景也能实现86%的语音识别准确率。三位讯飞研究院的研究员现场实测,在噪音场景下同时混叠着说话,正常人耳已难以听清,只见讯飞星火的多模态能力不但实现了三人重叠语音的角色分离,还能实时转写出每个人的语音,准确的效果引发现场掌声不断。未来多模态的语音识别技术将应用在讯飞听见智慧办公服务平台、智慧屏等办公产品中。


图片



大模型正在推动人机交互变革,语音领域的所有应用都值得被重构。在大模型加持下,星火汽车智能座舱全新升级,不但具备了多语种多方言的“自由交互”,还具备多情感多模态的超拟人交互,让人车交互更有温度。当前在汽车领域,讯飞语音交互产品国内市占率稳居第一,同时广泛出口到世界各地。星火大模型为一汽、奇瑞、广汽、江淮、长城等车企的众多车型,赋予了高度智能的交互体验。

为了让大模型更好落地,科大讯飞还打造了端云一体和软硬一体的解决方案,赋能家电、机器人等更多行业场景。面向具身智能和人形机器人企业需求,本次科大讯飞正式发布机器人超脑平台2.0,业内首个支持多模态交互,目前超400家机器人企业已经采用讯飞机器人超脑平台。  


星火大模型助力“中式”智能座舱走向世界

科大讯飞面向万物互联时代,星火语音大模型再突破,发布72个语种/方言免切换对话,破解强干扰场景下语音识别难题,发布国际领先的极复杂场景语音转写,并通过云边端及软硬一体化解决方案,为汽车智能座舱,开辟出了更广阔的天地。图片


发布会现场,科大讯飞使用新款奇瑞星纪元ET,展示了包括东北话、天津话、英语、俄语在内的语音助理免切换交互。以奇瑞为代表的中国汽车出海军团,以领先的新能源与智能化技术,在多个国家市场取得了亮眼的成绩。去年中国汽车出海销量超过520万台,首次跃居世界第一。如今依托讯飞星火大模型,科大讯飞将有能力为全球更多国家的更多车主,送去中国本土级别的汽车智能体验;助力包括奇瑞、上汽、广汽、长城、长安、比亚迪等在内的中国汽车出海品牌,进一步实现品牌向上。

智能座舱再升级 多模态创造新场景


随着ChatGPT-4o的发布,多模态能力成为大模型热点概念。多模态模型结合了文本、图像、声音等多种数据类型的处理能力。相较于传统的语音输入、提问闲聊,多模态能力极大地扩展了大模型的应用边界。“能听会看”的大模型,认知能力从“拟人”上升到“类人”,加入到智能座舱场景中,犹如为汽车加上了一个看不见的“随行全能助理”。图片


比如随着新能源智能汽车的加速普及,越来越多的车主感到过去在驾校里学到的知识“不够用”了;一度还曾有新能源车企高管提出“要与驾校合作,让大家了解新型汽车的使用方法”的争议言论。针对这一问题,科大讯飞研发了基于星火大模型的用车助手:不同于传统的操作手册,用车助手能够实时监测理解车辆状况,根据当下的路况车况,精准解答用户对用车的问题。例如在不同的路况下,帮助用户开启自动驾驶辅助;在不同的天气下,引导用户正确使用车灯;根据实时车况,精准给出维修保养建议等。图片


多模态能力也为车上的硬件开辟了全新的应用空间。传统的DMS主要用于监测驾驶员疲劳状况,在大模型的赋能下,视觉判断能够高精度获取包括心跳、呼吸、血压在内的多项身体健康指标,在用户无感的状态下长期记录跟踪。讯飞星火健康专家在此基础上联动讯飞医疗资源,为车主提供30种以上健康问题的监测诊断,守护车主安全出行。 


硬核科技助力 芯算融合让域控更强劲


在大模型、多场景不断创造新体验的背后,是汽车智能座舱对算力需求的不断升级:为了支持越来越多的智能化功能应用、支撑多模态融合趋势,AI算法日益丰富,传统座舱SOC都将面临CPU算力不足的窘境。相较于PC/手机行业硬件更迭的频率,汽车产品陪伴用户的生命周期要长久得多,也更需要我们通过算法的精研,在存量成熟平台上为用户最大限度榨取出SOC性能价值。科大讯飞作为国内领先的智能座舱全域解决方案提供商,充分发挥自身技术优势,将智能汽车算法与智能汽车芯片深度融合部署,支撑多模态融合交互应用,实现高效推理、高效移植、高效调试。图片


以讯飞最具代表性的语音算法为例,通过异构将语音降噪、唤醒、识别、合成从CPU移植到NPU后,能够降低60%的CPU算力需求。而通过在资源富裕的NPU上部署更大模型,能够在本地实现媲美云端的语音识别效果。这就是红旗EH7、蔚来ES8等一批新款车型上,语音识别又快又准背后的技术秘密。


图片



而在更火热的大模型领域,通过端云协同部署方案,在云端利用大模型实现多轮贯穿、流式对话、全领域规划、可控对话、多领域知识深度理解的同时,在本地部署十亿级别参数的端侧模型,用于增强本地语义理解能力,不仅能够明显优化响应时间,还能够有效保障极速、离线、多模、隐私安全类业务闭环体验。端云协同部署方案下,星火大模型能够在98%以上的云端意图分类准确率下,将本地大模型语义增强提升40%,响应速度降低500ms。奇瑞星途星纪元、广汽埃安、长城魏牌都已选择星火端云部署方案,提升车载大模型性能。在科大讯飞看来,人工智能的发展应用,不仅仅是烈火烹油的技术竞争,还是长坡厚雪的应用坚守。科大讯飞始终秉持成就客户的企业价值观,运用最新研究成果,覆盖真实场景需求,始终和中国汽车企业站在一起,以科技普惠的愿景,为中国乃至世界提供美好的出行体验。 来源:声光界


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客