- 48小时新闻排行
- 7天新闻排行
| 一段令人心碎的离别视频走红:小女孩与AI玩具的深情告别,揭示了对话式AI如何悄然融入人类情感世界,预示着实时交互技术的革命性突破。一段视频走红了,只听声音就让人肝肠寸断:
小女孩依依不舍的「姐姐」,其实是具有语音功能的AI玩具。
不过,如今很多AI的交互还停留在「短信」时代:在输入框中,输入问题,AI输出文字。 但人类沟通中,重要的从来不止是语言内容—— 在《Silent Messages》「沉默的信息」中,心理学家Albert Mehrabian提出了「梅拉宾法则」:语言内容占沟通中7%的信息,声音占38%,表情等身体语言占55%。
从技术趋势来看,多模态是大势所趋。与之同时,多模态大模型必然从「生成」演进到「交互」。 下一个关键演进方向,就是实时交互能力的普及。 多模态LLM,让计算机出现了类人的实时语音对话能力。实时互动,早已不再局限在人与人之间。随着技术发展,一个新AI物种诞生了—— 具有「活人感」的对话式AI爆发了。
10月31日,声网与RTE开发者社区联合主办了Convo AI&RTE 2025——第十一届实时互联网大会。 今年的大会依旧十分火爆,现场座无虚席,很多朋友只能站着听。
![]() 左右滑动查看RTE2025大会覆盖实时互联网以及对话式AI全生态,推出相关论坛及周边活动共计20余场,包括技术开发、趋势洞见、行业观察、创业投资等多维度话题。2015年,声网把面向实时音视频的RTC开发者大会带到中国。从那时算起,这场年度盛会已连续举办十余届,期间从未间断过。 大会起初专注于WebRTC/RTC底层技术交流。 到2020年,由「RTC大会」升级为「RTE实时互联网大会」,议题从通信技术扩展为「实时互动」的广阔场景,逐步成长为全球规模最大的实时互联网盛会,累计覆盖200+行业场景、影响200万+开发者,分论坛扩展至20+。 2024年第十届以「AI爱」为主题,系统呈现RTE+AI能力图谱与实践脉络,并延续了20+论坛的体量。 今年,大会进一步升级为「Convo AI & RTE 2025」(实时互联网大会暨对话式AI论坛)。 从名字的变迁可以看出,声网在不丢失原有RTE技术与行业内容的基础上,把「对话式AI」置于了舞台中央,面向更高远的人机对话范式与产业落地。 现在,声网年服务分钟数首次突破1万亿,RTE的基础设施属性被进一步夯实,也印证了「RTE × 对话式AI」将成为下一阶段的主旋律与趋势。
比如,2015年第一届大会上,声网说直播连麦会成主流玩法,结果第二年这就火了,成为直播界的风口。 2016年,他们觉得在线教育会是大趋势,果然第二年在线教育就爆炸式增长。 到了2023年,大会主题是智能、高清,又一次神准地预测了未来——2024年初,多模态技术大爆发,Sora和GPT-4o这些新东西刷爆了舆论,多模态成了各大AI模型玩家的重点发力方向。 在这次大会上,声网CEO赵斌分享了行业趋势: 对话式AI将成为下一代AIInfra重要部分。 AI新物种对话式AI在大会上,声网CEO赵斌对当前行业做出重大趋势判断: 对话式 AI 正处于从「正常对话」 到 「声情并茂」的关键一跃, 相关行业即将爆发。 在过去一年,开发者和市场对于「对话式AI」的热情高涨。 声网的RTE等相关服务年度分钟数,首次突破1万亿分钟。
ElevenLabs黑客松,在比较短的时间内孵化了300多个各种创业项目和场景。 开源的对话式语音智能体TEN Framework和TEN Agent,多次登顶GitHub排行榜,在对话式AI行业社区引起了很多关注。
千亿美元全球市场随着AI加入实时互动,实时互动的跃迁之路正在开启。 对话式AI的机会在哪里?
而在众多应用场景中,情感陪伴、智能硬件、在线教育将率先实现对话式AI规模化落地。 未来几十年,声网笃定判断,AI陪伴赛道会有非常持续和长足的发展。 一些分析师和投资机构的判断,甚至还要乐观很多。
此外,大家可以观察到这一领域的应用量和活跃度的增加。
最近两年,AI硬件也开始逐渐出现在市场上。 品类也出现了更多元化的发展,但热度最高的仍然是养成和陪伴的AI硬件。
如今,对话式AI已经能够提供丰富的能力。 除了一般的对话以外,音乐、唱歌等等形式也已经成为一种可能,从而为AI陪伴和养成场景提供更好的真实体验。 在游戏领域,对话式AI已经有了很多探索和创新。 对话式AI将会给所有的游戏探索增添更多的趣味。无论是NPC对话能力,还是场景交互体验,对话式AI都能提供全新的场景和更好的体验。甚至一些从业者,已经从底层思考如何重构游戏的体验和场景。
过去的一年,许多垂类的专用AI助理也取得突破性的进展。比如,蚂蚁AQ,短时间内就有大量的下载规模,专用助理方向未来还有巨大的空间。
AI教学硬件,也在推陈出新,不断有些新的尝试和探索。 在大会现场,赵斌演示了AI客服的功能。 在实时交互与场景理解方面,当前对话式AI已经取得了突破性进展。 在成本和效率上,AI客服终于活出了人样:单次服务成本降低至0.3元;平均处理时间降低了15%-25%。
未来已来,AI实时交互孕育巨大的机会。 OpenAI引爆新赛道声网已深耕多年要把RTE大会办成对话式AI行业的风向标,靠的绝不是仅仅改个会名,而是声网在对话式AI领域的长期深耕。 转折点出现在去年5月,当时OpenAI把GPT-4o ——语音-视觉-文本实时多模态——推到台前,实时、自然的人机对话成为了行业的新共识。 随之在2024年10月份,OpenAI面向开发者推出Realtime API公测,声网的兄弟公司Agora与Twilio、LiveKit一起成为首批三家官方集成伙伴,率先把低时延语音对话能力带到了实际应用里,也为声网后续产品化铺好「底座」。
有了声网的底座加持,MiniMax的语音对话成了一个亮点:开口就回、几乎「秒响应」。就算在信号不稳或环境嘈杂的场景里,也能和AI助手说得清、听得准、连得稳。 依托MiniMax新一代语音大模型,AI说话更像真人——音色逼真、语气自然,中英夹杂等多语种切换也不打结。你还可以一键调语速、随心换声音,操作简单、效果到位。 另一个大家熟悉的案例是智谱的AI智能助手。 去年8月,智谱率先把视频通话带进国内AI助手,得益于他们强大的音视频理解与情感语音模型,这个AI助手不只会听你说,还能「看懂」你所处的环境。 在接入声网的对话式AI技术后,智谱的AI助手通话时延更低、对话更顺滑,几乎像和真人聊天一样自然。 上线三个月,就已吸引100万用户使用,十分火爆。
对话式AI引擎在对话式 AI 迎来爆发之际,行业仍然面临着一些挑战,例如行业数据显示,仅21%的用户对现有AI对话体验满意,部分服务的用户流失率高到「不可接受」。
低延迟响应、自然打断、上下文管理、情感理解与表达等。
在RTE2025的RTE&对话式AI产品分论坛上,声网也相继发布了最新版的对话式AI引擎2.0版,对话式AI开发套件、对话式AI Studio、对话式AI模型评测平台。 对话式AI引擎2.0新增了预注册声纹识别、情绪识别,不仅让AI知道是谁在说话,更懂得开口时机,显著优化误打断体验。同时还支持国内外更丰富的ASR、TTS供应商选择,实现更多语种与音色的选择。 同时,针对热门的AI硬件场景,为了进一步降低落地门槛,声网在大会发布了新版的对话式AI开发套件——R1-4G,该套件基于紫光展锐8910高性能AI芯片,融合4G通信与CPU,让AI硬件随身携带,实现随时音视频交互。
新增了价格预估计算器,开发者可以根据实际的业务需求,预设人和AI的谈话比例,价格预估计算器会在此基础上给出总价与各模块的单价,让你更好地了解到钱都花在了哪里。
![]() ![]() 走向「超级助手」 在今年的RTE大会上发布的《对话式AI发展白皮书》,把技术、产品、生态与场景系统梳理了一遍,也讲清楚了行业的共识—— 下一代人机交互不再只是「看屏幕、敲键盘」,而是「会听、会看、会说」的实时多模态。
RTE正从「可选项」变成「基础设施」,音视频对话正在成为一切智能应用的标配。 在终端侧,耳机、手机、家居设备不断下放听见、理解、合成的硬件加速能力,让「开口—回应—执行」的链路真正可用、好用。 配套超级AI助理的硬件会不会有什么完全创新的形态? 会不会出现适应AI的新型计算终端,就像智能手机取代PC成为主流设备一样? 声网更加倾向全新交互形态下的硬件形态,可能不太会很快出现。 虽然AI硬件进行个人助理创新并不容易,但预期对话式AI和相关能力引入硬件形态,将会带来接下来两年的爆发式增长。 全新的使用习惯正在逐步开始养成,这些都是AI硬件爆发的积极因素。 可以看到AI眼镜引入对话式AI作为操控的主要交互模式以后,提供了很多新场景下的使用便利和使用价值。
实时交互的门槛被持续拉低,开发者可以把更多精力放在体验设计与业务闭环上。 历史每一次技术跃迁,都是基础设施与应用范式的共振时刻。 今天,RTE成为AI对话的底座,声网站在实时交互的心脏位置;当机器真正「会听、会看、会说」, 下一个万亿级市场,或许正在一声「你好」中悄然开启。 当AI模型厂商、实时互动厂商与应用开发者各司其职、同频共振,对话式AI的产业闭环已初现雏形。 历史证明,真正的巨浪,总由分工成熟的生态共同掀起—— 而这一次,浪潮的名字叫「对话式AI」。 |
加拿大 昨天 20:59
大温学校活动期间出事 水上乐园12人伤 有人重伤需直升机送院
温哥华 昨天 20:58
财经 昨天 20:57
美媒:美伊已经以电子方式签署谅解备忘录 特朗普、万斯与伊朗议长已签署
国际 昨天 20:49
科技 昨天 20:47

关注获得及时、准确、全方位的新闻消息
