近日,2025AI+研发数字(AiDD)峰会在上海举办,峰会以“拥抱AI 重塑研发”为主题。邀请了来自百度、阿里、腾讯、华为、作业帮等头部互联网企业,以及各大高校的一线从业者和技术专家带来最前沿的主题内容分享。作业帮资深算法专家周舒然受邀发表主题演讲,分享作业帮在多模态交互技术上的前沿探索与教育场景落地实践,现场学习氛围热烈,与会者好评如潮。
500)this.width=500 align=center hspace=10 vspace=10 rel=nofollow/>
500)this.width=500 align=center hspace=10 vspace=10 rel=nofollow/
周舒然在演讲中指出,传统语音交互存在响应慢、理解偏差、体验割裂等问题,而大模型技术的发展为重塑语音交互体验提供了新的可能。从2023年开始,作业帮通过将语音识别、自然语言处理与语音生成深度融合,推出“理解-推理-生成”的多模态融合一体化解决方案,显著提升了交互效率与智能化水平。例如,作业帮研发的Instruct and Context-Awared TTS,可以结合上下文来产生更加真实、充满感情的语音合成系统,以及 LLM -Based ASR and Audio Chat,可以直接做到语音到文本的回复,能够理解用户语音情感和声音的系统。虽然这些系统尚未实现完全端到端,但已有效解决了传统语音交互的多个痛点。
2024年,作业帮进一步突破技术瓶颈,推出完全的端到端语音和流式全双工语音交互系统。通过创新的数据链路,Tokenizer设计,多模块融合以及推理优化,在保持稳定的聊天能力同时,将首次响应时间(TTFT)和首次语音生成时间(TTFS)大幅缩短。周舒然强调,语音交互作为最自然的人机接口,未来将成为Kernel级应用。作业帮将持续投入Voice-Agent技术研发,推动其与教育内容的深度融合,为师生创造更智能、高效的学习体验。
500)this.width=500 align=center hspace=10 vspace=10 rel=nofollow/>
500)this.width=500 align=center hspace=10 vspace=10 rel=nofollow/
目前,作业帮的多模态交互技术已在多个产品中实现规模化应用。以教育行业Top1的快对AI为例,这款DAU超1200万的App已完成全面AI化改造,其中全新推出的AI口语老师方案通过多模态能力实现动态对话教学、智能纠错和联想互动,有效帮助学生突破“哑巴英语”困境,在沉浸式体验中提升语言能力。
周舒然表示,我们一直坚信语音是人类与技术交互最自然、最高效的接口,也是人与设备之间最直观的沟通方式, 未来是可以作为Kernel级别的应用来存在。未来通过Voice-Agent的能力,语音交互将继续成为无所不在的能力。在教育领域,Voice-Agent和丰富的学习内容互动,已经逐渐有明确的落地和PMF场景,我们也会持续投入,致力于提供更好的学习体验。