企服科学独家获悉,微软亚洲研究院前首席研究经理谭旭已于今年8月加盟月之暗面科技有限公司,担任关键研发角色,专注于开发下一代端到端语音模型。
据悉,月之暗面在多模态研究领域已布局多时,自2023年10月起便开始了全面研究。在视频生成大模型这一市场热点领域,该公司已组建了约十人的研发团队,致力于视频模型的开发。为确保产品的市场竞争力,月之暗面对外发布计划仍在谨慎推进中。
月之暗面创始人杨植麟此前曾表示,基础大模型和多模态技术是两条并行的科研路径,前者致力于提升模型的通用理解力,后者则着眼于扩展交互方式。在当前阶段,提升智能能力是公司发展的重中之重,但也不排除两者同步推进的可能性。
谭旭在微软亚洲研究院的任职期间,作为首席研究经理,他的研究方向涵盖了生成式人工智能、语音/音频/视频内容生成等多个领域,其论文引用量高达上万次。谭旭还曾担任NeurIPS等顶级学术会议的审稿人,其研究成果已广泛应用于Azure、Bing等微软的核心产品与服务中。
谭旭的加盟,预示着月之暗面将致力于研发类似GPT-4o的语音体验。今年5月,OpenAI推出了多模态大模型GPT-4o,其语音交互效果实现了显著提升,包括更低的延迟和随时打断的能力,这些都是端到端语音技术所带来的变革。
传统的语音对话方案通常采用“ASR+LLM+TTS”的模式,即先通过自动语音识别将语音转换为文本,再由大模型处理生成新文本,最后通过语音合成输出。这种模式下,机器响应时间较长,且无法实现随时打断,与自然对话存在差距。
端到端语音技术通过直接处理语音输入和输出,省略了中间的文本转换步骤,从而大幅缩短了响应时间,并允许用户随时打断,实现了更自然的交互体验。此外,这项技术还有助于解决大模型的幻觉问题,即当用户发现模型回答不相关时,可以立即打断并给出新的提示。
尽管OpenAI在发布GPT-4o时宣布将很快上线语音和视频功能,但实际推进过程中遭遇了多次推迟。直到9月25日,OpenAI才向ChatGPT Plus的付费用户推出了端到端技术支持的高级语音功能。此前,OpenAI还曾发布视频展示高级语音模式下ChatGPT模仿用户音色的能力,并提到安全问题是推迟大规模上线高级语音功能的原因之一。这表明端到端语音技术虽然是一个重要的研究方向,但目前仍处于实际应用的早期阶段。
企服科学将持续关注
该文观点仅代表作者本人,企服科学平台仅提供信息存储空间服务。