企服科学独家报道：前微软首席研究经理谭旭加盟月之暗面，携手打造新一代端到端语音模型

企服科学独家获悉，微软亚洲研究院前首席研究经理谭旭已于今年8月加盟月之暗面科技有限公司，担任关键研发角色，专注于开发下一代端到端语音模型。

据悉，月之暗面在多模态研究领域已布局多时，自2023年10月起便开始了全面研究。在视频生成大模型这一市场热点领域，该公司已组建了约十人的研发团队，致力于视频模型的开发。为确保产品的市场竞争力，月之暗面对外发布计划仍在谨慎推进中。

月之暗面创始人杨植麟此前曾表示，基础大模型和多模态技术是两条并行的科研路径，前者致力于提升模型的通用理解力，后者则着眼于扩展交互方式。在当前阶段，提升智能能力是公司发展的重中之重，但也不排除两者同步推进的可能性。

谭旭在微软亚洲研究院的任职期间，作为首席研究经理，他的研究方向涵盖了生成式人工智能、语音/音频/视频内容生成等多个领域，其论文引用量高达上万次。谭旭还曾担任NeurIPS等顶级学术会议的审稿人，其研究成果已广泛应用于Azure、Bing等微软的核心产品与服务中。

谭旭的加盟，预示着月之暗面将致力于研发类似GPT-4o的语音体验。今年5月，OpenAI推出了多模态大模型GPT-4o，其语音交互效果实现了显著提升，包括更低的延迟和随时打断的能力，这些都是端到端语音技术所带来的变革。

传统的语音对话方案通常采用“ASR+LLM+TTS”的模式，即先通过自动语音识别将语音转换为文本，再由大模型处理生成新文本，最后通过语音合成输出。这种模式下，机器响应时间较长，且无法实现随时打断，与自然对话存在差距。

端到端语音技术通过直接处理语音输入和输出，省略了中间的文本转换步骤，从而大幅缩短了响应时间，并允许用户随时打断，实现了更自然的交互体验。此外，这项技术还有助于解决大模型的幻觉问题，即当用户发现模型回答不相关时，可以立即打断并给出新的提示。

尽管OpenAI在发布GPT-4o时宣布将很快上线语音和视频功能，但实际推进过程中遭遇了多次推迟。直到9月25日，OpenAI才向ChatGPT Plus的付费用户推出了端到端技术支持的高级语音功能。此前，OpenAI还曾发布视频展示高级语音模式下ChatGPT模仿用户音色的能力，并提到安全问题是推迟大规模上线高级语音功能的原因之一。这表明端到端语音技术虽然是一个重要的研究方向，但目前仍处于实际应用的早期阶段。

企服科学将持续关注

该文观点仅代表作者本人，企服科学平台仅提供信息存储空间服务。

企服科学独家报道：前微软首席研究经理谭旭加盟月之暗面，携手打造新一代端到端语音模型

相关推荐

月之暗面科技创始人杨植麟与前投资人仲裁纠纷

发表回复

分享到: