Meta 发布 AI 模型SeamlessM4T，可转录和翻译近100种语言

发布时间：2023-08-24 09:56:07来源：钛媒体

　　科技巨头 Facebook 母公司 Meta 对外发布了一款最新人工智能(AI)翻译引擎 SeamlessM4T，可以更轻松地跨文本语音翻译和转录近 100 种语言。

　　同时，Meta 还公布了新的开源翻译数据集 SeamlessAlign，将 44.3 万小时的语音与文本、2.9 万小时的语音转录数据进行对齐，教会 SeamlessM4T 如何将语音转录为文本、翻译文本、从文本生成语音。

　　Meta 表示，SeamlessM4T 将与 SeamlessAlign 一同开源。SeamlessM4T 代表了 AI 技术驱动的“语音到语音”和“语音到文本”领域的“重大突破”。

图片来自网络/侵删

　　据悉，作为最早投资 AI 的大型科技企业之一，Meta 于 2013 年成立了 AI 基础研究实验室，聘请了 AI 领域的顶级学者，有大量社交与元宇宙算法，推出 Pytorch 框架、Zion 等软硬件产品。不过，虽然 Meta 在 AI 领域也取得了一些进展，但它落后于 OpenAI、微软、谷歌等公司。

　　随着 ChatGPT 风靡全球，Meta AI 团队正在加紧追赶，以及重新组合其关于语言、对话等领域与大模型相关的研究。

　　去年底之后，Meta 陆续发布 No Language Left Behind(不留语言)文本到文本的机器翻译模型，支持 200 种语言，以及开发多语言数据集 SpeechMatrix、生成文本到声音的 AudioCraft 等。另外在今年 7 月，Meta 还发布开源对话大模型 Llama 2，引发广泛讨论和关注。

　　此次公布的 SeamlessM4T，建立在 Meta AI 翻译模型的技术能力基础上，并重新设计 Fairseq 序列建模工具包，以创建更轻量级的模型和处理更多信息。Meta 表示，SeamlessM4T 从“爬取的网页数据的公开可用存储库中”收集了 400 万小时的“原始音频”，该模型可以在近 100 种语言之间进行文本到语音的翻译，并支持 35 种语言的完全语音到语音翻译。

　　对于安全性和脱敏性，Meta 表示，在开发 SeamlessM4T 时，团队构建了一个可以识别敏感词系统，目标是能够过滤了训练数据中不平衡的数据信息，从而检测和输出正确的翻译内容。而且，Meta 研究人员还尝试清理误译一些脏话的数据集，以便更准确地检测何时使用。

　　Meta 研究科学家负责人 Paco Guzman 表示，SeamlessM4T 的一大突破是它不依赖中间模型来产生结果，这使得它更加灵活，甚至支持动态更改语言。这将促进更多人使用其进行日程对话。

　　不过，Meta 建议不要使用 SeamlessM4T 进行长篇翻译，政府专用的认证翻译，以及不鼓励出于医疗或法律目的部署该模型，原因或与专业领域的翻译准确度有关。科技网站《对话》(theconversation)最近表示，AI 翻译有许多缺陷，包括不同形式的性别错误和偏见、语音识别算法偏差等。

　　据报道称，Meta 后续将把这些翻译和转录方面的 AI 进展，整合到 Facebook、Instagram、WhatsApp、Messenger 和 Threads 等产品当中。
　　（邯郸小程序）

马斯克将推特改名为 X ...

最后一页

热点推荐