Meta AI大模型能识别4000多种语言,称错误率仅有OpenAI产品的一半 / 头条资讯

10月前 阅读 / 46 来源 / 原创 文 / 越读党订阅

宣布,自己已经建立了新的人工智能模型,可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示,这是朝着传承有失传风险的语言迈出的重要一步。 正在通过 GitHub 向公众发布其模型。它声称,开源这些模型...

宣布,自己已经建立了新的人工智能模型,可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示,这是朝着传承有失传风险的语言迈出的重要一步。

正在通过 GitHub 向公众发布其模型。它声称,开源这些模型将帮助使用不同语言的开发人员构建新的语音应用程序——比如可以明白每个人所说语言的消息传递服务,或者可以用于任何语言的虚拟现实系统。

世界上大约有 7000 种语言,但现有的语音识别模型却只覆盖了其中的大约 100 种语言。这是因为此类模型往往需要大量的已标注训练数据,而这些数据只适用于少数语言,例如英语、西班牙语和汉语。

的研究人员通过重新训练该公司在 2020 年开发的一种现有的人工智能模型,从而解决了这个问题,该模型能够从音频中学习语音模式,而不需要大量的标记数据,比如转录后的文字记录。


(来源:STEPHANIE ARNETT/MITTR | ENVATO)

他们对两组新数据集进行了训练:一套包含《圣经·新约》的录音,以及来自互联网上的 1107 种语言的圣经对应文本,另一组包含 3809 种语言的未标记的圣经录音。该团队首先处理了语音音频和文本数据,以提高其质量,然后运行一种算法,将音频记录与对应的文本对齐。然后,他们用新对齐的数据训练另一种算法。有了这种方法,研究人员能够训练算法更容易地学习一种新的语言,即使没有对应的文本。

“我们可以利用这个模型学到的东西,用非常非常少的数据快速构建语音系统,”担任该项目的研究科学家的迈克尔·奥利()说。”

“对于英语,我们有很多很多好的数据集,但对于一些语言而言,我们可能找不到 1000 个使用者,我们拿不到好用的的数据集。”

研究人员表示,他们的模型可以转换 1000 多种语言,但能识别 4000 多种语言。

他们将这些模型与包括 Whisper 在内的竞争对手的模型进行了比较,并声称它们的错误率只有竞品的一半,尽管 覆盖的模型是竞品的 11 倍。


然而,该团队警告说,该模型仍然存在误译某些单词或短语的风险,这可能导致不准确或潜在的冒犯性标注。他们还承认,他们的语音识别模型比其他模型产生了更多的偏见词汇,不过只高出了 0.7%。

研究非洲语言自然语言处理的克里斯·艾姆祖()表示,虽然这项研究的广度令人印象深刻,但使用宗教文本来训练人工智能模型可能存在争议。他没有参与这个项目。

支持:Ren

原文:

https://www.technologyreview.com/2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关阅读
#头条资讯

浙商银行顾清良受贿案细节曝光:下属用行李箱装现金行贿

2017年年底,浙商银行陆家嘴支行行长孟某请浙商银行上海分行行长顾清良吃完饭后,从汽车后备箱里拿出一个装有100万元现金的银白色拉杆箱交给顾清良,顾清良推托了一下就收下了。“我是在顾清良的帮助下,得到提拔的。年收入也...

#杂志目录

《江苏教育·教师发展》杂志2021年10期最新目录订阅

目录视点丨教育人,拒绝“躺平”最近,网络上爆出一个热词,叫“躺平”。对此,大致有两种理解:一种是消极的“躺平”,是“佛系一族”“小确幸”“宅”的不同表述,是自我满足,不思进取,甚至是得过且过;一种是积极的“躺平...

#头条资讯

确保隐私的代价:私有版ChatGPT费用将高出常规版10倍

快科技5月3日消息,随着ChatGPT的发展与普及,越来越多的用户开始担心人工智能是否能够保证自己的隐私不被泄露。而对于各大企业来说,有三星由于使用ChatGPT导致内部资料泄露一事作为先例,更是很难信任此类AI的安全性。对此...

#杂志目录

《浙江林业》杂志2023年01期最新目录订阅

目录丨加快推进高质量森林浙江建设谱写人与自然和谐共生的现代化林业新篇章一元复始山河美,万象更新锦绣春。在春节即将到来之际,我们在这里欢聚一堂,共迎佳节。首先,我代表局党组,向全省林业系统广大干部职工、全局干部职...

#头条资讯

中信证券和中信建投合并传言再起 看五大合并可能

(原标题:深夜回应!中信证券和中信建投合并传言再起,券业巨擘来了?北上资金"爆买"支持,看五大合并可能)券商中国A股站稳3000点,“牛市旗手”再度异动,头部券商合并传闻再起……7月2日,A股大涨,“牛市旗手”券商板块...

#杂志封面

《大数据时代》杂志_大数据时代2023年07期杂志封面

《大数据时代》杂志_大数据时代2023年07期杂志封面