设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

Mozilla 开源语音数据集已拥有超两万小时内容,新增支持粤语、闽南语

2022/5/1 14:47:34 来源:IT之家 作者:汪淼 责编:汪淼

IT之家 5 月 1 日消息,本周早些时候,Mozilla 宣布其 Common Voice 数据集现在包含超过 20000 小时的内容,世界各地的任何人都可以使用这些内容来改进他们的语音识别软件,几乎是一年前的两倍。

IT之家了解到,最新的英语数据集有 71 GB,支持的语言也比以往任何时候都多,增加了蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语

根据 Mozilla 的说法,Common Voice 项目允许任何人为项目贡献自己的声音,从而让虚拟助手能够理解更多的口音。此外,Common Voice 项目是开源的,可确保大型科技公司无法独占,为小型开发商和公司提供了构建竞争产品和服务的机会。

Mozilla 在最新数据集版本中指出的亮点如下:

  • 6 种新语言:蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。

  • 27 种语言至少有 100 小时的语音数据,包括孟加拉语、泰语、巴斯克语和弗里斯兰语。

  • 9 种语言至少有 500 小时的语音数据,包括基尼亚卢旺达语(2383 小时)、加泰罗尼亚语(2045 小时)和斯瓦希里语(719 小时)。

  • 9 种语言有至少 45% 的性别标签为女性,包括马拉地语、迪维希语和卢干达语。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:mozilla语音开源

软媒旗下网站: IT之家 辣品 - 超值导购,优惠券 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 魔方 酷点桌面 Win7优化大师 Win10优化大师 软媒手机APP应用