小米自主研发语音技术帮助言语障碍患者获得“自己的声音”

By Published On: 2022-05-19 19:14Categories: Health & Medicine, Industry News, Technology

2022年5月19日,中国北京-小米,一家以物联网平台连接智能手机,和智能硬件为核心的消费电子和智能制造公司,发布了其在无障碍领域的先进算法和语音技术的最新应用。小米人工智能实验室开发的实时风格文本到语音转换技术,可以为患有语音障碍的用户生成独特的定制语音。

该用户现在可以使用“自己的声音”与其他人交流,而不是使用典型的单调的电子声音。作为小米技术委员会牵头的“自己的声音”预研项目的一部分,这一成功尝试表明了小米对“科技为善”的承诺,并实现了“通过创新技术让世界上的每个人都享受更好的生活”的使命。

小米为什么要启动这个项目?

小米关心通过技术创新努力满足人们的多样化需求。它发现了许多患有言语障碍的用户想要拥有自己独特的声音,并进行日常交流的愿望。所以成立了“拥有我的声音”项目团队,邀请患有言语障碍的用户作为声音接收者。小米公司技术委员会“科技为善”专题召集人朱表示:“我们很高兴探索技术创新给我们带来的多重价值,例如响应用户对自我认同和身份构建的需求。”

小米是如何实施这个项目的?

为了给接受者发出最合适、最个性化的声音,项目团队在小米内部招募了200多名志愿者来采集他们的声音。小米使用声纹匹配算法将志愿者捐赠的声音特征与接受者的声音特征进行匹配。通过这种方法,他们找到了最合适的声音作为接受者的基本语音参考。考虑到个性化和隐私保护,对选定的真实语音进行复杂的声学修改,以形成新的原始语音。

接下来,他们使用实时风格的文语转换技术训练人工智能模型,使这种新声音逐渐获得自然的节奏和语调,能够真实地表达人类的情感和音调。

“拥有我的声音”项目将多种最先进的算法与小米自主开发的语音技术相结合,确保合成语音的特异性、安全性和高度真实性,为患有语音障碍的用户定制语音合成创造了一个新思路。

项目的意义是什么?

该项目的骨干是小米人工智能实验室的一组语音技术专家。自2017年以来,他们在声学、语音和信号处理国际会议(ICASSP)等顶级国际会议上发表了37篇关于语音的论文。“拥有我的声音”的成功主要取决于他们开发的实时风格的文本到语音技术。

实时风格的文本到语音技术本质上使合成语音在语调、停顿、速度和其他特征上像真人一样。这用更自然的声音取代了电子声音的单调和不自然的感觉。目前,这项技术适用于许多配备小米AI语音助手小艾的智能设备。“拥有我的声音”项目表明,实时风格的文本到语音技术也可以广泛应用于无障碍领域,并改善用户体验。

接下来,小米将继续收到声音接收者的反馈,并在更大范围内进一步研究该项目的可行性。小米将通过尖端技术不断增强无障碍性,通过技术创新,努力满足人们的多样化需求。

相关新闻