维基百科计划增加文本转语音功能

下一篇文章

瞄准在线教育市场,亚马逊拟推出可分享学习材料的免费平台

一个开源项目希望能借助众包的力量,来让维基百科的可访问性变得更好。该项目计划通过增加文本转语音功能,让维基百科用户可以听维基百科上的文本内容。

这一语音合成平台由瑞典斯德哥尔摩 KTH 皇家理工学院开发。考虑到 KTH 皇家理工学院在文本转语音技术上的专长,维基百科主动联系了该学院来开发这一功能。

KTH 皇家理工学院将为维基百科提供经过专门优化的语音合成平台,而维基百科则将托管语音合成服务器。同时,该语音合成平台还会开源,任何使用 MediaWiki 软件的网站都可以“马上使用”它。

KTH 皇家理工学院语音组负责人若阿基姆·古斯塔夫森 (Joakim Gustafson) 教授对我们表示:“我们将开发一个开放框架,任何开源语音合成器都可以接入。这个框架由开源模块组成,因此可以在文本转语音系统中添加或移除一些模块。”

他还补充道:“这个文本转语音系统将会开源,任何人都可以在网页上应用这一功能。”

KTH 皇家理工学院语音组已经开展先期调研。发起这一项目的瑞典 Wikimedia 组织预计,有四分之一的维基百科用户(近 1.25 亿)“需要或喜欢”听文字,不管是因为不识字还是视力障碍。

众包元素将让维基百科用户可以报告听起来非常糟糕的句子,或亲自纠正这些句子,虽然要做到后者,用户必须具备一些语言学知识,因为要通过音标来纠正词典。

若阿基姆·古斯塔夫森表示,他们还想要探索让用户给单词录音的可能性,从而自动纠正文本转语音功能的发音。但这是未来要考虑的事情,目前这一文本转语音平台还不会这么做。

他说道:“在第一阶段,这一平台将用国际音标来纠正词典,但我们会在未来探索用户通过单词录音来自动纠正发音的可能性。我们可能会在下一个项目做这件事,扩展目前的系统来让用户合成自己的声音。我们会让用户读 30 分钟的文本,然后通过 10 小时的语音训练,让合成的声音听起来像用户的声音。”

若阿基姆·古斯塔夫森称,参与众包的用户将从维基百科用户和为阅读障碍儿童开设了专门项目的学校中挑选。

该平台获得了瑞典邮电局约合 33.5 万美元的资助。因此,这一文本转语音平台会先开发瑞典语版,随后再增加“基本的英语语音”,最终还计划开发阿拉伯语” 概念验证” 版。

若阿基姆·古斯塔夫森说道:“我们想要证明,它也可以用在使用其他字符集的语言上,而且还是需要从右往左读的语言。网上有很多开源的英语资源供我们接入,比如词典、语法等。但对于阿拉伯语而言,我们必须开发这些资源。这个项目中没有资金用来开发这些资源,只能集成现有资源。在验证我们的概念时,我们会使用一些小资源。”

该项目只是在本月初才开始,目标是“到 2017 年 9 月”时开发出英语、瑞典语和阿拉伯语语音引擎。

在此之后,他们还可以将这一众包模式应用到维基百科支持的其他 280 种语言上。

这一平台会针对维基百科做出什么优化呢?若阿基姆·古斯塔夫森说道:“瑞典 Wikicommons 将开发一个客户端-服务器架构,用户按下按钮即可听取文本的声音,同时正在朗读的单词会高亮。”

Crowdsourced project aims to add text-to-speech to Wikipedia