首页评论时政台湾香港华人国际财经娱乐文史图片社区视频专题 新加坡吉林南粤鲁东商城创新中原招商县域环保创投成渝移民书画IP电视 华商纸媒滚动
2014年04月30日15:54|来源:海外网|字号:
看得出,只有几页纸,包含一些导航以外的语音信息,如节日出行提醒等。这应当就是比默认语音数据量大的原因。
因此,他推测志玲的语音分为两部分:导航语音部分应该采用通用的、很完善波型合成技术,将元音、辅音及音调等采样,通过算法实现文语转换;这一部分要录入的内容很少,很可能是含有个人语音特征的一些基础发音。
而比较人性化的特殊提醒,时间总长在5分钟到20分钟左右,依照一般语速计,录制内容最多不会超过5000字,视频中录音稿只有几页纸,可以佐证这一点。
网友“傅里叶变黄油猫”进一步解释称,对于地名等有无数种变化的语音,使用TTS(Text to Speech,文本转语音)技术,应用很广泛,例如拨打10086使用自助语音应答,查询话费时,系统就会用TTS把余额报给你。Siri说话也是TTS。
汉语TTS实现比较简单,因为汉语拼音的读音非常有限,21个声母、37韵母、5个声调组合成不超过3000个读音,全部录一次,播语音时把每个字的读音串起来就可以了。
不过光是简单的字音组合会让TTS效果听起来很生硬,例如Google翻译的试听功能。为了让TTS效果更自然,需要用算法控制语速、处理多音字的问题,这是TTS技术含量最高的地方。目前汉语的TTS技术已经很成熟,听起来很自然,多音字准确率也相当高。
“黄恪”对比了不同的地图应用,称:“天气通跟高德不同。天气通的做法是录制语音片段,高德用的是合作方的技术,做法是数字化声音特征之后进行语音合成。所以高德的语音方案要比天气通语音包小而且灵活,但是制作成本也高得多。高德当时是找专人,跟了志玲姐姐几个月,贴身录音,然后把原始声音文件处理提取出数字特征。天气通的名人语音基本上是名人几分钟录出来的。墨迹天气跟高德,基本原理一样,但是没有高德那么土豪,所以没有名人语音。”
![]() |
(责编:牛宁)
高德 林志玲 录制