首頁評論時政台灣香港華人國際財經娛樂文史圖片社區視頻專題 新加坡吉林南粵魯東商城創新中原招商縣域環保創投成渝移民書畫IP電視 華商紙媒滾動
2014年04月30日15:54|來源:海外網|字號:
看得出,隻有幾頁紙,包含一些導航以外的語音信息,如節日出行提醒等。這應當就是比默認語音數據量大的原因。
因此,他推測志玲的語音分為兩部分:導航語音部分應該採用通用的、很完善波型合成技術,將元音、輔音及音調等採樣,通過算法實現文語轉換﹔這一部分要錄入的內容很少,很可能是含有個人語音特征的一些基礎發音。
而比較人性化的特殊提醒,時間總長在5分鐘到20分鐘左右,依照一般語速計,錄制內容最多不會超過5000字,視頻中錄音稿隻有幾頁紙,可以佐証這一點。
網友“傅裡葉變黃油貓”進一步解釋稱,對於地名等有無數種變化的語音,使用TTS(Text to Speech,文本轉語音)技術,應用很廣泛,例如撥打10086使用自助語音應答,查詢話費時,系統就會用TTS把余額報給你。Siri說話也是TTS。
漢語TTS實現比較簡單,因為漢語拼音的讀音非常有限,21個聲母、37韻母、5個聲調組合成不超過3000個讀音,全部錄一次,播語音時把每個字的讀音串起來就可以了。
不過光是簡單的字音組合會讓TTS效果聽起來很生硬,例如Google翻譯的試聽功能。為了讓TTS效果更自然,需要用算法控制語速、處理多音字的問題,這是TTS技術含量最高的地方。目前漢語的TTS技術已經很成熟,聽起來很自然,多音字准確率也相當高。
“黃恪”對比了不同的地圖應用,稱:“天氣通跟高德不同。天氣通的做法是錄制語音片段,高德用的是合作方的技術,做法是數字化聲音特征之后進行語音合成。所以高德的語音方案要比天氣通語音包小而且靈活,但是制作成本也高得多。高德當時是找專人,跟了志玲姐姐幾個月,貼身錄音,然后把原始聲音文件處理提取出數字特征。天氣通的名人語音基本上是名人幾分鐘錄出來的。墨跡天氣跟高德,基本原理一樣,但是沒有高德那麼土豪,所以沒有名人語音。”
![]() |
(責編:牛寧)
高德 林志玲 錄制