ASR5:连续语音识别

今天说一下固定格式的连续语音识别,固定格式是指比如电话号码这样符合一定规则的语音,而不是任意的语音。

像电话号码这样的可以用有限状态机表示,如下图表示一个满足下列规则的字符串:第一个字符为2-9,其他为0-9的长度为7的字符串或者每个字符都为0-9的长度为4的字符串(即电话号码)。

其实这个结构和字典树很像,之前每个state只能向后面两个state延伸,现在可以像更多的延伸,比如第一个字符的最后一个state可以向第所有二个字符的第一个state延伸,构造新的模板再做Viterbi search就ok了。选择cost最小且最后落在最后一个字符上(满足长度为4或7)的路径就是对应的语音序列了。

还有一个问题是如何处理silence,因为人们在说话时很可能在两个单词之间停顿,可以把每个字符间插入silence的state,如下图:

lufo /
Published under (CC) BY-NC-SA tagged with speech_recognition