语音识别装置与语音识别方法
2019-11-26

语音识别装置与语音识别方法

用性别特定的两种隐藏的马尔可夫模型来表示待识别的每一个单词,并且事先设定在性别特定的隐藏的马尔可夫模型之中的各输出概率函数以及各转移概率都被事先存储在ROM(6)之中。参照由特征值检测器(3)检出的各项特征参数,并参照隐藏的马尔可夫模型,语音识别器(4)确定一个特征参数序列的出现概率。在确定出现概率的过程中,语音识别器(4)向每一个单词给出性别特定的各隐藏的马尔可夫模型所共用的一种隐藏的马尔可夫模型的一个状态序列,将存储在ROM(6)之中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘,选出最大的乘积作为共用的隐藏的马尔可夫模型的每一种状态的概率,基于已选出的乘积来确定出现概率,并基于这样确定的出现概率来识别输入的语音。

为了确定针对每一个单词的共用的隐藏的马尔可夫模型的(男女共用的隐藏的马尔可夫模型)每一种状态的概率,通过使用给定的特征参数作为自变量,将事先设置在男性用马尔可夫模型中的输出概率函数和转移概率相乘,并使用给定的特征参数作为自变量,将事先设置在女性用马尔可夫模型中的输出概率函数和转移概率相乘,然后从已确定的两个概率(乘积)中选出较大的一个。

词汇量越大,对存储容量的需求将提高得更多。这将是一个高成本(生产成本)的缺点,例如,当把语音识别纳入到一部移动电话之中时,情况就是这样。因此,人们希望限制对存储容量的需求的增加,并降低生产成本,同时使用多种声学模型来提高语音识别率。

如图3所示,首先,从语音信号中检出(提取)各项特征参数。其次,参照已检出的各项特征参数,事先确定男性用各隐藏的马尔可夫模型(各单词)Ma1,Ma2,…,Man,事先确定女性用各隐藏的马尔可夫模型(各单词)Mb1,Mb2,…,Mbn,并使用方程式(7)和(8)来计算特征参数序列的出现概率。

根据本发明的语音识别方法的实现包括一种语音识别方法,其特征在于,在上述多种类型的隐藏的马尔可夫模型中,上述隐藏的马尔可夫模型的每一种状态的转移概率被共享,以便确定上述出现概率。

此外,本发明提供了一种语音识别方法,包括下列各步骤:在存储器中,事先存储各输出概率函数以及各转移概率,它们使用在各表示多个预定单词中的每一个的多种隐藏的马尔可夫模型中所事先设定的各项特征参数作为自变量,并且使用在部分地表示在所述各预定单词中允许有多种发音的每一个单词在发音上的差异的多种隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量;并且在语音识别过程中,检测输入语音的各项特征参数,参照已检出的各项特征参数,并参照上述各隐藏的马尔可夫模型,来确定上述各项特征参数的序列的出现概率,并根据这样确定的出现概率来识别输入的语音,其特征在于,在确定上述出现概率的过程中,所述方法在用于部分表达的上述多个隐藏的马尔可夫模型中共享其中一种隐藏的马尔可夫模型的一个状态序列,将在用于部分表达的上述多个隐藏的马尔可夫模型中所事先设定的各输出概率函数以及各转移概率中,每一个事先设定的输出概率函数值和转移概率对相乘,选择最大的乘积作为上述共用的隐藏的马尔可夫模型的每一种状态的概率,并且根据所选出的最大乘积来确定上述出现概率,然后根据这样确定的出现概率来识别输入的语音。

然而,根据本发明,也可以使用男性用模型和女性用模型所共有的状态转移概率。在该种情况下,为了确定男女共用的状态序列中的概率,首先要选出最大的输出概率,然后将已选出的输出概率与共用的转移概率相乘。

除此以外,在图2(B)中的pI表示在男女共用的状态序列中,状态I的概率,并且根据下面的方程式(6)进行更新。

除此以外,在图2(B)中的pI表示在男女共用的状态序列中,状态I的概率,并且根据下面的方程式(6)进行更新。

然而,根据本发明,也可以使用男性用模型和女性用模型所共有的状态转移概率。在该种情况下,为了确定男女共用的状态序列中的概率,首先要选出最大的输出概率,然后将已选出的输出概率与共用的转移概率相乘。

这样一来,本发明使用多种类型的隐藏的马尔可夫模型(声学模型),但在语音识别过程中,在不使用多种模板来识别各词汇项(单词)。因此,它能在不增加用于语音识别的工作存储器等的存储容量的前提下,提高语音识别率的精度。

用于将语音样本转换为特征参数序列的已知方法包括倒频谱分析以及线性预测分析。此外,使用各种隐藏的马尔可夫模型的各种方法通常被用来准备关于非特定用户所共用的固定单词的各项特征参数的信息(数据),并将该信息与由输入语音转换过来的特征参数序列进行比较。

然而,除了如上所述的在语音识别中待识别的每一个单词由两种类型的隐藏的马尔可夫模型,即男性用模型和女性用模型来表示的情况以外,根据需要,本发明还可以应用于下列3种情况。