自然语言处理序列模型——HMM隐马尔可夫模型-600学习网
600学习网终身会员188,所有资源无秘无压缩-购买会员
在前一篇文章中,我们主要讨论了文本语料库的提取和预处理过程。接下来,我们将进入核心步骤,即掌握处理模型。处理模型将花费很长时间。对于不同的模型,它们的优缺点是不同的。因此,有必要全面掌握这一部分。
在深度学习技术应用于自然语言处理领域之前,自然语言处理中最常见的模型是基于概率统计的。最重要的模型是HMM(隐马尔可夫模型)。现在,让本文为读者揭开HMM的面纱。应该提前解释,掌握这个模型需要一些概率论的基础知识。这篇文章不会重复太多这方面的内容,因为概率论基本上包含在大量的本科生中。
1.概率模型
在掌握HMM模型之前,您需要先掌握概率模型。概率模型,顾名思义,是一种将学习任务归结为计算变量的概率分布的模型。在自然语言处理领域,不同单词之间的关联和差异以概率分布的形式表示。概率模型是基于生活中观察到的一些现象来推测和估计未知交易的模型,也称为概率模型中的推理。推理的本质是利用现有的或可观察的变量来推断未知变量的条件分布。
1.1.生成模型和判别模型
目前,概率模型可分为两类,即生成模型和判别模型。从上面可以看出,概率模型通过可观察变量推断未知变量的分布。因此,为了更好地理解生成模型和判别模型之间的差异,可观察变量可以命名为X,待推断的未知变量可以命名Y。然后,对于生成模型,它需要学习的是X和Y之间的联合概率分布P(X,Y),而判别模型需要学习的是条件概率分布P(YX)。联合概率分布和条件概率分布已经是概率论的基本理论知识,因此我们不再重复它们。我们希望那些不理解它们的读者可以自己咨询它们。
对于这两个概率分布不同的模型,它们的能力不同。例如,对于给定的观测值X,条件概率分布P(YX)可用于容易地获得未知Y的值(P(Y)=P(X)*P(YX))。因此,对于分类问题,我们可以直接使用判别模型,即对于给定的X,即Y的最大概率,我们可以判断它是哪个类别。因此,判别模型更适合于分类任务,并且在分类任务中具有显著优势。对于生成模型,很难直接将模型用于分类任务,除非将联合概率分布转换为条件概率分布,即将生成模型转换为分类任务的判别模型。然而,生成模型并不主要用于处理分类问题。它有一个特殊的目的。后来,HMM是一个世代模型。在这里,我会卖一点。
1.2.概率图模型
在掌握了生成和识别模型的主要过程和任务之后,还需要对概率图模型有一个基本的掌握。它是一种概率模型,使用图形结构作为表示工具来表示变量之间的关系。这里的图的结构与数据结构中的图相似,即它由节点和连接节点的边组成。在概率图模型中,节点通常用于表示随机变量,节点之间的边表示不同变量之间的概率关系。同时,通过类比数据结构,边缘也被分为有向和无向,从而分为有向图模型(贝叶斯网络)和无向图模型(马尔可夫网络)。虽然HMM的名字中有”马尔可夫”,但HMM模型是一种贝叶斯网络。不要在这里混淆。
HMM是最常见的动态贝叶斯网络,即贝叶斯网建模变量序列,属于有向图模型。为了更好地理解随后的HMM模型,这里引入了马尔可夫链。马尔可夫链是一个随机的过程
利用上述状态空间S.观测空间O和三组参数=[A,B,],可以确定HMM模型。
2.4 HMM问题解决
在确定HMM模型之后,我们需要使用该模型来解决一系列问题,包括概率计算.预测和学习。
·概率计算问题,即评估问题,为给定模型设置参数,然后设置观测序列,以计算其与模型之间的匹配度。
·预测问题,即解码问题。为给定模型设置参数后,给定观测序列,找到最可能的(最大概率值)及其相应的加载序列。
·学习问题,即训练问题,是在给定观测序列和状态序列的情况下估计模型的参数,从而使观测序列在模型参数下的概率最大化。也就是说,训练模型以更好地用模型表示观测数据。
在上述三个问题中,前两个问题是关于如何使用已知模型参数(模型已确定)的模型,第三个问题是如何通过训练获得模型参数(确定模型)。
3.模型学习算法
HMM模型的学习算法根据训练数据的不同可分为有监督学习和无监督学习。这两种学习方法也是未来深度学习技术模型中应用最广泛的方法。也就是说,对于模型,如果训练数据包括观测值(观测序列)和状态值(状态序列),并且它们之间的对应关系已经被标记(即,在训练之前已经确定了对应关系),则使用的学习算法是监督学习。否则,无监督学习算法只用于训练观测序列,而不用于训练清晰的对应状态序列。
3.1.监督学习
在模型训练过程中,训练数据由观测序列和对应状态序列的样本对组成,即训练数据不仅包括观测序列,还包括训练前已知的每个观测值的对应状态值。这样,概率可以通过频率来估计。首先,通过对训练数据中的状态值和观察值进行计数来获得状态空间(,…),并且观察变量为(,……)。然后,当样本在时间t处于状态,且时间t+1的状态频率为时,估计的状态转移概率可由频率表示:
当样本状态为且观测频率为时,频率可用于将观测概率表示为:
初始状态概率是训练数据中具有初始状态的所有样本的频率。因此,监督学习可以通过统计估计训练数据=[A,B,]来获得模型的相应参数。
3.2.无监督学习
无监督学习意味着训练数据只有观测值(观测序列),没有相应的状态序列。因此,状态序列S实际上处于隐藏状态,不可能通过频率直接估计概率。对于这种算法,有一种特殊的Baum-Welch算法,类似于前向-后向算法来学习。该算法与聚类算法中使用的EM算法相似,即利用迭代思想解决了数据丢失情况下的参数估计问题。其基本过程是根据给定的观测数据估计模型参数的值;然后根据前一步骤中估计的参数值估计缺失数据的值,然后根据估计的缺失数据加上先前观察到的数据再次估计参数值,然后重复迭代直到最终收敛,迭代结束。
4.总结
在将深度学习模型用于自然语言处理之前,使用概率统计模型来处理自然语言领域中的序列数据。有两种特定的概率统计模型,HMM和CRF。最重要的是HMM模型,CRF是一个类似于HMM的模型。
本文主要阐述了HMM模型,这有助于读者更全面地掌握HMM模型。由于长度,C
600学习网 » 自然语言处理序列模型——HMM隐马尔可夫模型-600学习网