现在的位置: 首页 > 综合 > 正文

vsm,topic model,LDA比较

2014年10月03日 ⁄ 综合 ⁄ 共 437字 ⁄ 字号 评论关闭

LDA还是比较适合处理短文本的。LDA相比其它使用VSM的模型 有效的降低的数据的稀疏性 将原来的特征空间映射到了一个新的topic的特征空间。

LDA的一个主要作用就是降维。降维之后 数据稀疏性明显降低了。

LDA是一种文本建模方法。告诉我们以怎样一种观点看待文本的生成过程。topic出来后,可以把它当做特征处理,相当于产生了一个新的特征空间。这时候,可以选择使用这些topic作为你分类或其它任务的特征或扩展特征。

 多项式分布是说 随机试验有K个可能的结果,每个结果对应一个概率值。之所以引入先验,是因为贝叶斯学派认为 这些概率值也是随机的,服从一定的概率分布。 
 之所以引入共轭,一来是后验分布比较容易计算,二来是可以形成一个先验链,就是现在的后验分布可以作为下一次计算的先验分布。
如果,似然是多项式分布,先验不是Dirichlet,那么,像Gibbs Sampling这种方法估计是很难计算的 

共轭指的是 似然和先验。如果后验和先验具有相同的函数形式,就说先验是似然的共轭先验

抱歉!评论已关闭.