博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
labeled LDA,Hierarchically Supervised LDA
阅读量:6852 次
发布时间:2019-06-26

本文共 1079 字,大约阅读时间需要 3 分钟。

  原创内容,转载注明出处

 

 最近看了labeled LDA 和Hierarchically LDA,看之前一头雾水,想要查些介绍,可是发现这两个模型在其他博文里都只是简单的介绍,没有找到较为详细的介绍。所以想写这篇博文,希望对初学者有所帮助。如果有理解不到位的也希望得到大家的指正。

  这篇文章是建立在读者已经对LDA有了很好的理解之上的,如果还没有看过基础版LDA请自行查阅和参考文献。

  那么如果理解了基础版LDA,这两个改进版就不是什么大问题了。

  labeled LDA发表于2009年ACL,对于文档-主题分布增加了一个监督项。比如,已经知道一个文档的标签是(0,1,1,0),那么它的主题分布和标签一一对应,所以如果标签是四维,那么主题也有四个,和四个标签对应。那么在Gibbs Sampling的时候就单词只在这篇文章对应的主题中采样,从而得到最后的主题分布。例如以(0,1,1,0)为标签的文档对应的主题分布可能是(0,0.1234,0.7829,0)。

  如上图,为了保证在标签主题中采样,α和之前的LDA不同:,其中L为一个矩阵:例如上例,四个标签中第二个第三个属于当前文档,那么L为那么显然此时

 

  有了这些其余的就和LDA完全相同了,可以开始采样了~

  

  得到当前的文档主题分布和主题词汇分布后,对于新的文档进行训练是没有标签限制的,和LDA完全相同。

  Hierarchically LDA发表于2011年的NIPS。也是通过标签集合来限定主题的采样。看了几天,终于看懂了这个模型是什么鬼。。。主要是针对有层次结构的数据来说的,子节点是父节点的一个分类。模型是两个过程,上面是传统LDA,得到文档d的主题分布z,然后根据主题分布和已知的一些标签y还有参数η来进行宽度优先搜索,确定辅助变量a,并据此判断一个label是否属于这个文档。(标签的膨胀)

   结构如图所示,β是全局的主题分布,θ是每篇文章的主题分布,φ是主题的词汇分布。η服从正态分布。y代表标签是否属于当前类别,+1是属于,-1是不属于。在树形层次结构中,只有父节点有一个标签时,子节点才能有这个标签,如果子节点有这个标签,那么父节点一定有这个标签。α‘是狄利克雷分布参数,β是狄利克雷分布,θ服从Dir(αβ),φ和LDA中的狄利克雷分布相同。a是一个辅助参数。根据已知的label和(是文章中某一主题的单词占所有主题的比例)来生成特定的条件标签的过程如下:

 

采样的公式为:

其他参数更新为:

 

 

  

 

 

 

  

 

转载于:https://www.cnblogs.com/pxbLC/p/6151464.html

你可能感兴趣的文章
python 函数,闭包
查看>>
组合数据类型练习,英文词频统计实例上
查看>>
CentOS开启FTP及配置用户
查看>>
[LeetCode] Remove Duplicates from Sorted Array II
查看>>
【深度学习笔记1】如何建立和确定模型正确性?如何优化模型?
查看>>
Collection集合家族
查看>>
RtlWerpReportException failed with status code :-1073741823
查看>>
5-2 类型转换 @SuppressWarnings("unchecked")
查看>>
实验 5 编写、调试具有多个段的程序
查看>>
Verilog代码可移植性设计(转自特权同学博客http://bbs.ednchina.com/BLOG_ARTICLE_1983188.HTM)...
查看>>
浅析Linux网络子系统(三)
查看>>
jquery.validate ajax验证
查看>>
【风马一族_物理】维度空间的粒子
查看>>
手把手教你如何把java代码,打包成jar文件以及转换为exe可执行文件
查看>>
Codeforces Round #363 Fix a Tree(树 拓扑排序)
查看>>
hihocoder1455 Rikka with Tree III(bitset 莫队 dfs序)
查看>>
SQL Server 2008中的MERGE(不仅仅是合并)
查看>>
啤酒与饮料算法
查看>>
xxx is not in the sudoers file.This incident will be reported.的解决方法
查看>>
Java实现冒泡排序、折半查找
查看>>