机器学习 话题模型
发布日期:2022-02-27 02:37:59 浏览次数:49 分类:技术文章

本文共 517 字,大约阅读时间需要 1 分钟。

NLP任务中,判断两个句子或文章是否相似,传统的方法是通过观察它们出现的相同单词的个数,出现相同单词的数量越多,说明它们之间的相似度越大,如:TF-IDF 技术,但这种方法存在较大的问题,如:

  • 话筒可以放大主播说话的声音
  • 麦克风能够提高主持人的音量

这两句话虽然没有出现相同的单词,但其表达的意思却是相同,传统方法无法进行正确的判断,话题模型 则是解决这一问题的方法之一。

其思想为:主题是一个概念或者方面,并通过一系列单词进行表现,我们可以通过观察组成句子的单词,结合其所代表的主题挖掘出句子所表达的语义,进而得出句子之间的相关性。

对于话题模型,其在西瓜书中的定义为:

话题模型 是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用,隐狄利克雷分配模型(LDA)是话题模型的典型代表。

话题模型中涉及到的几个概念:

  • 词(word):待处理数据的基本离散单元
  • 文档(document):待处理的数据对象,它由一组无序的词组成,这种表示方式称为 ”词袋”(bag-of-words),数据对象只要能用词袋表示,就可使用话题模型
  • 话题(topic):表示一个概念,具体为一系列相关的词

转载地址:https://blog.csdn.net/weixin_43399464/article/details/120296462 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:How to address the overfitting
下一篇:移动链表最大元素

发表评论

最新留言

关注你微信了!
[***.104.42.241]2024年04月05日 05时44分12秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章