机器学习话题模型-白红宇的个人博客

机器学习话题模型

发布日期：2022-02-27 02:37:59 浏览次数：49 分类：技术文章

本文共 517 字，大约阅读时间需要 1 分钟。

NLP任务中，判断两个句子或文章是否相似，传统的方法是通过观察它们出现的相同单词的个数，出现相同单词的数量越多，说明它们之间的相似度越大，如：TF-IDF 技术，但这种方法存在较大的问题，如：

这两句话虽然没有出现相同的单词，但其表达的意思却是相同，传统方法无法进行正确的判断，话题模型 则是解决这一问题的方法之一。

其思想为：主题是一个概念或者方面，并通过一系列单词进行表现，我们可以通过观察组成句子的单词，结合其所代表的主题挖掘出句子所表达的语义，进而得出句子之间的相关性。

对于话题模型，其在西瓜书中的定义为：

话题模型 是一族生成式有向图模型，主要用于处理离散型的数据（如文本集合），在信息检索、自然语言处理等领域有广泛应用，隐狄利克雷分配模型（LDA）是话题模型的典型代表。

话题模型中涉及到的几个概念：

文档（document）：待处理的数据对象，它由一组无序的词组成，这种表示方式称为 ”词袋”（bag-of-words），数据对象只要能用词袋表示，就可使用话题模型

转载地址：https://blog.csdn.net/weixin_43399464/article/details/120296462 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：How to address the overfitting

下一篇：移动链表最大元素

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！