机器学习 话题模型
发布日期:2022-02-27 02:37:59
浏览次数:49
分类:技术文章
本文共 517 字,大约阅读时间需要 1 分钟。
NLP任务中,判断两个句子或文章是否相似,传统的方法是通过观察它们出现的相同单词的个数,出现相同单词的数量越多,说明它们之间的相似度越大,如:TF-IDF 技术,但这种方法存在较大的问题,如:
- 话筒可以放大主播说话的声音
- 麦克风能够提高主持人的音量
这两句话虽然没有出现相同的单词,但其表达的意思却是相同,传统方法无法进行正确的判断,话题模型 则是解决这一问题的方法之一。
其思想为:主题是一个概念或者方面,并通过一系列单词进行表现,我们可以通过观察组成句子的单词,结合其所代表的主题挖掘出句子所表达的语义,进而得出句子之间的相关性。
对于话题模型,其在西瓜书中的定义为:
话题模型 是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用,隐狄利克雷分配模型(LDA)是话题模型的典型代表。
话题模型中涉及到的几个概念:
- 词(word):待处理数据的基本离散单元
- 文档(document):待处理的数据对象,它由一组无序的词组成,这种表示方式称为 ”词袋”(bag-of-words),数据对象只要能用词袋表示,就可使用话题模型
- 话题(topic):表示一个概念,具体为一系列相关的词
转载地址:https://blog.csdn.net/weixin_43399464/article/details/120296462 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
关注你微信了!
[***.104.42.241]2024年04月05日 05时44分12秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
PHP对于浮点型的数据需要用不同的方法去解决
2019-04-27
Tokyo Cabinet 安装
2019-04-27
Flink在美团的应用与实践听课笔记
2019-04-27
Java多线程的11种创建方式以及纠正网上流传很久的一个谬误
2019-04-27
JDK源码研究Jstack,JMap,threaddump,dumpheap的原理
2019-04-27
Java使用字节码和汇编语言同步分析volatile,synchronized的底层实现
2019-04-27
javac编译原理和javac命令行的使用
2019-04-27
Unity使用UnityWebRequest实现本地日志上传到web服务器
2019-04-27
Unity使用RenderTexture实现裁切3D模型
2019-04-27
美术和程序吵架,原来是资源序列化格式设置不统一
2019-04-27
Unity iOS接SDK,定制UnityAppController
2019-04-27
Unity iOS接SDK前先要了解的知识(Objective-C)
2019-04-27
记一次iOS闪退问题的定位:NSLog闪退
2019-04-27
Unity打开照相机与打开本地相册然后在Unity中显示照片(Android与iOS)
2019-04-27
无需接入SDK即可在Unity中获取经纬度(Android/iOS),告诉我你的坐标
2019-04-27
Unity获取系统信息SystemInfo(CPU、显卡、操作系统等信息)
2019-04-27
Unity中获取物体的尺寸(size)的三种方法
2019-04-27
Unity中的关节组件和绳子效果的实现
2019-04-27
Unity可视化编程插件: Bolt,可以像UE4的蓝图那样啦
2019-04-27