
初次理解GloVe及其与word2vec区别
发布日期:2021-05-07 14:32:25
浏览次数:28
分类:原创文章
本文共 666 字,大约阅读时间需要 2 分钟。
GloVe: Global Vectors for Word Representation
进行词的向量化表示,使得向量之间尽可能多的蕴含语义和语法的信息。
GloVe是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。
-
Glove与LSA、word2vec的比较
LSA(Latent Semantic Analysis)是一种比较早的count-based的词向量表征工具,它也是基于co-occurance matrix的,只不过采用了基于奇异值分解(SVD)的矩阵分解技术对大矩阵进行降维,而我们知道SVD的复杂度是很高的,所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。而word2vec最大的缺点则是没有充分利用所有的语料,所以GloVe其实是把两者的优点结合了起来。从这篇论文给出的实验结果来看,GloVe的性能是远超LSA和word2vec的,但网上也有人说GloVe和word2vec实际表现其实差不多。
-
详细探索
- ,此文理论功底较好,阅读友好
- ,不管是谁的解读,本质都是源自这里
- ,对论文的解读
-
References
发表评论
最新留言
初次前来,多多关照!
[***.217.46.12]2025年04月08日 19时24分54秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
用Matplotlib和Gym优雅地呈现股票交易智体
2019-03-04
Github上量化交易相关项目汇总
2019-03-04
JS取出两个数组中的不同或相同元素
2019-03-04
Ubuntu 18.04 zip压缩文件及其文件 夹中的所以 内容
2019-03-04
int 转 CString
2019-03-04
Edit编辑框自动换行与长度
2019-03-04
英语02_单词词性
2019-03-04
C语言12_预处理 #
2019-03-04
低通滤波器的设计
2019-03-04
窄带随机过程的产生
2019-03-04
随机四则运算
2019-03-04
Java重载overload
2019-03-04
Java面向对象
2019-03-04
JAVA带标签的break和continue
2019-03-04
Java获取线程基本信息的方法
2019-03-04
JavaWeb用户信息管理系统-创建登录业的务持久层
2019-03-04
SpringIoC和DI注解开发
2019-03-04
Java类和对象
2019-03-04
Java集合Collection
2019-03-04