word2vec
发布日期:2021-08-12 20:08:57 浏览次数:7 分类:技术文章

本文共 324 字,大约阅读时间需要 1 分钟。

python的几个扩展工具:
1. numpy
2. scipy
3. gensim


 

如何对新闻的关键词进行聚类?比如说,给你一个关键词“苍井空”,你怎么把“女优”,“写真集”等关联性极高的关键词找到?

想法1: 用新闻ID向量表示某个关键词,如:苍井空 (新闻ID1,新闻ID2,…)

可行性: 新闻数较小时,可以用kmeans等方法进行聚类; 但新闻数高达10万时,每个关键词则需要10万维的向量表示,计算难度太大。

解决方法:google的一个开源工具“word2vec”,可通过输入一个词的集合,计算出词与词之间的距离,通过距离进行聚类。

转载于:https://www.cnblogs.com/twomeng/p/9509391.html

转载地址:https://blog.csdn.net/weixin_30664051/article/details/98261231 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:uva----(10794) A Different Task
下一篇:JAVA常用系统类

发表评论

最新留言

感谢大佬
[***.8.128.20]2024年03月26日 14时25分37秒