Massive Data Mining学习记录
发布日期:2025-04-12 02:36:23 浏览次数:11 分类:精选文章

本文共 2172 字,大约阅读时间需要 7 分钟。

第一周:PageRank的学习

学习PageRank这一周,我深入了解了其工作原理。PageRank是一种用于衡量网页重要性的算法,每个节点的权值由其他节点的投票决定,所有节点的权值和为1。

当节点数量很多时,计算节点权值时通常需要转换成矩阵运算来处理。通过马尔可夫链的理论,我们可以迭代地得到最终的权值分配。然而,这种方法可能会出现无出度节点的问题,导致总体权值分配出现失衡。

为了解决这一问题,引入了一个权值矩阵的修正方法:M' = 0.8M + 0.21/n。这种方法通过为每个节点设置一个较低的跳出概率(0.2),确保即使存在无出度节点,也能避免权值分配失衡。

第二周:MinHashing与LSH

本周深入学习了MinHashing和LSH(局部敏感哈希)技术。MinHashing通过对数据列进行随机排列,并找到第一列不为1的下标,用于快速判断数据是否存在重复。这种方法在实际应用中表现优异,但在处理大量数据时,可能会消耗较多的时间和资源。

为了提高效率,常常会采用普通Hash函数来替代MinHashing。普通Hash函数能够对每行和每列生成特定的哈希值,从而在移动行过程中快速确定某列的某哈希值。

LSH技术则通过将一列特征值(signature)分成多个band,并对每个band内的行进行Hash处理,从而将相似特征的列更容易地分配到同一个bucket中。这种方法在数据聚类和相似性搜索中应用广泛。

此外,LSH还涉及到对相似对的划分。通过设置一个阈值t,可以控制每个bucket中相似对的数量。

在实际应用中,Frequent Set的发现是另一个重要问题。通过多种方法,如随机采样(Simple)、顺序采样(SON)、Toivonen算法等,可以有效地发现Frequent Set。
其中,Toivonen算法通过检测负边界(negative border)来确保发现的频繁集合是准确的。负边界的定义是:该子集中的所有直接子集都属于频繁集合。

第三周:SVD与Stream数据处理

本周,我重点学习了SVD(奇异值分解)和Stream数据处理技术。

SVD是一种将高维数据转换为低维的方法,通过分解矩阵为三个部分:U、σ和V^T,从而提取出重要的概念。这种方法在降维和数据挖掘中应用广泛。

在Stream数据处理方面,学习了多种算法,如DAGIM、Sampling、Bloom Filter等。

DAGIM是一种高效的计数算法,通过预先定义的2^n组合来统计最近k个1的数量。这种方法能够在Stream数据中快速统计频率信息。
Sampling则通过随机选取样本来减少计算量,同时保留统计结果的准确性。
Bloom Filter是一种过滤算法,能够快速判断某个元素是否已经出现过,但可能会产生误报(false positive)。
Flagolet-Martin算法则是一种高效的频率计算方法,通过多个哈希函数的结果组合来估算频率。

第四周:推荐系统与降维方法

本周着重学习了推荐系统和降维方法。推荐系统主要包括Content-Based filtering和Collaborating filtering两种方法。

Content-Based filtering通过分析项(Item Profile)来推荐相关内容,可以通过用户评分或内容抽取得到用户兴趣向量。
Collaborating filtering则通过分析用户之间的相似度,找到与当前用户兴趣最相似的用户,从而推荐相关产品或内容。

在降维方面,学习了矩阵分解(SVD)和主成分分析(PCA)等方法。这些方法可以将高维数据映射到低维空间,从而降低数据的维度要求。

在实际应用中,降维还可以通过基向量的选择来忽略不重要的信息,从而提高数据处理效率。

第五周:聚类方法

本周主要学习了聚类方法,包括Hierarchical Clustering、k-means、BFR和Cure算法等。

Hierarchical Clustering是一种层次聚类方法,通过不断合并子集来形成层次结构,通常时间复杂度为O(n^2 logn)。
k-means是一种经典的聚类算法,通过预先选择k个质心,迭代优化质心位置直到聚类结果不再变化。
BFR算法则通过第一次聚类生成三个子集(Discard Set、Compressed Set和Retained Set),然后对Retained Set进行进一步的聚类处理。
Cure算法则通过从样本中选出最远的点作为代表,再根据代表计算聚类分布,从而避免了k-means算法对初始质心敏感的问题。

第六周:高维度数据处理与决策树

本周深入学习了高维数据处理与决策树技术。

SVD技术在高维数据处理中表现尤为突出。通过找到最大margin的特征向量,可以支持高维数据的分割线,确保分割线能够最大限度地分开不同类别的数据点。
如果需要容忍一定的错误率,还可以通过迭代的方式找到最优的解。

此外,学习了决策树的生成方法。通过MapReduce框架,可以高效地生成大规模决策树模型。

决策树在数据挖掘和分类任务中应用广泛,其优势在于能够清晰地展示数据之间的关系。
与传统的矩阵相乘方法相比,MapReduce框架能够更高效地处理大规模数据。

上一篇:MasterPage(母板页)的不一般用法
下一篇:Mass DM 机器人工作正常,现在它不会发送消息

发表评论

最新留言

感谢大佬
[***.8.128.20]2025年05月15日 07时54分35秒