Massive Data Mining学习记录-白红宇的个人博客

Massive Data Mining学习记录

发布日期：2025-04-12 02:36:23 浏览次数：11 分类：精选文章

本文共 2172 字，大约阅读时间需要 7 分钟。

第一周：PageRank的学习

学习PageRank这一周，我深入了解了其工作原理。PageRank是一种用于衡量网页重要性的算法，每个节点的权值由其他节点的投票决定，所有节点的权值和为1。

当节点数量很多时，计算节点权值时通常需要转换成矩阵运算来处理。通过马尔可夫链的理论，我们可以迭代地得到最终的权值分配。然而，这种方法可能会出现无出度节点的问题，导致总体权值分配出现失衡。

为了解决这一问题，引入了一个权值矩阵的修正方法：M' = 0.8M + 0.21/n。这种方法通过为每个节点设置一个较低的跳出概率（0.2），确保即使存在无出度节点，也能避免权值分配失衡。

第二周：MinHashing与LSH

本周深入学习了MinHashing和LSH（局部敏感哈希）技术。MinHashing通过对数据列进行随机排列，并找到第一列不为1的下标，用于快速判断数据是否存在重复。这种方法在实际应用中表现优异，但在处理大量数据时，可能会消耗较多的时间和资源。

为了提高效率，常常会采用普通Hash函数来替代MinHashing。普通Hash函数能够对每行和每列生成特定的哈希值，从而在移动行过程中快速确定某列的某哈希值。

LSH技术则通过将一列特征值（signature）分成多个band，并对每个band内的行进行Hash处理，从而将相似特征的列更容易地分配到同一个bucket中。这种方法在数据聚类和相似性搜索中应用广泛。

此外，LSH还涉及到对相似对的划分。通过设置一个阈值t，可以控制每个bucket中相似对的数量。

在实际应用中，Frequent Set的发现是另一个重要问题。通过多种方法，如随机采样（Simple）、顺序采样（SON）、Toivonen算法等，可以有效地发现Frequent Set。

其中，Toivonen算法通过检测负边界（negative border）来确保发现的频繁集合是准确的。负边界的定义是：该子集中的所有直接子集都属于频繁集合。

第三周：SVD与Stream数据处理

本周，我重点学习了SVD（奇异值分解）和Stream数据处理技术。

SVD是一种将高维数据转换为低维的方法，通过分解矩阵为三个部分：U、σ和V^T，从而提取出重要的概念。这种方法在降维和数据挖掘中应用广泛。

在Stream数据处理方面，学习了多种算法，如DAGIM、Sampling、Bloom Filter等。

DAGIM是一种高效的计数算法，通过预先定义的2^n组合来统计最近k个1的数量。这种方法能够在Stream数据中快速统计频率信息。

Sampling则通过随机选取样本来减少计算量，同时保留统计结果的准确性。

Bloom Filter是一种过滤算法，能够快速判断某个元素是否已经出现过，但可能会产生误报（false positive）。

Flagolet-Martin算法则是一种高效的频率计算方法，通过多个哈希函数的结果组合来估算频率。

第四周：推荐系统与降维方法

本周着重学习了推荐系统和降维方法。推荐系统主要包括Content-Based filtering和Collaborating filtering两种方法。

Content-Based filtering通过分析项（Item Profile）来推荐相关内容，可以通过用户评分或内容抽取得到用户兴趣向量。

Collaborating filtering则通过分析用户之间的相似度，找到与当前用户兴趣最相似的用户，从而推荐相关产品或内容。

在降维方面，学习了矩阵分解（SVD）和主成分分析（PCA）等方法。这些方法可以将高维数据映射到低维空间，从而降低数据的维度要求。

在实际应用中，降维还可以通过基向量的选择来忽略不重要的信息，从而提高数据处理效率。

第五周：聚类方法

本周主要学习了聚类方法，包括Hierarchical Clustering、k-means、BFR和Cure算法等。

Hierarchical Clustering是一种层次聚类方法，通过不断合并子集来形成层次结构，通常时间复杂度为O(n^2 logn)。

k-means是一种经典的聚类算法，通过预先选择k个质心，迭代优化质心位置直到聚类结果不再变化。

BFR算法则通过第一次聚类生成三个子集（Discard Set、Compressed Set和Retained Set），然后对Retained Set进行进一步的聚类处理。

Cure算法则通过从样本中选出最远的点作为代表，再根据代表计算聚类分布，从而避免了k-means算法对初始质心敏感的问题。

第六周：高维度数据处理与决策树

本周深入学习了高维数据处理与决策树技术。

SVD技术在高维数据处理中表现尤为突出。通过找到最大margin的特征向量，可以支持高维数据的分割线，确保分割线能够最大限度地分开不同类别的数据点。

如果需要容忍一定的错误率，还可以通过迭代的方式找到最优的解。

此外，学习了决策树的生成方法。通过MapReduce框架，可以高效地生成大规模决策树模型。

决策树在数据挖掘和分类任务中应用广泛，其优势在于能够清晰地展示数据之间的关系。

与传统的矩阵相乘方法相比，MapReduce框架能够更高效地处理大规模数据。

上一篇：MasterPage(母板页)的不一般用法

下一篇：Mass DM 机器人工作正常，现在它不会发送消息

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！