大数据系统和分析技术综述(引用最多)
发布日期:2021-07-01 02:22:53 浏览次数:2 分类:技术文章

本文共 2081 字,大约阅读时间需要 6 分钟。

文章目录

一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,
人们将大数据的特征总结为 5 个 V,即体量大(volume)、速度快(velocity)、模态多(variety)、难辨识(veracity)和价值大密度低(value)
但大数据的主要难点并不在于数据量大,因为通过对计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战.其实,大数据真正难以对付的挑战来自于
1.数据类型多样(variety)、
2.要求及时响应(velocity)
3.数据的不确定性(veracity).:数据真伪难辨是大数据应用的最大挑战.追求高数据质量是对大数据的一项重要要求(利用数据清洗可以消除某些数据固有的不可预测性.)

1.1.1 批量数据的特征与典型应用

hadoop

在安全领域中,批量数据主要用于欺诈检测和 IT 安全.

在公共服务领域,批量数据处理的典型应用场景主要包括:(a) 能源(b) 医疗保健:

1.2 流式数据处理系统

流式数据处理源于服务器日志的实时采集,交互式数据处理的目标是将 PB 级数据的处理时间缩短到秒级.

流式数据是一个无穷的数据序列,流式数据的特点是,数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低.而对应的处理工具则需具备高性能、实时、可扩展等特性.

1.3 交互式数据处理

Spark 系统

系统与操作人员以人机对话的方式一问一答——操作人员提出请求,数据以对话的方式输入,系统便提供相应的数据或提示信息,引导操作人员逐步完成所需的操作,直至获得最后处理结果
采用这种方式,
1.存储在系统中的数据文件能够被及时处理修改
2.处理结果可以立刻被使用.
3.交互式数据处理具备的这些特征能够保证输入的信息得到及时处理,使交互方式继续进行下去.

应用:"如搜索引擎、电子邮件、即时通讯工具、社交网络、微博、博客以及电子商务等,用户可以在这些平台上获取或分享各种信息.此外,各种交互式问答平台,如百度的知道、新浪的爱问以及 Yahoo!的知识堂等.

使得传统的关系数据库(DBMS)不能满足交互式数据处理的实时性需求.目前,各大平台主要使用 NoSQL 类型的数据库系统来处理交互式的数据,

如 HBase采用多维有续表的列式存储方式
MongoDB采用 JSON 格式的数据嵌套存储方式.
大多 NoSQL 数据库不提供 Join 等关系数据库的操作模式,以增加数据操作的实时性.

1.4 图数据处理系统

1.没有一个通用的图数据处理系统满足所有领域的需求

2.图数据计算的强耦合性
大图数据是无法使用单台机器进行处理的,但如果对大图数据进行并行处理,对于每一个顶点之间都是连通的图来讲,难以分割成若干完全独立的子图进行独立的并行处理;即使可以分割,也会面临并行机器的协同处理,以及将最后的处理结果进行合并等一系列问题.这需要图数据处理系统选取合适的图分割以及图计算模型来迎接挑战并解决问题.
如 E-mail 中的人与人之间的通信关系
交通领域的应用.图可用来在动态网络交通中查找最短路径

2大数据分析

要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算.深度学习和知识计算是大数据分析的

基础,而可视化既是数据分析的关键技术也是数据分析结果呈现的关键技术

小结:

大数据处理和分析的终极目标是借助对数据的理解辅助人们在各类应用中作出合理的决策.在此过程中,深度学习、知识计算、社会计算和可视化起到了相辅相成的作用.

**(1) 深度学习提高精度:**如前所述,要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算,而传统的数据表达模型和方法通常是简单的浅层模型学习,效果不尽人意.深度学习可以对人类难以理解的底层数据特征进行层层抽象,凝练具有物理意义的特征,从而提高数据学习的精度.因此,深度学习是大数据分析的核心技术;

(2) 知识计算挖掘深度:每一种数据来源都有一定的局限性和片面性,只有对各种来源的原始数据进行融合才能反映事物的全貌,事物的本质和规律往往隐藏在各种原始数据的相互关联之中.而借助知识计算可以将碎片化的多源数据整合成反映事物全貌的完整数据,从而增加数据挖掘的深度.因此,基于大数据的知识计算是大数据分析的基础.如何基于大数据实现新知识的感知,知识的增量式演化和自适应学习是其中的重大挑战;
(3) 社会计算促进认知:IT 技术的发展使得社会媒体成了一类重要的信息载体,承载着对事物的客观或主观描述信息.因此,通过基于社会媒体数据的社会计算可以促进人们对事物的认知.但是,社会媒体大数据往往蕴含着一个体量庞大、关系异质、结构多尺度和动态演化的网络,对它的分析既要有效地计算方法,更需要支持大规模网络结构的图数据存储和管理结构,以及高性能的图计算系统结构和算法;
(4) 强可视化辅助决策:对大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要.而强大的可视化技术,不仅可以对数据分析结果进行更有效的展示,而且可以在大数据分析过程中发挥重要作用.

转载地址:https://mapengsen.blog.csdn.net/article/details/108587502 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:大数据流式计算:关键技术及系统实例
下一篇:4-1Data Sources

发表评论

最新留言

网站不错 人气很旺了 加油
[***.192.178.218]2024年04月19日 16时56分31秒