
本文共 3728 字,大约阅读时间需要 12 分钟。
一.学习大数据的基础
首先,要知道的是90%的大数据框架都是用Java写的,所以说要掌握Java SE,EE(SSM);那么大数据是对数据的处理和分析,所以SQL语句是要熟练掌握的(MySQL SQL on Hadoop);紧接着,由于大数据的框架安装在Linux操作系统上的,所以要对Linux操作指令熟练掌握。
二.需要学什么
第一方面:大数据离线分析
一般处理T+1(所谓T+1就是处理的是每天 or 每周 or 每月 or每年)数据
(1).Hadoop 2.X:(common(为其它提供服务)、HDFS(分布式文件系统)、MapReduce(Map进行拆分,Reduce进行整合)、YARN(计算与管理分开))
环境搭建:处理数据的思想
(2).Hive:大数据处理仓库
通过写SQL对数据进行操作,类似于MySQL数据库中的SQL
(3).HBase:基于HDFS的NOSQL(不仅仅是SQL),面向列的存储。相较于MySQ来说,数据的存储十分庞大
协作框架:
sqoop(桥梁:HDFS <==> RDNMS)
flume:手机日志文件中的信息
调度框架:anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
扩展前沿框架:
kylin、impala、ElasticSearch(ES)
第二方面:
大数据实时分析:
以spack框架为主
Scala:OOP(Object Oriented Programming面向对象编程)+FP(Functional Programming面向函数)
sparkCore:类比MapReduce
sparkSQL:类比nive
sparkStreaming:实时处理数据
kafka:消息队列
前沿框架扩展:flink
阿里巴巴:blink
第三方面:大数据机器学习(扩展)
spark MLlib:机器学习库(算法)
pyspark编程:Python 和 spark的结合
推荐系统
Python数据分析
Python机器学习
三.环境搭建(之前发的文章有详细过程)
1.虚拟化软件
虚拟出一台计算器(memory,CPU core,硬盘) Linux centOS 6.4 VMware 12.x
2.安装虚拟机过程
①.导入虚拟机
=》解压
=》英文目录下
=》导入VMware中【已移动】
=》超级管理员用户 eg:root/123456
②.修改WMware Vmnt8的适配器网段地址(eg:192.168.59.0)
③.虚拟机配置约束——>职业化
使用普通用户:eg:huadian/huadian
主机名:bigdata-hpsk01.huadian.com
④基本操作(root用户来操作)
创建普通用户:
#useradd huadian
#passwd huadian
修改主机名
#vi /etc/sysconfig/network
配置ip和主机名映射
配置ip
UI界面( vi /etc/sysconfig/network-scripts/ifcfg-eth0 )
主机名映射
vi /etc/hosts
192.168.59.160 bigdata-hpsk01.huadian.com bigdata-hpsk01
测试:ping bigdata-hpsk01.huadian.com
注意:Windows也要改一下
C:\windows\system32\drivers\etc\hosts
追加192.168.59.160 bigdata-hpsk01.huadian.com bigdata-hpsk01
⑤.远程连接
CRT、Xshell、notepad++
⑥.配置普通用户huadian具有sudo权限
visudo
⑦.关闭防火墙
当前关闭
sudo service iptables stop
检查是否设置成功
service iptables status
开机不启动
sudo chkconfig iptables off
检查设置是否成功
chkconfig iptables --list
关闭selinux
vi /etc/selinux/config
vi /etc/sysconfig/selinux
设置SWLINUX=disabled 该设置必须重启才能生效
⑧.关闭虚拟机
init 0 / halt
虚拟机快照
⑨.OK,开机工作
四.大数据框架安装功能来划分
海量存储数据:
HDFS、Hive(本质存储数据还是HDFS)、HBASE、ES
海量数据分析:
MapReduce、Spack、SQL
最原始的Hadoop框架
数据存储:HDFS (Hadoop Distributed File System) Hadoop 分布式的文件系统
数据分析:MapReduce
Hadoop的起源
Google的三篇论文
虽然Google没有公布这三个产品的源码,但是他发布了这三个产品对的详细设计论文,
奠定了风靡全球的大数据算法的基础!
Google FS HDFS
MapReduce MapReduce
BigTable Hbase
将任务分解然后在很多平台处理能力较弱的计算 节点中间同时处理,然后将结果合并从而完成大数据的处理
Google:Android,搜索,大数据框架,人工智能框架
pagerank
五、Hadoop介绍
大数据绝大多数框架,都属于Apache顶级项目
http://apache.org/
hadoop官网:http://hadoop.apache.org/
六、分布式
相对于【集中式】
需要多台机器,进行协助完成。
元数据:记录数据的数据
架构:
主节点Master 老大,管理者
管理 从节点Slave 从属,奴隶,被管理者 干活Hadoop也是分布式架构 HDFS: 主节点:NameNode 决定着数据存储到那个DataNode上 从节点:DataNode 存储数据 MapReduce: 分而治之思想 将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结果进行合并 map task 单独处理每一部分的数据、 reduce task 合并map task的输出 YARN: 分布式集群资源管理框架,管理者集群的资源(Memory,cpu core) 合理调度分配给各个程序(MapReduce)使用 主节点:resourceManager 掌管集群中的资源 从节点:nodeManager 管理每台集群资源 总结:Hadoop的安装部署 都属于java进程,就是启动了JVM进程,运行服务。 HDFS:存储数据,提供分析的数据 NameNode/DataNode YARN:提供程序运行的资源 ResourceManager/NodeManager七、安装前的准备 伪分布式安装部署 在一台机器上安装部署HDFS和YARN服务。 相关服务都属于java进程,就是启动JVM服务, 这些进程运行在一台机器上。 规划Linux系统的目录结构 以系统/opt目录为主安装软件包。 /opt /datas 测试数据 /softwares 软件包,上传的软件包 /mudules 软件安装目录 /tools 开发的IDE及工具 将上述目录所属者和所属组改成huadian chown huadian:huadian /datas /softwares /mudules /tools 安装jdk 卸载系统自带的openjdk 查看:sudo rpm -qa |grep java 卸载: sudo rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 \ tzdata-java-2012j-1.el6.noarch \ java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64 linux系统自带上传和下载软件 sudo yum install -y lrzsz rz:上传文件, 上传到当前执行rz命令的路径 sz:下载文件 安装jdk 注意:Linux安装jdk类似于Windows安装一个绿色版本软件直接解压,然后配置环境变量即可 (1)使用rz将jdk上传到/opt/softwares (2)解压: tar -zxf jdk-8u91-linux-x64.tar.gz -C /opt/modules/ (3)配置环境变量 sudo vi /etc/profile #JAVA_HOME export JAVA_HOME=/opt/modules/jdk1.8.0_91 export PATH=${PATH}:${JAVA_HOME}/bin 使其生效: source /etc/profile 验证: java -version ----完了之后千万不要忘记快照哦-----
发表评论
最新留言
关于作者
