掌握大数据前沿技术_年薪30万解手可及

什么是大数据工程师？

世界正从IT时代走向DT时代，未来是大数据的时代，企业最有价值的资产就是数据，你所拥有的数据越多你就越有说话权，因此未来企业里最牛逼的员工应该是和数据有关的职位，比如CDO（首席数据官）、大数据工程师等，这些职位将成为程序员又一个高薪出路。

大数据工程师就是一群“玩数据”的人，玩出数据的商业价值，让数据变成生产力。大数据和传统数据的最大区别在于，它是在线的、实时的，规模海量且形式不规整，无章法可循，因此“会玩”这些数据的人就很重要！

飓风口的机遇，人生的转机

大数据工程师市场需求、薪资一览图

如何成大数据工程师？

从0基础进阶学习，到年薪30万

讲师：徐培成

十八掌教育创始人,主讲师,java,大数据

　　毕业于计算机工程专业，先后在软件公司人软件工程师、系统分析师、项目经理、软件架构师，主持开发了大产权交易系统，异构数据库协同系统、电信资源管理系统、互联网综合性调查等系统，对java技术、数据库技术、互联网应用、远程通信、网络编程、分布式应用、高可用性计算机网络集群等技术有着丰富的实战经验和深厚的技术功底。曾在传智播客任java技术讲师，主要负责Struts2、Hiberate、spring、Mybatis、webservice、android、Jee框架项目部分的讲解。期间曾受聘北航研究生软件学院特聘android讲师，CSDN华北区高校讲师暑期Android训练营的特聘讲师以及二炮部队javaee事业组持久化化技术外聘唯一技术讲师。曾任驿统金（上海）网络技术有限公司总经理，主导和光大银行总行重点合作的阳光驿站金融结算系统研发和技术。主持并指导团队在阿里公有云上规划、部署hadoop大数据集群，并对用户的金融交易日志进行存储和分析，完成从传统RDMBS数据到大数据集群的移植和升级。现在是北京十八掌网络科技有限公司创始人，主营大数据技术开发和探索，志在打造最具实战性的大数据技术培训。

大数据培训班系列课程目录立即报名

本部分是基础课程，帮大家进入大数据领域打好java，Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。

课程一、大数据立足之本JavaSE

此课程对于初级程序员来说，可以在短时间内迅速提高开发能力，掌握流行的技术，把握技术的发展脉络。对于中高级程序员来说，本课程可以在短时间内快速提升个人的开发能力及流程设计能力，此刻javaeSe深入浅出讲解。

1)Java语言入门,Java基础语法、数据类型、运算符、流程控制语句、函数、数组
2)OOP编程,面向对象编程(OOP)、类和对象,封装、继承、多态三大特性
3)Java常用Api、集合,集成开发工具(Eclipse)安装使用
4)常用IO流及编码表,异常体系Exception、Error,NIO
5)五、Java实用技术，多线程、网络编程、反射、内省、设计模式

课程二、数据库MySql

本教程从基础的MySQL开始介绍，让学员能够从易到难，从Java的数据库的灵活使用。其中分库介绍了，各个数据库的基本独立使用，以及各自的安装和配置。课程中主要是以SQL脚本为基础，带领学员更加牢固的掌握知识点。

1)MySql数据库的应用
2)触发器、存储过程序列、索引、视图对象
3)JDBC技术：JDBC基础Statement、PreparedStatement、ResultSet结果集对象等
4)数据库连接池技术
5)ORM对象关系映射基本思想。

课程四、Linux&VMware基础

这章是基础课程，帮大家进入大数据领域打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,kvm,openstack等众多课程。因为企业中无一例外的是使用Linux来搭建或部署项目。

1)Linux的常用命令：介绍、使和练习
2)nano编辑器：nano编辑器的介绍、nano扥使用和常用快捷键
3)Linux用户和组账户管理：用户的管理、组管理
4)Linux系统文件权限管理：文件权限介绍、文件权限的操作
5)apt命令，源修改
6)Linux网络管理：hosts,hostname,ifconfig等
7)Linux系统进程管理常用命令ps、pkill、top、htop等的使用
8)Shell编程：Shell的介绍、Shell脚本的编写

Hadoop整套大数据课程的基石：其一，分布式文件系统HDFS用于存储海量数据，无论是Hive、HBase或者Spark数据存储在其上面；其二是分布式资源管理框架 YARN，是Hadoop 云操作系统（也称数据系统），管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控；分布式并行计算框架 MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用，YARN 集群资源管理与任务监控，MapReduce编程，分布式集群的部署管理（包括高可用性HA）必须要掌握的。

课程一、Hadoop -介绍和环境搭建

听过大数据，必听过hadoop，此部分带领大家了解hadoop的用途，在大数据中的用途，以及快速搭建一个hadoop的实验环境，在本过程中不仅将用到前面的Linux知识，而且会对hadoop的架构有深入的理解，并为你以后架构大数据项目打下坚实基础。

1)Hadoop生态环境介绍
2)Hadoop云计算中的位置和关系
3)国内外Hadoop应用案例介绍
4)Hadoop 概念、版本、历史
5)Hadoop 核心组成介绍及hdfs、mapreduce 体系结构
6)Hadoop独立模式安装和测试
7)Hadoop 的集群结构
8)Hadoop 伪分布的详细安装步骤
9)通过命令行和浏览器观察Hadoop
10)Hadoop启动脚本分析
11)Hadoop完全分布式环境搭建
12)Hadoop安全模式、回收站介绍

课程三、Hadoop-详细讲解Mapreduce

Mapreduce可以说是任何一家大数据公司都会用到的计算框架，也是每个大数据工程师应该熟练掌握的，此处的学习除了老师详细的讲解理论外，会通过大量的案例让大家彻底掌握。

1)Mapreduce四个阶段介绍
2)Job、Task介绍
3)默认工作机制
4)创建MR应用开发，获取年度的最高气温
5)在Windows上运行MR作业，
6)Mapper、Reducer
7)InputSplit和OutputSplit
8)Shuffle：Sort，Partitioner，Group,Combiner
9)通过计数器调试程序
10)在Windows安装Hadoop
11)在eclipse安装hadoop插件，访问hadoop资源
12)在eclipse中编写ant脚本
13)YARN调度框架事件分发机制
14)远程调试资源管理器
15)Hadoop的底层google ProtoBuf的协议分析
16)Hadoop底层IPC原理和RPC

课程二、数据仓库Hive

Hive是使用sql进行计算的hadoop框架，工作中最常用到的部分，也是面试的重点，此部分大家将从方方面面来学习Hive的应用，任何细节都将给大家涉及到。数据仓库基础知识

1)Hive体系结构简介
2)Hive客户端简介
3)Hive集群
4)HiveQL定义
5)HiveQL与SQL的比较
6)数据类型
7)配置Hive使用MySql数据库
8)Hive管理表、外部表、临时表、分区表和桶表
9)DDL与CLI客户端演示
10)DML与CLI客户端演示
11)select与CLI客户端演示
12)Hive join、union、View、Index演示
13)Operators和functions与CLI客户端演示
14)安全、锁
15)用户自定义函数（UDF和UDAF）的开发与演示
16)Hive 压缩和优化

课程三、分布式数据库HBase

大数据中使用Hbase的案例多的举不胜举，也可凸显大家学习的必要性。即使工作多年的大数据工程师Hbase的优化也是需要好好学习的重点。

1)HBase简介
2)HBase与RDBMS的对比
3)HBase安装：本地模式、为分布式模式、完全分布式模式
4)HBase Shell体验
5)数据模型
6)系统架构
7)HBase核心术语介绍
8)通过API操作HBase
9)表的设计
10)HBase自定义协处理器
11)HBase上的MapReduce
12)集群的搭建过程讲解
13)集群的监控
14)集群的管理
15)Hbase表级优化
16)Hbase写数据优化
17)Hbase 读数据优化
18)使用Kundera ORM操纵hbase

课程四、数据仓库Hive

Zookeeper在分布式集群（Hadoop生态圈）中的地位越来越突出，对分布式应用的开发也提供了极大便利，这也是这里我们带领大家深入学习 Zookeeper的原因。本课程主要内容包括Zookeeper深入、客户端开发（Java编程，案例开发）、日常运维、Web界面监控。大家这里学好Zookeeper，对后面学习其他技术至关重要。

1)Zookeeper简介
2)Zookeeper组件
3)Zookeeper名字空间等级
4)ZNode类型
5)Zookeeper的工作流程，leader select过程
6)搭建Zookeeper为分布搭建、集群搭建
7)Zookeeper Cli
8)使用Zookeeper的客户端API连接Zookeeper
9)Zookeeper rmi高可用分布式集群开发
10)Netty 异步io通信框架
11)Zookeeper实现netty分布式架构的高可用

课程五、Flume分布式日志框架

Flume最早是Cloudera提供的日志收集系统，目前是Apache下的一个孵化项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。大家学习完此节后不但可以掌握Flume的使用，而且可以进行对于Flume的开发。

1)flume简介-基础知识
2)flume优点
3)flume架构:水槽
4)flume安装与测试
5)flume部署方式
6)flume source相关配置及测试
7)flume sink相关配置及测试
8)flume源代码分析
9)flume selector 相关配置与案例分析
10)flume Sink Processors相关配置和案例分析
11)flume Interceptors相关配置和案例分析
12)flume AVROClient开发
13)flume 和kafka 的整合

课程六、Kafka分布式队列系统课程

Kafka是当下流行的队列，可以说是从数据采集到大数据计算承上启下的重要环节，大家在此部分将会详细学习它的架构，kafka在大家大数据的项目中几乎都会涉及到。

1)Kafka是什么
2)Kafka体系结构
3)Kafka配置详解
4)Kafka的安装
5)消息压缩
6)Kafka集群镜像
7)Kafka的存储策略
8)Kafka分区特点
8)Kafka分区特点
10)Zookeeper协调管理
11)Java编程操作Kafka
12)scala编程操作kafka
13)flume 和Kafka 的整合
14)Kafka 和storm 的整合

课程八、Pig开发

Pig hadoop家族体系之一

1)Pig特点
2)Pig架构
3)Pig组件：parser、优化器、编译器、执行引擎
4)Pig Data ModelL: field、tuple、bag、relation、Map
5)安装Pig
6)Pig运行模式：local、hdfs
7)Pig执行模式：交互、批处理、嵌入式
8)Shell命令：kill、exec、run、clear等
9)诊断操作符：Dump、Describe、Explanation、Illustration
10)Pig操作：group、cogroup、join、union、split切割、过滤、函数等
11)load() / storage：PigStorage、TextLoder、BinStorage、Handling Compression等

课程九、Storm实时数据处理

本部分学习过后，大家将全面掌握Storm内部机制和原理，通过大量项目实战，让大家拥有完整项目开发思路和架构设计，掌握从数据采集到实时计算到数据存储再到前台展示，所有工作一个人搞定！譬如可以一个人搞定淘宝双11大屏幕项目！不光从项目的开发的层次去实现，并可以从架构的层次站在架构师的角度去完成一个项目

1)Storm的基本概念
2)Storm的应用场景
3)Storm和Hadoop的对比
4)Storm优势
5)Storm集群的安装的linux环境准备
6)Storm集群搭建
7)Storm配置文件配置项讲解
8)集群搭建常见问题解决
9)Storm常用组件和编程API：Topology、Spout、Bolt
10)Storm分组策略(stream groupings)
11)使用Strom开发一个WordCount例子
12)在单节点集群上部署topology
13)Storm程序本地模式debug、Storm程序远程debug
14)Storm事物处理
15)Storm消息可靠性及容错原理
16)Storm结合消息队列Kafka：消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API
17)Storm Trident概念
18)Trident state 原理
19)Trident开发实例
20)Storm DRPC(分布式远程调用)
21)Storm DRPC实战讲解
22)Storm和Hadoop 2.x的整合：Storm on Yarn

目前spark在中国大数据软件行业比较火的一门语言，很多培训机构根本无法吃透里面精髓。

课程一、Scala语言编程

为什么要学习Scala？源于Spark的流行，Spark是当前最流行的开源大数据内存计算框架，采用Scala语言实现，各大公司都在使用Spark：IBM宣布承诺大力推进 Apache Spark项目，并称该项目为：在以数据为主导的，未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台， Scala具有数据处理的天然优势，Scala是未来大数据处理的主流语言

1)Scala介绍
2)Scala与Java比较
3)Scala解释器、变量、常用数据类型等
4)Scala的条件表达式、输入输出、循环等控制结构
5)Scala的函数、默认参数、变长参数等
6)Scala的数组、变长数组、多维数组等
7)Scala的映射、元组等操作
8)Scala的类，包括bean属性、辅助构造器、主构造器等
9)Scala的对象、单例对象、伴生对象、扩展类、apply方法等
10)Scala的包、引入、继承等概念
11)Scala文件操作和正则表达式
12)Scala串行化
13)Scala的特质
14)Scala的操作符
15)Scala的高阶函数
16)Scala的集合
17)Scala数据库连接

课程二、Spark大数据编程

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark Streaming: 构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据

1)Spark介绍
2)Spark应用场景
3)Spark和Hadoop MR、Storm的比较和优势
4)RDD
5)Transformation
6)Action
7)Spark计算PageRank
8)Lineage
9)Spark模型简介
10)Spark缓存策略和容错处理
11)宽依赖与窄依赖
12)Spark配置讲解
13)Spark集群搭建
14)集群搭建常见问题解决
15)Spark原理核心组件和常用RDD
16)数据本地性
17)任务调度
18)DAGScheduler
19)TaskScheduler
20)Spark源码解读
21)性能调优
22)Spark和Hadoop2.x整合：Spark on Yarn原理
23)Spark Core核心编程
24)RDD内核架构概览
25)RDD的不同数据来源的创建方式详解
26)RDD的操作算子综述与本质分析（转换算子、行动算子）
27)常用操作算子的案例实战
28)RDD持久化实战以及Checkpoint
29)RDD共享变量以及累加器的使用实战
30)RDD简单排序功能（优化之前WordCount程序）以及二次排序的实战
31)Spark实战Top N功能详解
32)Spark任务调度流程整体架构分析详解
33)Spark任务划分流程整体架构分析详解（宽依赖与窄依赖、DAGScheduler源码分析）
34)Spark执行任务相关原理以及源码分析（TaskScheduler、Executor、Task、Shuffle）
35)Spark实战之PageRank
36)性能优化与调优的分析

课程三、Mahout

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。课程包括：Mahout数据挖掘工具及Hadoop实现推荐系统的综合实战，涉及到MapReduce、Pig和Mahout的综合实战

1)Mahout特性
2)机器学习介绍
3)实现机器学习的方式
4)使用Mahout实现推荐功能
5)Mahout推荐引擎
6)构成推荐引擎的组件
7)使用Mahout构建推荐器
8)通过Eclipse创建Mahout项目，实现推荐功能
9)聚类：聚类的过程、复制文件到hdfs、从input数据准备序列文件、运行任何可以使用的聚类算法
10)分类算法、分类过程

课程四、R语言

本课程面向从未接触过数据分析的学员，从最基础的R语法开始讲起，逐步进入到目前各行业流行的各种分析模型。整个课程分为基础和实战两个单元。基础部分包括R语法和统计思维两个主题，R语法单元会介绍R语言中的各种特色数据结构，以及如何从外部抓去数据，如何使用包和函数，帮助同学快速通过语法关。统计思维单元会指导如何用统计学的思想快速的发现数据特点或者模式，并利用R强大的绘图能力做可视化展现。在实战部分选择了回归、聚类、数据降维、关联规则、决策树这5中最基础的数据分析模型，详细介绍其思想原理，并通过案例讲解R中的实现方案，尤其是详细的介绍了对各种参数和输出结果的解读，让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中

1)R语言介绍、下载和安装
2)R语言包、库
3)R批处理
4)数据集、对象、向量、标量、矩阵、数组、数据框、因子、列表、加载xlsx文件；
5)plot制图、修改图形属性、颜色、案例
6)文本大小的参数、字体、图形大小和边界大小
7)legend图例、条形图、饼图、点图
8)基本统计分析
9)定义函数、使用内置汽车数据集

课程一、国内某前三甲著名电商的商品推荐系统

国内某前三甲著名电商的商品推荐系统，项目又名--“猜你喜欢”。
    项目采用MapReduce计算模型结合mahout机器学习实现用户相似度、商品关联度和降维分析等协同过滤算法。
    数据直接来自企业在线系统的生产数据，具有权威性和真实性，数据量在tb级以上。
    利用该系统，直接促成商业交易额提升25%。

课程二、国内某电视台卫视节目HDFS的云盘存储系统

国内某电视台卫视节目云盘存储系统，基于Hadoop HDFS分布式存储，实现对文件的浏览、上传、下载、删除功能，系统支持多种文件格式，文件大小支持几十K到几十M，甚至上百M。
    视频存储容量为每天10小时有效视频文件,每小时的视频大小为1g（高清视频），每周七天，存储近10年的数据。
    总容量评估为 : 10 x 365 x 10 x 1g = 35tb字节数。
    基于HDFS的云盘系统可以把独立的服务器磁盘或磁盘阵列统一为有机整体，由Hadoop HDFS全局维护数据的存储与备份，以存储海量数据，对外部系统提供一致的文件下载服务。
    基于HDFS的云盘系统可以将数据冗余存储，保证了数据的安全存储与备份，并使整个存储的水平扩展非常容易。 namenode节点使用QJM实现高可用集群，支持自动+手动两种容灾方式。
    为避免工作人员因专业性强导致集群资源分布不均，根据需求设定空间配额和目录配额进行约束管理。为防止管理员对资源目录进行快速备份和后期恢复工作，支持快照功能，且可以设定快照数量。     为防止管理员操作不当，误删除重要数据，集群支持回收站机制，并设有告警和提示功能。
云盘存储系统支持存储节点的热伸缩，保证数据高可用性。

关注微信公众号，可下载APP应用。

大数据学员预报名

课程一、大数据立足之本JavaSE

课程二、数据库MySql

课程三、阶段项目:实时聊天软件

课程四、Linux&VMware基础

课程一、Hadoop -介绍和环境搭建

课程二、Hadoop-HDFS体系结构和Shell以及Java操作

课程三、Hadoop-详细讲解Mapreduce

课程四、Hadoop-HA

课程一、数据序列化系统Avro

课程二、数据仓库Hive

课程三、分布式数据库HBase

课程四、数据仓库Hive

课程五、Flume分布式日志框架

课程六、Kafka分布式队列系统课程

课程七、Sqoop数据迁移

课程八、Pig开发

课程九、Storm实时数据处理

课程一、Scala语言编程

课程二、Spark大数据编程

课程三、Mahout

课程四、R语言

课程一、国内某前三甲著名电商的商品推荐系统

课程二、国内某电视台卫视节目HDFS的云盘存储系统

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：

9:00~19:00

关注微信公众号，可下载APP应用。

大数据学员预报名

课程一、大数据立足之本JavaSE

课程二、数据库MySql

课程三、阶段项目:实时聊天软件

课程四、Linux&VMware基础

课程一、Hadoop -介绍和环境搭建

课程二、Hadoop-HDFS体系结构和Shell以及Java操作

课程三、Hadoop-详细讲解Mapreduce

课程四、Hadoop-HA

课程一、数据序列化系统Avro

课程二、数据仓库Hive

课程三、分布式数据库HBase

课程四、数据仓库Hive

课程五、Flume分布式日志框架

课程六、Kafka分布式队列系统课程

课程七、Sqoop数据迁移

课程八、Pig开发

课程九、Storm实时数据处理

课程一、Scala语言编程

课程二、Spark大数据编程

课程三、Mahout

课程四、R语言

课程一、国内某前三甲著名电商的商品推荐系统

课程二、国内某电视台卫视节目HDFS的云盘存储系统

粤ICP备13047178号 粤公网安备44010602001432号

广州挪贤计算机科技有限公司 版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：

9:00~19:00

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有