当当云阅读 > 教育 > 大中专教材 > 研究生/本科/专科教材 > 大数据技术基础——基于Hadoop与Spark

大数据技术基础——基于Hadoop与Spark电子书

*，重突出，避免市场上大多数的大数据书籍面面俱到、不适合教学的弊端第二、内容结构完整，根据循序渐的认识规律设计章节顺序第三、提供了大量的案例，所有案例代码都是完整的，都通过了JDK 1.8调试并给出了运行效果第四，全书配备了丰富的、符合初学者习惯的思考和实践任务第五，全书不仅包含了Hadoop 和 Spark的概念、原理及其应用方法，还通过应用案例以图文并茂的方式展示了大数据应用系统的设计与实现过程，为读者深学习Hadoop与Spark技术提供了颇具价值的参考

售价：¥

纸质售价：¥35.20购买纸书

22人正在读 | 0人评论

6.2

作者：罗福强　李瑶　陈虹君

出版社：人民邮电出版社有限公司

出版时间：2017-06-01

字数：34.6万

所属分类：教育 > 大中专教材 > 研究生/本科/专科教材

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书主要内容包括：*章大数据技术概述、第二章 Hadoop平台的安装与配置、第三章 Hadoop分布式文件系统、第四章 HDFS API编程、第五章 Hadoop分布式计算框架、第六章 MapReduce API编程、第七章 MapReduce 高级编程、第八章 Spark概述、第九章 Spark Streaming编程、第十章 Spark SQL编程。 【推荐语】 *，重突出，避免市场上大多数的大数据书籍面面俱到、不适合教学的弊端第二、内容结构完整，根据循序渐的认识规律设计章节顺序第三、提供了大量的案例，所有案例代码都是完整的，都通过了JDK 1.8调试并给出了运行效果第四，全书配备了丰富的、符合初学者习惯的思考和实践任务第五，全书不仅包含了Hadoop 和 Spark的概念、原理及其应用方法，还通过应用案例以图文并茂的方式展示了大数据应用系统的设计与实现过程，为读者深学习Hadoop与Spark技术提供了颇具价值的参考 【作者】 罗福强，副教授，畅销教材作者。其编写的《Visual C#.NET程序设计教程》教材，累计销售数万册。

目录展开

内容提要

前言

第1章大数据技术概述

1.1 大数据技术的发展背景

1.1.1 大数据技术的发展过程

1.1.2 大数据技术的影响

1.1.3 大数据发展的重大事件

1.2 大数据的概念、特征及意义

1.2.1 什么是大数据

1.2.2 大数据的特征

1.2.3 大数据来自哪儿

1.2.4 大数据的挑战

1.2.5 研究大数据的意义

1.3 大数据的存储与计算模式

1.3.1 大数据的存储模式

1.3.2 大数据的计算模式

1.4 大数据的典型应用

1.4.1 智慧医疗的应用

1.4.2 智慧农业的应用

1.4.3 金融行业的应用

1.4.4 零售行业的应用

1.4.5 电子商务行业的应用

1.4.6 电子政务的应用

1.5 初识Hadoop大数据平台

1.5.1 Hadoop的发展过程

1.5.2 Hadoop的优势

1.5.3 Hadoop的生态系统

1.5.4 Hadoop的版本

1.6 习题

第2章 Hadoop平台的安装与配置

2.1 安装准备

2.1.1 硬件要求

2.1.2 安装Linux

2.1.3 安装Java

2.2 Hadoop的集群安装

2.2.1 Hadoop的运行模式

2.2.2 Linux系统设置

2.2.3 SSH的安装

2.2.4 Hadoop的安装

2.2.5 Hadoop的配置

2.2.6 Hadoop的测试

2.3 Hadoop开发平台的安装

2.3.1 Eclipse的安装

2.3.2 下载hadoop-eclipse-plugin插件

2.3.3 在Eclipse中配置Hadoop

2.4 习题

2.5 实训

第3章 Hadoop分布式文件系统

3.1 HDFS概述

3.1.1 HDFS简介

3.1.2 HDFS的基本概念

3.1.3 HDFS的特点

3.2 HDFS的体系结构

3.2.1 HDFS设计目标

3.2.2 HDFS的结构模型

3.2.3 HDFS文件的读写

3.2.4 HDFS的数据组织机制

3.2.5 HDFS的高可用性机制

3.3 HDFS Shell操作

3.3.1 Shell命令介绍

3.3.2 HDFS Shell帮助

3.3.3 文件操作命令

3.3.4 跨文件系统的交互操作命令

3.3.5 权限管理操作

3.4 习题

3.5 实训

第4章 HDFS API编程

4.1 HDFS API概述

4.1.1 HDFS API简介

4.1.2 HDFS Java API的一般用法

4.2 HDFS Java API客户端编程

4.2.1 目录与文件的创建

4.2.2 文件上传与下载

4.2.3 数据流与文件读写操作

4.2.4 目录与文件的重命名

4.2.5 目录和文件的删除

4.2.6 文件系统的状态信息显示

4.3 HDFS应用举例——云盘系统的实现

4.3.1 云盘系统分析

4.3.2 云盘系统设计

4.3.3 云盘系统实现

4.4 习题

4.5 实训

第5章 Hadoop分布式计算框架

5.1 MapReduce概述

5.1.1 为什么需要MapReduce

5.1.2 MapReduce的优势

5.1.3 MapReduce的基本概念

5.1.4 MapReduce框架

5.1.5 MapReduce发展

5.2 YARN运行机制

5.2.1 YARN组成结构

5.2.2 YARN通信协议

5.2.3 YARN工作流程

5.3 数据的混洗处理

5.3.1 map端

5.3.2 reduce端

5.4 作业的调度

5.4.1 FIFO调度器

5.4.2 Capacity调度器

5.4.3 Fair调度器

5.4.4 调度器的比较

5.5 任务的执行

5.5.1 推测执行

5.5.2 JVM重用

5.5.3 跳过坏记录

5.6 失败处理机制

5.6.1 任务运行失败

5.6.2 ApplicationMaster运行失败

5.6.3 NodeManager运行失败

5.6.4 ResourceManager运行失败

5.6.5 日志文件

5.7 MapReduce示例演示——WordCount

5.8 习题

第6章 MapReduce API编程

6.1 MapReduce API概述

6.1.1 MapReduce API简介

6.1.2 MapReduce API编程思路

6.2 MapReduce的数据类型

6.2.1 序列化

6.2.2 Writable接口

6.2.3 Writable类

6.3 MapReduce的输入

6.3.1 输入分片

6.3.2 文件输入

6.3.3 文本输入

6.3.4 二进制输入

6.3.5 多个输入

6.3.6 数据库输入

6.4 MapReduce的输出

6.4.1 文本输出

6.4.2 二进制输出

6.4.3 多个输出

6.4.4 延迟输出

6.4.5 数据库输出

6.5 MapReduce的任务

6.5.1 map任务

6.5.2 combine任务

6.5.3 partition任务

6.5.4 reduce任务

6.5.5 任务的配置与执行

6.6 MapReduce应用举例——倒排索引

6.6.1 功能介绍

6.6.2 准备数据

6.6.3 分析与设计

6.6.4 MapReduce编码实现

6.6.5 测试结果

6.7 习题

6.8 实训

第7章 MapReduce 高级编程

7.1 自定义数据类型

7.2 自定义输入/输出

7.2.1 RecordReader与RecordWriter

7.2.2 自定义输入

7.2.3 自定义输出

7.3 自定义Combiner/Partitioner

7.3.1 自定义Combiner

7.3.2 自定义Partitioner

7.4 组合式计算作业

7.4.1 迭代式计算

7.4.2 依赖关系组合式计算

7.4.3 链式计算

7.5 MapReduce的特性

7.5.1 计数器

7.5.2 连接

7.6 MapReduce应用举例——成绩分析系统的实现

7.6.1 成绩分析系统解析

7.6.2 成绩分析系统功能设计

7.6.3 成绩分析系统实现

7.7 习题

7.8 实训

第8章 Spark概述

8.1 环境搭建

8.1.1 Scala的下载和安装

8.1.2 Spark的下载与安装

8.2 Spark简介

8.2.1 Spark的发展

8.2.2 Spark的特点

8.2.3 Spark与Hadoop的关系

8.2.4 Spark的企业应用

8.3 Spark大数据技术框架

8.3.1 Spark技术体系

8.3.2 四大组件概述

8.4 Spark 2.0 使用体验

8.4.1 Spark入口

8.4.2 第一个Spark程序

8.5 Spark的数据模型

8.5.1 RDD介绍

8.5.2 RDD的处理过程

8.5.3 Transformation算子与使用

8.5.4 Action算子与使用

8.5.5 RDD分区

8.5.6 RDD的依赖关系

8.5.7 RDD的容错支持

8.6 Spark任务调度

8.6.1 Spark应用程序部署

8.6.2 Spark任务的调度机制

8.7 习题

8.8 实训

第9章 Spark Streaming编程

9.1 Spark Streaming介绍

9.2 Spark Streaming工作机制

9.3 Spark的DStream流

9.3.1 DStream转换

9.3.2 Window操作

9.3.3 DStream输出

9.3.4 持久化与序列化

9.3.5 设置检测点

9.4 Spark Streaming案例

9.5 集群处理与性能

9.6 习题

9.7 实训

第10章 Spark SQL编程

10.1 Spark SQL概述

10.2 DataFrame

10.2.1 DataSet与DataFrame

10.2.2 反射机制获取RDD内的Schema

10.2.3 编程接口指定Schema

10.3 数据源

10.3.1 一般load/save方法

10.3.2 Parquet数据集

10.3.3 JSON数据集

10.3.4 JDBC数据集

10.3.5 DataFrame的案例

10.4 Spark Streaming与Spark SQL综合案例

10.5 习题

10.6 实训

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

经济学原理￥1.09

（英）马歇尔

￥1.09

货币金融学(第3版) ￥41.00

蒋先玲

￥41.00

更多同类图书 >

大数据技术基础——基于Hadoop与Spark电子书

支持设备

经济学原理￥1.09

中医基础理论(全国中医药行业高等教育“十四五”规划教材)（电子书不含视频资源）￥50.00

方剂学(全国中医药行业高等教育“十四五”规划教材)(供中医学、针灸推拿学、中西医临床医学、中药学等专业用) ￥67.00

中医养生学(全国中医药行业高等教育“十四五”规划教材) ￥65.00

中医诊断学(全国中医药行业高等教育“十四五”规划教材)（电子书不含音频资源）￥49.50

经络腧穴学(全国中医药行业高等教育“十四五”规划教材) ￥58.50

金匮要略(全国中医药行业高等教育“十四五”规划教材) ￥58.50

人体解剖学(全国中医药行业高等教育“十四五”规划教材) ￥68.00

中药学(全国中医药行业高等教育“十四五”规划教材) ￥84.00

货币金融学(第3版) ￥41.00

当当云阅读

大数据技术基础——基于Hadoop与Spark电子书

支持设备

经济学原理 ￥1.09

中医基础理论(全国中医药行业高等教育“十四五”规划教材)（电子书不含视频资源） ￥50.00

方剂学(全国中医药行业高等教育“十四五”规划教材)(供中医学、针灸推拿学、中西医临床医学、中药学等专业用) ￥67.00

中医养生学(全国中医药行业高等教育“十四五”规划教材) ￥65.00

中医诊断学(全国中医药行业高等教育“十四五”规划教材)（电子书不含音频资源） ￥49.50

经络腧穴学(全国中医药行业高等教育“十四五”规划教材) ￥58.50

金匮要略(全国中医药行业高等教育“十四五”规划教材) ￥58.50

人体解剖学(全国中医药行业高等教育“十四五”规划教材) ￥68.00

中药学(全国中医药行业高等教育“十四五”规划教材) ￥84.00

货币金融学(第3版) ￥41.00

当当云阅读

经济学原理￥1.09

中医基础理论(全国中医药行业高等教育“十四五”规划教材)（电子书不含视频资源）￥50.00

中医诊断学(全国中医药行业高等教育“十四五”规划教材)（电子书不含音频资源）￥49.50