万本电子书0元读

万本电子书0元读

顶部广告

R数据科学电子书

R社区领军人物作品,从典型数据科学项目所需工具模型着手,带领读者掌握R语言精华,学会熟练使用多种工具解决各种数据科学难题。 ·探索——以可视化作为R编程起,再行重要变量选取、筛选关键观测等重要数据操作,并对数据提出问题且找到答案。 ·处理——导、整理并转换数据。 ·编程——管道操作的工作原理和替代方式,函数使用规则,如何实现迭代。

售       价:¥

纸质售价:¥104.20购买纸书

666人正在读 | 1人评论 6.2

作       者:(新西兰)哈德利·威克姆(Hadley Wickham),(美)加勒特·格罗勒芒德(Garrett Grolemund)

出  版  社:人民邮电出版社

出版时间:2018-08-01

字       数:28.9万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(1条)
  • 读书简介
  • 目录
  • 累计评论(1条)
本书的目标是教会读者使用重要的数据科学工具,从而为实施数据科学奠定坚实的基础。 读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。每一章都按照这样的顺序组织内容:先给出一些引人胜的示例,以便你可以整体了解这一章的内容,然后再深细节。本书的每一节都配有习题,以帮助你实践所学到的知识。 本书适合R数据科学家阅读<br/>【推荐语】<br/>R社区领军人物作品,从典型数据科学项目所需工具模型着手,带领读者掌握R语言精华,学会熟练使用多种工具解决各种数据科学难题。 ·探索——以可视化作为R编程起,再行重要变量选取、筛选关键观测等重要数据操作,并对数据提出问题且找到答案。 ·处理——导、整理并转换数据。 ·编程——管道操作的工作原理和替代方式,函数使用规则,如何实现迭代。 ·模型——深刻理解模型背后的数学理论和数据,直观认识统计模型工作原理。 ·沟通——学会R Markdown,让人们快速轻松理解你的工作。<br/>【作者】<br/>哈德利·威克姆(Hadley Wickham), RStudioshou席科学家,统计学家,斯坦福大学、奥克兰大学、莱斯大学兼职统计学教授。已被下载数百万次的ggplot2等多款知名R包的fa者,一直致力于让普罗大众更容易上手数据分析,被R社区誉为“改变了R的人”。另著有《R包发》等书。 加勒特·格罗勒芒德(Garrett Grolemund),RStudio数据科学家,知名R培训师,曾受邀在Google、eBay等诸多公司讲授R语言和数据科学,在DataCamp授的R相关课程备受Rfa者喜爱。另著有《R语言门与实践》。 译者简介 陈光欣,毕业于清华大学并留校工作,主要兴趣为数据分析与数据挖掘。<br/>
目录展开

O'Reilly Media, Inc. 介绍

前言

第一部分 探索

第1章 使用ggplot2进行数据可视化

1.1 简介

准备工作

1.2 第一步

1.2.1 mpg数据框

1.2.2 创建ggplot图形

1.2.3 绘图模板

1.2.4 练习

1.3 图形属性映射

练习

1.4 常见问题

1.5 分面

练习

1.6 几何对象

练习

1.7 统计变换

练习

1.8 位置调整

练习

1.9 坐标系

练习

1.10 图形分层语法

第2章 工作流:基础

2.1 代码基础

2.2 对象名称

2.3 函数调用

练习

第3章 使用dplyr进行数据转换

3.1 简介

3.1.1 准备工作

3.1.2 nycflights13

3.1.3 dplyr基础

3.2 使用filter()筛选行

3.2.1 比较运算符

3.2.2 逻辑运算符

3.2.3 缺失值

3.2.4 练习

3.3 使用arrange()排列行

练习

3.4 使用select()选择列

练习

3.5 使用mutate()添加新变量

3.5.1 常用创建函数

3.5.2 练习

3.6 使用summarize()进行分组摘要

3.6.1 使用管道组合多种操作

3.6.2 缺失值

3.6.3 计数

3.6.4 常用的摘要函数

3.6.5 按多个变量分组

3.6.6 取消分组

3.6.7 练习

3.7 分组新变量(和筛选器)

练习

第4章 工作流:脚本

4.1 运行代码

4.2 RStudio自动诊断

练习

第5章 探索性数据分析

5.1 简介

准备工作

5.2 问题

5.3 变动

5.3.1 对分布进行可视化表示

5.3.2 典型值

5.3.3 异常值

5.3.4 练习

5.4 缺失值

练习

5.5 相关变动

5.5.1 分类变量与连续变量

练习

5.5.2 两个分类变量

练习

5.5.3 两个连续变量

练习

5.6 模式和模型

5.7 ggplot2调用

5.8 更多学习资源

第6章 工作流:项目

6.1 什么是真实的

6.2 你的分析位于哪里

6.3 路径与目录

6.4 RStudio项目

6.5 小结

第二部分 数据处理

第7章 使用tibble实现简单数据框

7.1 简介

准备工作

7.2 创建tibble

7.3 对比tibble与data.frame

7.3.1 打印

7.3.2 取子集

7.4 与旧代码进行交互

练习

第8章 使用readr进行数据导入

8.1 简介

准备工作

8.2 入门

8.2.1 与R基础包进行比较

8.2.2 练习

8.3 解析向量

8.3.1 数值

8.3.2 字符串

8.3.3 因子

8.3.4 日期、日期时间与时间

8.3.5 练习

8.4 解析文件

8.4.1 策略

8.4.2 问题

8.4.3 其他策略

8.5 写入文件

8.6 其他类型的数据

第9章 使用dplyr处理关系数据

9.1 简介

准备工作

9.2 nycflights13

练习

9.3 键

练习

9.4 合并连接

9.4.1 理解连接

9.4.2 内连接

9.4.3 外连接

9.4.4 重复键

9.4.5 定义键列

9.4.6 练习

9.4.7 其他实现方式

9.5 筛选连接

练习

9.6 连接中的问题

9.7 集合操作

第10章 使用stringr处理字符串

10.1 简介

准备工作

10.2 字符串基础

10.2.1 字符串长度

10.2.2 字符串组合

10.2.3 字符串取子集

10.2.4 区域设置

10.2.5 练习

10.3 使用正则表达式进行模式匹配

10.3.1 基础匹配

10.3.2 练习

10.3.3 锚点

10.3.4 练习

10.3.5 字符类与字符选项

10.3.6 练习

10.3.7 重复

10.3.8 练习

10.3.9 分组与回溯引用

10.3.10 练习

10.4 工具

10.4.1 匹配检测

10.4.2 练习

10.4.3 提取匹配内容

10.4.4 练习

10.4.5 分组匹配

10.4.6 练习

10.4.7 替换匹配内容

10.4.8 练习

10.4.9 拆分

10.4.10 练习

10.4.11 定位匹配内容

10.5 其他类型的模式

练习

10.6 正则表达式的其他应用

10.7 stringi

练习

第11章 使用forcats处理因子

11.1 简介

准备工作

11.2 创建因子

11.3 综合社会调查

11.4 修改因子水平

练习

第12章 使用lubridate处理日期和时间

12.1 简介

准备工作

12.2 创建日期或时间

12.2.1 通过字符串创建

12.2.2 通过各个成分创建

12.2.3 通过其他类型数据创建

12.2.4 练习

12.3 日期时间成分

12.3.1 获取成分

12.3.2 舍入

12.3.3 设置成分

12.3.4 练习

12.4 时间间隔

12.4.1 时期

12.4.2 阶段

12.4.3 区间

12.4.4 小结

12.4.5 练习

12.5 时区

第三部分 编程

第13章 使用magrittr进行管道操作

13.1 简介

准备工作

13.2 管道的替代方式

13.2.1 中间步骤

13.2.2 重写初始对象

13.2.3 函数组合

13.2.4 使用管道

13.3 不适合使用管道的情形

13.4 magrittr中的其他工具

第14章 函数

14.1 简介

准备工作

14.2 什么时候应该使用函数

练习

14.3 人与计算机的函数

练习

14.4 条件执行

14.4.1 条件

14.4.2 多重条件

14.4.3 代码风格

14.4.4 练习

14.5 函数参数

14.5.1 选择参数名称

14.5.2 检查参数值

14.5.3 点点点(...)

14.5.4 惰性求值

14.5.5 练习

14.6 返回值

14.6.1 显式返回语句

14.6.2 使得函数支持管道

14.7 环境

第15章 向量

15.1 简介

准备工作

15.2 向量基础

15.3 重要的原子向量

15.3.1 逻辑型

15.3.2 数值型

15.3.3 字符型

15.3.4 缺失值

15.3.5 练习

15.4 使用原子向量

15.4.1 强制转换

15.4.2 检验函数

15.4.3 标量与循环规则

15.4.4 向量命名

15.4.5 向量取子集

15.4.6 练习

15.5 递归向量(列表)

15.5.1 列表可视化

15.5.2 列表取子集

15.5.3 调料列表

15.5.4 练习

15.6 特性

15.7 扩展向量

15.7.1 因子

15.7.2 日期和日期时间

15.7.3 tibble

15.7.4 练习

第16章 使用purrr实现迭代

16.1 简介

准备工作

16.2 for循环

练习

16.3 for循环的变体

16.3.1 修改现有对象

16.3.2 循环模式

16.3.3 未知的输出长度

16.3.4 未知的序列长度

16.3.5 练习

16.4 for循环与函数式编程

练习

16.5 映射函数

16.5.1 快捷方式

16.5.2 R基础包

16.5.3 练习

16.6 对操作失败的处理

16.7 多参数映射

调用不同函数

16.8 游走函数

16.9 for循环的其他模式

16.9.1 预测函数

16.9.2 归约与累计

16.9.3 练习

第四部分 模型

第17章 使用modelr实现基础模型

17.1 简介

准备工作

17.2 一个简单模型

练习

17.3 模型可视化

17.3.1 预测

17.3.2 残差

17.3.3 练习

17.4 公式和模型族

17.4.1 分类变量

17.4.2 交互项(连续变量与分类变量)

17.4.3 交互项(两个连续变量)

17.4.4 变量转换

17.4.5 练习

17.5 缺失值

17.6 其他模型族

第18章 模型构建

18.1 简介

准备工作

18.2 为什么质量差的钻石更贵

18.2.1 价格与重量

18.2.2 一个更复杂的模型

18.2.3 练习

18.3 哪些因素影响了每日航班数量

18.3.1 一周中的每一天

18.3.2 季节性星期六效应

18.3.3 计算出的变量

18.3.4 年度时间:另一种方法

18.3.5 练习

18.4 学习更多模型知识

第19章 使用purrr和broom处理多个模型

19.1 简介

准备工作

19.2 列表列

19.3 创建列表列

19.3.1 使用嵌套

19.3.2 使用向量化函数

19.3.3 使用多值摘要

19.3.4 使用命名列表

19.3.5 练习

19.4 简化列表列

19.4.1 列表转换为向量

19.4.2 嵌套还原

19.4.3 练习

19.5 使用broom生成整洁数据

第五部分 沟通

第20章 R Markdown

20.1 简介

准备工作

20.2 R Markdown基础

练习

20.3 使用Markdown格式化文本

练习

20.4 代码段

20.4.1 代码段名称

20.4.2 代码段选项

20.4.3 表格

20.4.4 缓存

20.4.5 全局选项

20.4.6 内联代码

20.4.7 练习

20.5 排错

20.6 YAML文件头

20.6.1 文档参数

20.6.2 参考文献与引用

20.7 更多学习资源

第21章 使用ggplot2进行图形化沟通

21.1 简介

准备工作

21.2 标签

练习

21.3 注释

练习

21.4 标度

21.4.1 坐标轴刻度与图例项目

21.4.2 图例布局

21.4.3 标度替换

21.4.4 练习

21.5 缩放

21.6 主题

21.7 保存图形

21.7.1 图形大小

21.7.2 其他重要选项

21.8 更多学习资源

第22章 R Markdown输出类型

22.1 简介

22.2 输出选项

22.3 文档

22.4 笔记本

22.5 演示文稿

22.6 仪表盘

22.7 交互元素

22.7.1 htmlwidgets

22.7.2 Shiny

22.8 网站

22.9 其他类型

22.10 更多学习资源

第23章 R Markdown工作流

作者简介

封面简介

看完了

累计评论(1条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部