万本电子书0元读

万本电子书0元读

顶部广告

R语言**能实战:更多数据和更快速度电子书

1.用更行之有效的data.table替代繁琐的iris处理繁琐数据,提高数据处理速度; 2.帮助读者用内存不大的个人笔记本处理大型数据集; 3.提供配套代码文件,方便读者学习练习;

售       价:¥

纸质售价:¥78.30购买纸书

16人正在读 | 0人评论 6.2

作       者:刘艺非 著

出  版  社:人民邮电出版社有限公司

出版时间:2022-03-01

字       数:28.7万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书将目标设定为“在一台笔记本电脑上使用R语言处理较大的数据集”,从单机大型数据集处理策略、提升计算性能、其他工具和技巧3个方面介绍了使用R语言处理数据时的实用方法。包括数据集占用空间、善用data.table处理数据、数据分块处理、提升硬盘资源使用效率、并行编程技术、提升机器学习性能,以及其他资源管理和提高性能的实用策略。帮助读者处理较大的数据集、挖掘R的发潜能。 本书适合有一定R语言基础的读者阅读,也适合作为R语言实践工具书。<br/>【推荐语】<br/>1.使用data.table、iotools、ff、disk.frame等实用工具在内存有限的笔记本电脑上处理大型数据集; 2.使用parallel、future、foreach、tidymodels、mlr3等实用工具为数据处理及建模工作流提速; 3.使用reticulate实现R语言和Python的友好协助; 4.提供配套代码文件,方便读者学习练习。<br/>【作者】<br/>刘艺非,中山大学社会学硕士,8年数据科学相关工作经历,曾在公益慈善、房地产、电信运营商等行业担任过数据分析师及数据挖掘工程师。在工作过程中对R语言、Python、SAS、STATA、SPSS等主流数据科学工具均有使用经验和心得。<br/>
目录展开

版 权

内容提要

前言:不是所有数据集都像iris

资源与支持

第1章 简单直接的策略——减少数据占用空间

1.1 保留必要的数据

1.1.1 保留必要的列

1.1.2 保留必要的行

1.2 设置合适的数据类型

1.3 本章小结

第2章 基于内存的“快工具”——data.table

2.1 数据读入操作

2.1.1 读入单个数据

2.1.2 读入多个数据

2.2 数据基本行列操作

2.3 数据合并、分组汇总操作

2.4 dtplyr:data.table和dplyr的结合

2.5 本章小结

第3章 逐块击破——数据分块处理

3.1 使用iotools库实现分块处理

3.2 使用readr库实现分块处理

3.3 本章小结

第4章 突破内存限制——利用硬盘资源

4.1 实现R与关系型数据库管理系统协作

4.2 使用bigmemory体系处理大型矩阵

4.3 使用ff体系处理大型数据框

4.3.1 ff体系基本数据操作

4.3.2 ff体系与关系型数据库管理系统协作

4.4 新一代工具disk.frame

4.5 本章小结

第5章 友好的可视化工具——trelliscope

5.1 实现交互式大型分面可视化

5.2 本章小结

第6章 让R更快——并行编程

6.1 R并行编程技术概览

6.2 实现并行计算的第三方库

6.2.1 snow库

6.2.2 multicore库

6.2.3 parallel库

6.2.4 future库

6.2.5 foreach库

6.3 网络数据抓取案例

6.3.1 利用foreach并行循环抓取

6.3.2 结合tidyverse和future的数据抓取

6.3.3 文本分词及整洁化处理

6.4 本章小结

第7章 提升机器学习效能——R的基础策略

7.1 使用foreach实现并行循环

7.2 使用更优化的第三方库

7.3 使用caret框架结合并行计算

7.4 本章小结

第8章 整洁流畅的框架——tidymodels

8.1 建立简单工作流

8.2 工作流比较

8.3 工作流超参数调优

8.4 多工作流同时调优

8.5 本章小结

第9章 灵活强大的框架——mlr3

9.1 数据及模型的创建

9.2 利用future支持mlr3计算任务

9.3 嵌套重抽样过程

9.4 以图管理机器学习工作流

9.5 本章小结

第10章 强强联合——利用reticulate库借力Python

10.1 配置Python环境

10.2 在R中用Python代码编程

10.3 以R编程方式使用Python

10.4 本章小结

第11章 简单高效的自动机器学习工具——H2O

11.1 H2O基本使用方法

11.2 H2O自动机器学习

11.3 本章小结

第12章 善其事,利其器——其他策略和工具

12.1 内存及硬盘资源管理类策略

12.1.1 读取压缩文件

12.1.2 以rds格式保存中间结果

12.1.3 垃圾回收机制

12.1.4 R的内存管理工具

12.1.5 使用pryr库

12.2 计算效能提升类策略

12.2.1 函数编译

12.2.2 使用benchmarkme库

12.3 使用R的增强发行版本

12.3.1 Microsoft R Open

12.3.2 Microsoft R Client

12.4 其他数据科学工具

12.4.1 SAS

12.4.2 Python

12.5 本章小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部