欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 计算机教材 > 干净的数据：数据清洗入门与实践

干净的数据：数据清洗入门与实践

| | 手机阅读

扫描下载当当云阅读App

干净的数据：数据清洗入门与实践电子书

理解数据清洗在整个数据科学过程中的作用掌握数据清洗的基础知识，包括文件清洗、数据类型、字符编码等发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能学会常见数据格式的相互转换，如JSON、CSV和一些特殊用途的格式采用三种策略来解析和清洗HTML文件中的数据揭PDF文档的秘密，提取需要的数据借助一系列解决方案来清洗存放在关系型数据库里的坏数据

售价：¥

纸质售价：¥36.70购买纸书

222人正在读 | 0人评论

6.2

作者：斯夸尔（Megan Squire）

出版社：人民邮电出版社

出版时间：2016-05-01

字数：17.6万

所属分类：科技 > 计算机/网络 > 计算机教材

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书主要内容包括：数据清洗在数据科学领域中的重要作用，文件格式、数据类型、字符编码的基本概念，组织和处理数据的电子表格与文本编辑器，各种格式数据的转换方法，解析和清洗网页上的HTML 文件的三种策略，提取和清洗PDF 文件中数据的方法，检测和清除RDBMS 中的坏数据的解决方案，以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。<br/>【推荐语】<br/>理解数据清洗在整个数据科学过程中的作用掌握数据清洗的基础知识，包括文件清洗、数据类型、字符编码等发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能学会常见数据格式的相互转换，如JSON、CSV和一些特殊用途的格式采用三种策略来解析和清洗HTML文件中的数据揭PDF文档的秘密，提取需要的数据借助一系列解决方案来清洗存放在关系型数据库里的坏数据创建自己的干净数据集，为其包、添加授权许可并与他人共享使用书中的工具以及Twitter和Stack Overflow数据，完成两个真实的项目<br/>【作者】<br/>Megan Squire 依隆大学计算科学专业教授，主要教授数据库系统、Web发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者，致力于收集与分析数据，以便研究免费软件、自由软件和源软件的发。<br/>

目录展开

前言

本书内容

本书的目标读者

本书排版约定

读者反馈

客户支持

彩色图片下载

勘误表

问题反馈

第1章为什么需要清洗数据

1.1 新视角

1.2 数据科学过程

1.3 传达数据清洗工作的内容

1.4 数据清洗环境

1.5 入门示例

1.6 小结

第2章基础知识——格式、类型与编码

2.1 文件格式

2.2 归档与压缩

2.3 数据类型、空值与编码

2.4 小结

第3章数据清洗的老黄牛——电子表格和文本编辑器

3.1 电子表格中的数据清洗

3.2 文本编辑器里的数据清洗

3.3 示例项目

3.4 小结

第4章讲通用语言——数据转换

4.1 基于工具的快速转换

4.2 使用PHP实现数据转换

4.3 使用Python实现数据转换

4.4 示例项目

4.5 小结

第5章收集并清洗来自网络的数据

5.1 理解HTML页面结构

5.2 方法一：Python和正则表达式

5.3 方法二：Python和BeautifulSoup

5.4 方法三：Chrome Scraper

5.5 示例项目：从电子邮件和论坛中抽取数据

5.6 小结

第6章清洗PDF文件中的数据

6.1 为什么PDF文件很难清洗

6.2 简单方案——复制

6.3 第二种技术——pdfMiner

6.4 第三种技术——Tabula

6.5 所有尝试都失败之后——第四种技术

6.6 小结

第7章 RDBMS清洗技术

7.1 准备

7.2 第一步：下载并检查Sentiment140

7.3 第二步：清洗要导入的数据

7.4 第三步：把数据导入MySQL

7.5 第四步：清洗&字符

7.6 第五步：清洗其他未知字符

7.7 第六步：清洗日期

7.8 第七步：分离用户提及、标签和URL

7.9 第八步：清洗查询表

7.10 第九步：记录操作步骤

7.11 小结

第8章数据分享的最佳实践

8.1 准备干净的数据包

8.2 为数据编写文档

8.3 为数据设置使用条款与许可协议

8.4 数据发布

8.5 小结

第9章 Stack Overflow项目

9.1 第一步：关于Stack Overflow的问题

9.2 第二步：收集并存储Stack Overflow数据

9.3 第三步：数据清洗

9.4 第四步：数据分析

9.5 第五步：数据可视化

9.6 第六步：问题解析

9.7 从测试表转向完整数据表

9.8 小结

第10章 Twitter项目

10.1 第一步：关于推文归档数据的问题

10.2 第二步：收集数据

10.3 第三步：数据清洗

10.4 第四步：简单的数据分析

10.5 第五步：数据可视化

10.6 第六步：问题解析

10.7 把处理过程应用到全数据量（非测试用）数据表

10.8 小结

看完了

累计评论(0条) 2个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

产品经理方法论——构建完整的产品知识体系(第2版)

产品经理方法论——构建完整的产品知识体系(第2版) ￥57.54

赵丹阳著

￥57.54

02

Power BI数据处理与分析(微课版)

Power BI数据处理与分析(微课版) ￥38.80

黄达明张萍编著

￥38.80

03

大数据通识教程(微课版)

大数据通识教程(微课版) ￥38.80

杨武剑史麒豪主编

￥38.80

04

全国计算机等级考试上机考试题库二级Python

全国计算机等级考试上机考试题库二级Python ￥37.76

策未来编著

￥37.76

05

统计思维：程序员数学之概率统计(第2版)

统计思维：程序员数学之概率统计(第2版) ￥19.99

唐尼（Allen B. Downey）

￥19.99

06

大数据分析处理(慕课版)

大数据分析处理(慕课版) ￥45.00

郭永洪,贺萌主编

￥45.00

07

计算机网络基础(第5版)

计算机网络基础(第5版) ￥7.00

段标,尹晓勇

￥7.00

08

分布式系统开发实战

分布式系统开发实战￥44.70

柳伟卫编著

￥44.70

09

Vue.js 前端开发快速入门与专业应用

Vue.js 前端开发快速入门与专业应用￥20.25

陈陆扬

￥20.25

10

计算机网络教程

计算机网络教程￥38.80

谢钧谢希仁编著

￥38.80

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当读书5.0问答

意见反馈

Copyright (C) 当当网 2004-2021, All Rights Reserved

京ICP备17043473号-1|出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书