由斯夸尔著的《干净的数据(数据清洗入门与实践)/图灵程序设计丛书》主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML文件的三种策略,提取和清洗PDF文件中数据的方法,检测和清除RDBMS中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twirer和Stack Overflow的数据.本书适合任何水平的数据科学家以及对数据清理感兴趣的读者阅读。
阅读更多