本书描述了减少数据基础设施成本和开发时间的技巧,适用于软件工程师、数据工程师、开发者和系统管理员。你不仅可以从中获得关于Spark的全面理解,也将学会如何让它运转自如。在本书中你将发现:* Spark SQL的新接口如何在SQL的RDD数据结构上改善性能。* Core Spark和Spark SQL之间的数据拼接选择。* 充分发挥标准RDD转换功能的技巧。* 如何处理Spark的键/值对范式的相关性能问题。* 编写高性能Spark代码,不使用Scala或JVM。* 如何在应用建议的改进措施时测试功能和性能。* 使用Spark MLlib和Spark ML机器学习库。* Spark的流组件和外部社区软件包。
阅读更多