使用Python和Cloudera开发Spark应用程序 中文字幕

课程信息
英文名Developing Spark Applications with Python & Cloudera
课程来源Pluralsight.com
讲师Xavier Morera
课程ID9003682
课程时长5.7小时
下载所需积分50
所属类别Python

处理大规模数据集的核心是对Apache Spark和Hadoop等大数据平台的全面了解

在本课程中,使用Python和Cloudera开发Spark应用程序,您将学习如何以您以前认为无法触及的规模处理数据

首先,您将了解Spark的所有技术细节

接下来,您将探索RDD API,这是Spark的原始核心抽象

最后,你会发现如何使用Spark SQL和DataFrame更加精通

完成本课程后,您将掌握Python和Cloudera的Apache Spark基础知识,这将有助于您开发大型数据应用程序,使您能够高效地处理大数据 高性能的方式

您好,欢迎来到这个Pluralsight课程,使用Python和Cloudera开发Spark应用程序。

我是Xavier Morera,我帮助开发人员了解企业搜索和大数据。

您是否知道Spark作为大数据处理引擎至少比Hadoop或MapReduce快10到100倍,而且最重要的是,它更容易学习,广泛采用并用于各种应用程序?

在本课程中,我们将学习如何使用非常流行且易于使用的语言Python创建Spark应用程序,并且由于基础结构非常重要,我们将利用第一个和最广泛使用的Hadoop发行版, CDH,代表Cloudera的发行版,包括Hadoop。

我们将介绍的一些主要主题包括使用Spark设置环境和一些有趣的数据,即CDH和StackOverflow,了解Spark,概述以及使用Spark获取技术。

然后我们将学习如何使用Spark的原始核心抽象,RDD或弹性分布式数据集。

接下来我们将介绍数据框架和Spark SQL,这有助于我们更快地熟练使用Spark。

最后,我们将高层讨论数据集,这些数据集不能与Python一起使用,因为它是动态类型的,我们还将介绍一些相关主题。

在本课程结束时,您将能够使用Python和Cloudera创建Spark应用程序,但在开始课程之前,您应该熟悉编程,最好是使用Python,但我还要包含一个小型的复习模块,以防您需要一个快速入门。

此外,您将需要一个群集,但我将解释如何以多种不同方式设置您的基础架构。

我希望你能和我一起在Pluralsight上用Python和Cloudera课程学习Spark开发Spark应用程序。

中文课程网 提供全网最全,中文翻译质量最高的国外课程视频资源(Lynda / Pluralsight)

请先登陆 如果还没有账号,请先注册