Apache Spark基础知识 中文字幕

课程信息
英文名Apache Spark Fundamentals
课程来源Pluralsight.com
讲师Justin Pihony
课程ID9001398
课程时长4.5小时
下载所需积分50
所属类别

我们的互联世界正在创造数据的速度超过摩尔定律所能跟上的速度,因此我们必须在决定如何分析数据时变得更聪明

以前,我们有Hadoop的MapReduce框架进行批量处理,但现代大数据处理需求超出了这个框架

这就是Apache Spark所采用的方式,其速度比Hadoop快10-100倍,并在大规模排序中创造了世界纪录

Spark的一般抽象意味着它可以扩展到简单的批处理之外,使其具备诸如超快速,迭代算法和恰好一次流式语义之类的功能

在本课程中,您将从创建Wikipedia分析应用程序开始,从创建历史开始学习Spark,作为学习各种核心API的手段之一

这些核心知识将更容易查看Spark的其他库,例如流和SQL API

最后,您将学习如何避免一些经常遇到的Spark粗糙边缘

您将离开这个课程,带上能够创建您自己的性能最大化的Spark应用程序的工具带

嗨,我的名字是Justin Pihony。

欢迎来到这个关于快速且易于使用的框架席卷大数据世界Apache Spark的课程。

为什么我们甚至需要一个处理大数据的框架?

我们有grep或其他一些自定义脚本工具来处理我们的数据,对吧?

它很简单,只降低了一台机器所需的复杂性。

嗯,这可能是个问题。

我们如何处理不断增长的数据,这些数据已成为大数据,甚至逻辑上可能不适合一台机器的数据?

或者即使它确实如此,随着数据大小的增加,处理时间开始减慢。

好吧,好吧,你说这是MapReduce构建的问题,用于征服,并行处理整个机器的处理,将处理转移到数据,通过抛弃大处理能力解决大数据问题。

可以,当然。

与前面提到的单机算法相比,这加快了大数据的处理速度,是的,这在很长一段时间内都运行良好,但它有很多困难。

算法的复杂性,光盘瓶颈,以及不仅仅是批量执行,仅举几例。

Spark来救援,它使用了许多优化,允许我们对一小部分资源执行相同的Hadoop计算,同时仍然以更快的速度运行另一个数量级。

实际上,在2014年底,Spark正式击败了现有的磁盘文件排序基准测试,比前一个标记快三倍,使用的机器数量减少了约10倍。

更进一步,Spark甚至针对1 PB的数据运行,并且保持恒定的速率,能够摧毁任何以前的那种幅度。

但等等,这不是全部。

处理时间和功率并不是Spark收缩的唯一因素。

使用Hadoop,大数据也意味着大代码,这个简单的单词计数示例显示,但大数据并不意味着这个笨重的野兽,这可以通过这个等效的Spark代码看出。

即使在代码本身内,主逻辑也可以在这四行中辨别出来,而MapReduced逻辑就在这里,在这里,在这里,整个代码混杂在锅炉板之间。

这些原因本身应该足以说服你使用Spark,而我们只是在表面上划掉了。

正如我们所看到的,Spark的广义抽象导致更小的代码,这增加了可读性,同样的特性最终允许更具表现力的代码,我们还讨论了Spark有多种机制可以让它加速 竞争。

即便是我们早期的新闻公报也只是针对磁盘的计算,而Spark最初的波浪作为一种计算引擎,可以利用缓存的数据和内存,利用速度带来并超越竞争对手。

我们将在整个课程中看到这种以及其他方式的Spark速度。

回到广泛阻碍所获得的收益,可测试性与您可能编写的任何其他代码一样微不足道。

这是因为您可以编写代码,就像它没有分发一样,只是在部署时担心这些事情。

从部署中分离代码也意味着您现在可以直接与本地计算机上的数据进行交互,即时实时地计算出您的算法。

这使您可以从原型开始,将其构建到生产代码中,并根据处理需要进行扩展和扩展。

这甚至意味着您可以从本地样本集中调试大多数问题,快速无缝地增加代码,并且任何有价值的大数据处理应该具有内置于模型中的容错,正如Spark从其构思中所做的那样。

最后,但绝对不是最不重要的是,无论您是处理批量数据还是流数据,通过图形或机器学习算法推动它,Spark都能统一不同类型的大数据需求,Spark工具带有适合您的东西,以及不同的方法 可视化所述数据。

好了,既然您已经更好地了解了我们为什么需要Spark,那么我们快速回顾一下课程结构。

在第一个模块中,我们将继续介绍Spark的基础知识,并迅速成为最大的大数据开源项目,然后我们将深入到核心框架,为编写自己的大数据奠定坚实的基础 程序。

我们将通过查看集群管理器以及Spark可以部署的多种方式来了解这些内容,这将有助于正确讨论如何最好地维护Spark程序和部署。

这将为您的第一个完整的Spark应用程序提供坚实的支持。

那时,您将准备好了解Spark的下一级API,基于核心构建的库,Spark SQL,Spark Streaming,MLlib和GraphX,并完成课程,我们将学习 关于Spark应用程序中经常出现的一些问题以及如何处理它们,甚至领先于它们,最后一瞥Spark的辉煌未来。

关于你已经在的模块,我们将回顾Spark与Hadoop的比较,遍历导致Spark成为如此大数据强国的历史。

然后,我们将回顾如何将Spark放到您的机器上并使用大数据的Hello World进行快速演示,计算单词,最后,我们将通过为其余部分做好准备来完成本节。 课程和我们将要完成的总体项目。

中文课程网 提供全网最全,中文翻译质量最高的国外课程视频资源(Lynda / Pluralsight)

相关课程

请先登陆 如果还没有账号,请先注册