英文名 | Scala Essential Training for Data Science |
课程来源 | Lynda.com |
讲师 | Dan Sullivan |
课程ID | 559182 |
课程时长 | 1.9小时 |
下载所需积分 | 50 |
解压密码 | 课程压缩文件如果需要解压密码,则密码一律为 www.zwsub.com |
所属类别 | 全部 网络管理 |
了解如何利用Scala(在您的数据科学工作中将面向对象设计与函数式编程相结合的流行语言)
在本课程中,了解对数据科学家最有用的Scala功能,包括自定义函数,并行处理以及使用Scala编写Spark
Dan Sullivan开始介绍非Scala程序员
接下来,他描述了如何使用Scala中的SQL - 一种对数据科学家来说特别有用的概念,因为他们经常需要从关系数据库中提取数据
然后,他介绍了Scala中的并行处理结构,共享对中型数据集有用的技术,这些数据集可以在具有多个内核的单个服务器上进行分析
Dan还专注于使用Scala和Spark,这是一个分布式处理平台
他首先介绍了如何使用弹性分布式数据集(RDD) - 一种基本的Spark数据结构 - 然后解释了如何将Scala与Spark DataFrames一起使用,这是一种专为分析处理而设计的新型数据结构
他总结了使用Scala进行数据科学的优势,总结了本课程
主题包括:
Scala对数据科学的优势
Scala数据类型
Scala数组,向量和范围
Scala中的并行处理
在并行集合上映射函数
何时何地不使用并行集合
在Scala中使用SQL
Scala和Spark RDD
Scala和Spark DataFrames
创建DataFrame
- 嗨,我是Dan Sullivan,在本课程中,我将描述如何将Scala用于数据科学。
我们首先回顾一下Scala数据类型和表达式的基础知识。
我们将介绍如何使用数组,集合和映射等集合。
我们将讨论Scala的函数式编程功能在处理集合和分析数据方面的优势。
我们还将使用并行集合,这使我们可以轻松实现并行处理并利用多核处理器。
接下来,我们将回顾使用JDBC驱动程序和SQL查询来处理关系数据库的基础知识。
我们还将探讨如何将Scala与Spark结合使用,Spark是一种广泛用于大数据分析和数据科学的流行分布式处理系统。
让我们开始学习如何将Scala用于数据科学。