Travel of Software Developer: ITAS Workshop Goals

14.5.15

ITAS Workshop Goals

open a Spark Shell

这个没什么，就是把Spark下载下来，解压，然后就可以打开Spark shell。有两个shell，一个是python的，另一个是scala的。

develop Spark apps for typical use cases

一会看看有什么typical use cases。

在hadoop学习时，最常用的例子是word count，那么简单的基于频率的sum是其中一个例子，如果再推广，那么可独立的统计是一种应用
再参考数据库查询，各种条件查询，汇总应该也是一类

tour of the Spark API

这个不错，可以当学习题纲

explore data sets loaded from HDFS, etc.

注意到“loaded from HDFS”——比较好奇两者之间的关系。我估计spark应该能直接应用hdfs上的数据。然而怎样在cluster上用好整个cluster的运算能力，这是一个问题。如果是基于yarn建立的分布式运算，可以从底层进行认识，这个有意思，而且难度也不大。基本上是由Resource manager进行整体资源的管理和定位，再由本地的node manager进行具体的控制，而application master这部分我还是一知半解，需要进一步学习。
Spark的特点是建立RDD，如果没有设置运算中的cache的话，所有的查询结果都会从最原始的数据开始，一步步的算过来。它比map/reduce有优势的地方是map/reduce的每一步都涉及到大量的i/o，而spark似乎只是在内存中进行计算　——　它是否完全放弃disk？我有点怀疑。这个可以在后面的学习中了解到。

review of Spark SQL, Spark Streaming, MLlib

Spark SQL应该不难，死记一些常用的，和SQL 92对比学习就可以了。
Spark Streaming一直看到但不知道是什么。Hadoop Streaming基本上是没什么意思的东西，其实就是把hdfs的数据通过流的样式发送给python等不能直接该问hadoop/hdfs的语言。希望Spark Streaming不是这样的东西。
MLlib　——　我需要学习吧？

follow-up courses and certification

嗯嗯

developer community resources, events, etc.

有点意思，可以了解一下。

return to workplace and demo use of Spark!

啊哈

No comments:

Subscribe to: Post Comments (Atom)