- open a Spark Shell
- 这个没什么,就是把Spark下载下来,解压,然后就可以打开Spark shell。有两个shell,一个是python的,另一个是scala的。
- develop Spark apps for typical use cases
- 一会看看有什么typical use cases。
- 在hadoop学习时,最常用的例子是word count,那么简单的基于频率的sum是其中一个例子,如果再推广,那么可独立的统计是一种应用
- 再参考数据库查询,各种条件查询,汇总应该也是一类
- tour of the Spark API
- 这个不错,可以当学习题纲
- explore data sets loaded from HDFS, etc.
- 注意到“loaded from HDFS”——比较好奇两者之间的关系。我估计spark应该能直接应用hdfs上的数据。然而怎样在cluster上用好整个cluster的运算能力,这是一个问题。如果是基于yarn建立的分布式运算,可以从底层进行认识,这个有意思,而且难度也不大。基本上是由Resource manager进行整体资源的管理和定位,再由本地的node manager进行具体的控制,而application master这部分我还是一知半解,需要进一步学习。
- Spark的特点是建立RDD,如果没有设置运算中的cache的话,所有的查询结果都会从最原始的数据开始,一步步的算过来。它比map/reduce有优势的地方是map/reduce的每一步都涉及到大量的i/o,而spark似乎只是在内存中进行计算 —— 它是否完全放弃disk?我有点怀疑。这个可以在后面的学习中了解到。
- review of Spark SQL, Spark Streaming, MLlib
- Spark SQL应该不难,死记一些常用的,和SQL 92对比学习就可以了。
- Spark Streaming一直看到但不知道是什么。Hadoop Streaming基本上是没什么意思的东西,其实就是把hdfs的数据通过流的样式发送给python等不能直接该问hadoop/hdfs的语言。希望Spark Streaming不是这样的东西。
- MLlib —— 我需要学习吧?
- follow-up courses and certification
- 嗯嗯
- developer community resources, events, etc.
- 有点意思,可以了解一下。
- return to workplace and demo use of Spark!
- 啊哈
14.5.15
ITAS Workshop Goals
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment