14.5.15

ITAS Workshop Goals


  • open a Spark Shell
    • 这个没什么,就是把Spark下载下来,解压,然后就可以打开Spark shell。有两个shell,一个是python的,另一个是scala的。
  • develop Spark apps for typical use cases
    • 一会看看有什么typical use cases。
      • 在hadoop学习时,最常用的例子是word count,那么简单的基于频率的sum是其中一个例子,如果再推广,那么可独立的统计是一种应用
      • 再参考数据库查询,各种条件查询,汇总应该也是一类
  • tour of the Spark API
    • 这个不错,可以当学习题纲
  • explore data sets loaded from HDFS, etc.
    • 注意到“loaded from HDFS”——比较好奇两者之间的关系。我估计spark应该能直接应用hdfs上的数据。然而怎样在cluster上用好整个cluster的运算能力,这是一个问题。如果是基于yarn建立的分布式运算,可以从底层进行认识,这个有意思,而且难度也不大。基本上是由Resource manager进行整体资源的管理和定位,再由本地的node manager进行具体的控制,而application master这部分我还是一知半解,需要进一步学习。
    • Spark的特点是建立RDD,如果没有设置运算中的cache的话,所有的查询结果都会从最原始的数据开始,一步步的算过来。它比map/reduce有优势的地方是map/reduce的每一步都涉及到大量的i/o,而spark似乎只是在内存中进行计算 —— 它是否完全放弃disk?我有点怀疑。这个可以在后面的学习中了解到。
  • review of Spark SQL, Spark Streaming, MLlib
    • Spark SQL应该不难,死记一些常用的,和SQL 92对比学习就可以了。
    • Spark Streaming一直看到但不知道是什么。Hadoop Streaming基本上是没什么意思的东西,其实就是把hdfs的数据通过流的样式发送给python等不能直接该问hadoop/hdfs的语言。希望Spark Streaming不是这样的东西。
    • MLlib —— 我需要学习吧?
  • follow-up courses and certification
    • 嗯嗯
  • developer community resources, events, etc.
    • 有点意思,可以了解一下。
  • return to workplace and demo use of Spark!
    • 啊哈

No comments: