Apache Spark のお試し環境を作る

Posted on 火 21 5月 2019 in 環境構築 • Tagged with 並列分散処理, Spark, Hadoop, Docker

Spark は spark-shell という対話式のお試し環境がついていて,かなりちょっと実行してみる系がやりやすそう.なので,そのための環境を Docker で作った.その備忘録.

なお, https://github.com/Semantive/docker-spark を参考にさせてもらった.と言っても,最終的にかなり似通ったものになってしまったが.

Docker の初期設定を書く

基本的な構成は,

  • Dockerfile : Hadoop と …

Continue reading

Apache Spark についての覚書

Posted on 日 12 5月 2019 in フレームワーク • Tagged with 並列分散処理, Spark, Hadoop, MapReduce, グラフ

ちょっと興味があったので, Apache Spark 関連についていくつか調べたことメモる.なお,僕は最近まで Apache Spark は MapReduce してると思ってたぐらいだし, Hadoop も Spark も触ったことない人間なんで,完全に信憑性はないです.そこはよろしく.

分散処理の抽象

Apache Spark 周りってほぼ歴史の話なんで,まずはそこから. Google の MapReduce …


Continue reading