วิธีการติดตั้ง Apache Spark ด้วย Docker

ในบทความนี้จะกล่างถึงใช้การสร้าง environment สำหรับทดสอบโปรแกรม Spark บน Hadoop โดยใช้ Docker

ก่อนจะเริ่มมาทำความรู้จักกับสิ่งที่ใช้ในบทความนี้ก่อนดีกว่า

Apache Spark

คือ Framework ในการเขียนโปรแกรมเพื่อประมวลผลแบบ MapReduced โดยเราเคยกล่าวถึงในบล็อค How to Installation Apache Spark with Cloudera VM ด้วย

Hadoop

คือ ซอฟท์แวร์ประเภท open source ที่จัดทำขึ้นเพื่อเป็นแพลตฟอร์มในการจัดเก็บข้อมูล ซึ่งมีกรอบการทำงานเพื่อใช้ในการจัดเก็บข้อมูลและประมวลผลข้อมูลที่มีขนาดใหญ่มากๆ ที่เราเรียกกันว่า Big Data

Docker

คือ engine ตัวหนึ่งที่มีการทำงานในลักษณะจำลองสภาพแวดล้อมขึ้นมาบนเครื่อง server เพื่อใช้ในการ run service ที่ต้องการ มีการทำงานคล้ายคลึงกับ Virtual Machine

ซึ่งตัว Docker Image ที่ใช้จะเป็น bananacoding/spark_hadoop

Read more  

วิธีการติดตั้ง Apache Spark ด้วย Cloudera VM

Apache Spark คือ Framework ในการเขียนโปรแกรมเพื่อประมวลผลแบบ MapReduce

ในบทความนี้จะกล่าวถึงการสร้าง environment สำหรับทดสอบโปรแกรม Spark โดยใช้ Cloudera Quickstart

Cloudera Quickstart คือ image ของ Virtual Machine โดยมีให้ทั้ง VirtualBox, VMWare และ Docker ในที่นี้จะแสดงการติดตั้งโดยใช้ Docker

Read more  

Development Workflow using Docker and Docker Compose

Docker Installation

First, we need to install Docker and Docker Compose.

Docker is built on top of Linux container. So, docker can’t run natively on OSX. It’s required a virtual machine for running in OSX. Thanks for Boot2Docker, it’s a Linux virtual machine made for running docker on OSX.

So, there is different between running docker on Linux and OSX.
When running docker on Linux, your machine is both the localhost and the Docker host.

dev work flow

Read more