Posts

Showing posts with the label Hadoop

Teknologi Big Data Fundamental: Kelebihan Hadoop versi 2 dibanding Hadoop versi 1

Image
Apa itu Apache Hadoop Apache Hadoop adalah software framework yang memungkinkan pemrosesan data berukuran besar secara terdistribusi dengan melibatkan berkluster-kluster komputer. Hadoop didesain untuk dapat bekerja secara efektif baik dalam skala terkecil yang hanya melibatkan satu server hingga skala besar yang memperkerjakan ribuan komputer dimana masing-masing komputer tersebut memfasilitasi komputasi dan penyimpanan data secara lokal. Untuk menjamin High Availability, Hadoop tidak menggantungkannya pada hardware yang digunakan, tetapi framework Hadoop itu sendiri telah didesain untuk dapat mendeteksi dan menangani gagal fungsi (failure) pada level/layer aplikasi. Framework Hadoop terdiri atas 4 komponen (modul) utama, sebagai berikut: 1. Hadoop Distributed File System (HDFS), adalah file-system terdistribusi yang memfasilitasi penyimpanan data secara terdistribusi dalam kluster komputer. 2. Hadoop MapReduce, adalah sebuah sistem yang ditujukan untuk memproses data berukur...

Contoh Kasus Penggunaan Hadoop dan HBase untuk Memproses Real World Data: Visualisasi dan Klasifikasi Pergerakan Kapal-kapal Kargo di Alur Laut Pelabuhan Long Beach dan Los Angeles

Image
Penjelasan tentang apa itu HBase telah dibahas pada artikel HBase: Hyper NoSQL Database . Untuk pembahasan yang lebih lugas dan komprehensif disertai ilustrasi yang lebih memudahkan pemahaman, dapat dibaca di buku "Teknologi Big Data: Sistem Canggih dibalikGoogle, Yahoo!, Facebook, IBM" . Tidak hanya tentang HBase, buku ini tentu juga membahas teknologi Big Data lainnya seperti Google File System , Google MapReduce , Google Bigtable serta Hadoop yang terdiri atas Hadoop Distributed File System (HDFS) dan Hadoop MapReduce . Pembahasan diawali dengan penjelasan tentang definisi Big Data yang disertai dengan beberapa contoh aplikasi Big Data dalam dunia bisnis modern , lalu diakhiri dengan tutorial untuk menjalankan Hadoop dan HBase secara standalone maupun sebagai distributed system. Bagi mereka yang baru mengenal Hadoop maupun HBase pasti menginginkan paling tidak satu contoh kasus penggunaan Hadoop maupun HBase dalam memproses data sungguhan dari dunia nyata. Oleh karen...

Import data from HDFS to HBase

There are 2 ways to directly import data from HDFS to HBase 1. By Running MapReduce Program on Eclipse. 1) Make a new Java Project whose classpath is as follow: <? xml version = "1.0" encoding = "UTF-8" ?> < classpath >   < classpathentry kind = "src" path = "src" />   < classpathentry kind = "con" path = "org.eclipse.jdt.launching.JRE_CONTAINER" />   < classpathentry kind = "lib" path = "/home/hadoop/hbase-0.94.5/hbase-0.94.5.jar" />   < classpathentry kind = "lib" path = "/home/hadoop/hbase-0.94.5/lib/commons-cli-1.2.jar" />   < classpathentry kind = "lib" path = "/home/hadoop/hbase-0.94.5/lib/commons-logging-1.1.1.jar" />   < classpathentry kind = "lib" path = "/home/hadoop/hbase-0.94.5/lib/commons-configuration-1.6.jar" />   < classpathentry kind = ...

Langkah-langkah Set Up HBase

Image
Pada artikel " HBase:Hyper NoSQL Database " telah saya bahas dengan cukup detail tentang apa itu HBase mulai dari definisi, struktur data, arsitektur hingga keunggulan yang dimilikinya. Kali ini tiba saatnya untuk membahas step by step set up HBase untuk bisa memakai HBase dan merasakan performanya secara langsung. 1. Hal-hal yang harus disiapkan terlebih dahulu               1) PC dengan OS Linux (kali ini kita pakai CentOS-6.2 64 Bit)               2) Hadoop-1.0.4 (Silakan pilih salah satu mode Hadoop sbb)                  - InstallHadoop Mode Pseudo Distributed                  - Installhadoop Mode Fully Distributed              ...

Menjalankan Hadoop MapReduce Mode Fully Distributed

Pada artikel sebelumnya, MenjalankanAplikasi Hadoop MapReduce dengan Windows , telah dijelaskan secara detail langkah demi langkah untuk menginstal dan menjalankan Hadoop dengan mode standalone menggunakan Eclipse Java SE. Penggunaan Hadoop mode ini ditujukan untuk pengembangan aplikasi MapReduce (MapReduce Aplication Development) dan testing program dengan data berukuran kecil. Dengan menggunakan Hadoop Standalone pada Eclipse, coding dan debug program dapat dilakukan dengan lebih mudah dan cepat. Kemudian, pada artikel Menjalankan Hadoop MapReduce ModePseudo-Distributed dengan Linux , telah diuraikan langkah-langkah setting Hadoop dan menjalankan program MapReduce dengan platform Linux. Mode Pseudo-distributed ini ditujukan untuk testing program MapReduce yang telah dibuat dengan Eclipse Java dan telah ditest dengan Hadoop mode Standalone pada Eclipse tersebut. Program aplikasi MapReduce yang telah dibuat dengan Eclipse perlu ditest dengan Hadoop Pseudo-distributed untuk meyakink...

Menjalankan Hadoop MapReduce Mode Pseudo-distributed dengan Linux

Pada artikel sebelumnya ( Menjalankan Hadoop MapReduce dengan Eclipse Java SE ) telah dijelaskan bagaimana cara instal Hadoop dan menjalankan aplikasi MapReduce mode standalone dengan menggunakan Eclipse Java SE yang diinstal di Windows. Kali ini saya akan menjelaskan langkah-langkah untuk menginstal Hadoop mode pseudo-distributed di Linux dan menjalankan contoh aplikasi MapReduce.

Menjalankan Aplikasi Hadoop MapReduce dengan Eclipse Java SE

Image
TUTORIAL INI SUDAH DIPERBAHARUI DI " Membuat dan Menjalankan Aplikasi Hadoop MapReduce dengan Intellij IDEA pada OS Windows " Untuk menjalankan suatu aplikasi MapReduce pada Hadoop, kita mesti membuat file jar (namaAplikasi.jar) dari aplikasi tersebut. Sudah tentu source code dari aplikasi yang akan kita jalankan itu harus di compile dulu, class file hasil compilasi itulah yang dikompres dalam satu jar file. Bila aplikasi yang kita jalankan masih dalam tahap pengembangan/percobaan, tentu akan cukup merepotkan jika harus membuat jar file tiap kali aplikasi tersebut akan dijalankan. Oleh karena itu, penggunaan Eclipse dalam proses pengembangan aplikasi MapReduce dapat dijadikan sebagai satu alternatif yang cukup praktis dan feseable. Proses pengembangan aplikasi jadi lebih mudah.