Big Data dan Rahasia Kejayaan Google

February 01, 2013

Big Data, sebesar apa?

Kurang lebih sejak tahun 2010, istilah Big Data sudah mulai hangat diperbincangkan. Topik-topik seperti : "Bagaimana cara menganalisa perilaku setiap konsumen saat berbelanja secara online sehingga sang penjual bisa memberikan rekomendasi secara otomatis tentang produk yang sesuai dengan tiap pelanggan.", "Bagaimana menganalisa kicauan pada Twitter sehingga bisa menemukan topik-topik yang sedang hot atau trending topic.", "Bagaimana menganalisa transaksi kartu kredit sehingga bisa dibedakan mana transaksi yang legal dan illegal.", telah menjadi topik yang sering diangkat di media massa. Data-data tentang perilaku konsumen pada toko online, kicauan puluhan juta pengguna Twitter maupun data tentang transaksi kartu kredit dapat dikategorikan sebagai Big Data.

Dalam artikel berjudul "Gartner SaysSolving 'Big Data' Challenge Involves More Than Just Managing Volumes ofData." dinyatakan bahwa Big Data itu memiliki tiga karakteristik : Volume (Volume), Variasi (Variety), Kecepatan (Velocity).
Untuk menyimpan dan mengolah data dalam jumlah besar diperlukan waktu dan biaya yang besar. Untuk memberdayakan berbagai jenis / variasi data diperlukan prosedur yang sesuai dengan tiap jenis data tersebut. Terakhir, untuk memanfaatkan data yang terus menerus diproduksi dengan kecepatan tertentu, diperlukan kecepatan dalam mengolah data untuk memenuhi target yang ditentukan. Ketiga karakteristik ini menggambarkan betapa sulitnya menangani dan memanfaatkan Big Data. Jadi kalau disederhanakan, Big Data itu adalah data yang besar dalam volume, kumpulan dari berbagai jenis data, dan diproduksi dengan kecepatan tertentu.

Dalam hal volume, telah terjadi peningkatan yang drastis sejak sekitar tahun 2000 sehingga kemudian muncul istilah Ledakan Informasi. Berdasarkan laporan yang dilansir oleh IDC (International Data Corporation) : "2011 Digital Universe Study: Extracting Value fromChaos", diperkirakan bahwa pada lima tahun kedepan, volume data yang dihasilkan per-tahun akan meningkat menjadi 6 kali lipat. Pada tahun 2005, terdapat 130 Exabytes data dan menjadi 1,2 Zettabytes pada 2010. Pada tahun 2015, diperkirakan akan meledak menjadi 7,9 Zettabytes. Sekedar referensi, 1 Zettabyte kurang lebih sama dengan data dalam 200 miliar keping DVD (The HJO3Project). Latar belakang dari membludaknya volume data ini adalah proses komputerisasi yang telah semakin merasuk ke dalam segala aspek kehidupan manusia. Mulai dari PC (Personal Computer), smartphone, ATM, komputer kantor swasta, komputer kantor pemerintah hingga kamera jalan raya milik POLRI maupun Kemenhub.

Dalam hal jenis, data sudah tidak lagi hanya berupa lembaran data seperti halnya data yang ditampilkan dengan MS Excel, MS Access, ataupun software pengolah data lain yang menyimpan teks dan angka dalam suatu format tertentu. Data saat ini bisa berupa teks data yang dimuat pada website, blog, SNS(Social Network) seperti halnya Facebook dan Twitter, yang tidak memiliki format yang ditentukan sebelumnya. Data bisa berupa music maupun video digital yang didistribusikan dan diakses melalui internet dan terus bertambah.

Dalam hal kecepatan, data dihasilkan bukan lagi dalam hitungan hari, dan umur berlakunya data pun menjadi lebih pendek. Sebagai contoh, laporan hasil analisa transaksi jual-beli yang sebelumnya dilakukan per-bulan atau perminggu kini dilakukan per-hari bahkan per-jam. Dengan demikian, masa berlaku data hasil analisa pun bukan lagi dalam hitungan bulan tapi hanya berlaku dalam satu jam. Bahkan, tidak sedikit proses pengolahan, analisa, dan pendistribusian data yang telah bisa dilakukan secara real-time.

Google apanya Big Data?

Google berasal dari sebuah proyek penelitian yang dimulai pada Januari 1996 oleh dua mahasiswa pasca sarjana, Larry Page dan Sergey Brin, di Stanford University. Saat ini Google telah berkembang menjadi raksasa Internet yang sangat pintar, yang telah menjadi guru tempat bertanya apa saja di dunia maya Internet. Boleh dikatakan terlalu naif bila ada pengguna Internet yang mengaku tidak tahu Google. Google telah menjadi bagian hidup para penjelajah dunia maya. Menjadi milik semuanya dan memiliki semuanya.

Pada awal kelahirannya, Google dibekali dengan teknologi yang disebut PageRank yang telah menjadikannya search engine yang unik karena teknologi tersebut belum pernah dimiliki oleh search engine yang telah ada sebelum Google.

Namun, bukan hanya itu. Google juga telah mampu mengelola, memanfaatkan, dan memberdayakan limpahan data yang membludak pada era Ledakan Informasi ini. Google bahkan telah mampu mengolah dan memberdayakan keberadaan Big Data jauh sebelum istilah itu diperbincangkan banyak orang. Google memiliki teknologi crawler yang mampu mendownload seluruh web page yang ada di dunia Internet secara terus menerus mengikuti update pada jutaan web page tersebut. Google memiliki media penyimpanan data yang dikenal dengan nama Google File System (GFS) yang menyimpan data secara terdistribusi dalam ribuan komputer. Kapasitas penyimpanan GFS ini bisa terus diperbesar hanya dengan menambah jumlah komputer yang disertakan didalamnya. Google memiliki teknologi pengolahan data yang disebut MapReduce, yang mampu mengolah data yang disimpan dalam GFS secara paralel menggunakan ribuan komputer sehingga mampu mengolah data ukuran raksasa dalam waktu berkali lipat lebih cepat daripada system konvensional. Google juga memiliki system database yang disebut Bigtable, yang mampu menyajikan data berukuran raksasa yang sudah tak mampu lagi ditangani oleh system database yang telah ada. Dan masih banyak lagi. Jadi, intinya, Google telah mampu melihat potensi pada Big Data, kemudian mengolah dan memberdayakannya jauh sebelum istilah Big Data mulai diperbincangkan.

Akhirnya, Big Data jadi milik semua orang.

Google itu hebat dan kaya, dan untungnya dia juga tidak pelit. Google telah membuka akses terhadap teknologi garapannya kepada masyarakat internasional. Google telah memaparkan konsep dan cara kerja GFS, MapReduce, dan Bigtable secara detail dan dapat diakses dengan cuma-cuma. Hal ini telah berhasil membuka mata para raksasa Internet pada dunia yang lebih besar.

Apache bertindak cepat dengan mengembangkan dan merilis versi open source dari Google File System yang diberi nama Hadoop Distributed File System (HDFS) dan juga versi open source dari MapReduce yang dibuat satu paket dengan HDFS. Dengan demikian, software Hadoop dapat di-download secara gratis dari web site Apache. Sebenarnya Hadoop bukanlah proyek asli milik Apache, tapi dibuat oleh seorang mantan karyawan Yahoo! bernama Doug Cutting bersama Michael J. Cafarella.

Saat ini Hadoop telah diadopsi oleh perusahaan-perusahaan besar seperti halnya Yahoo!, Amazon, IBM, Microsoft, Facebook, Twitter, Hewlett-Packard, LinkedIn, RECRUIT, Rakuten Japan, dan masih banyak lagi.

Mengolah Big Data dengan Hadoop? Tidak sulit!

Kini teknologi untuk mengolah Big Data, Hadoop Mapreduce, sudah di depan mata. Selanjutnya bergantung pada keberanian kita untuk mau memberdayakannya atau tidak. Hadoop MapReduce memiliki banyak keunggulan, diantaranya:

1. Sederhana. Walaupun Hadoop MapReduce adalah software yang mengolah data secara terdistribusi dan paralel, kita tidak diwajibkan untuk mengerti dan paham apa itu distributed computing.

2. Fleksibel dalam Ukuran. Hadoop dapat dijalankan mulai dari satu hingga ribuan PC. Jadi, dapat dimulai dengan ukuran kecil dulu atau sesuai kebutuhan. Bila ingin meningkatkan kemampuannya, cukup tambah jumlah PC tanpa harus mengubah setting dari awal. Bandingkan kalau kita menggunakan system konvensional. Pada saat komputer kita sudah tidak mampu lagi mengolah data yang semakin besar, atau ketika teknologi komputer yang kita pakai sudah mulai ketinggalan jaman, tentu kita harus membeli komputer baru yang memiliki kemampuan yang lebih tinggi, atau mengupgrade komputer yang sudah ada. Itu berarti kita harus menginstal system baru mulai dari awal, kemudian memindahkan data dari komputer lama ke komputer baru, dan melakukan setting ulang agar dapat berjalan seperti sebelumnya. Bila kita menggunakan Hadoop, kita tak perlu memindahkan data dan melakukan setting ulang, cukup dengan menambahkan satu komputer lagi, maka secara otomatis data akan terdistribusi ke komputer yang baru.

3. Handal, anti Gagal. Ketika kita bicara tentang pengolahan data yang dilakukan secara paralel dalam banyak komputer, tentu akan timbul pertanyaan: Bagaimana kalau salah satu dari komputer itu down atau rusak dan tak dapat beroperasi? Bukankah ini akan menyebabkan seluruh proses akan gagal karena kehilangan salah satu bagiannya. Tidak demikian dengan Hadoop, walaupun dalam suatu proses pengolahan data terdapat komputer yang tiba-tiba rusak, Hadoop tetap dapat berjalan normal.

Sampai disini kita sudah berbincang panjang lebar soal teori, selanjutnya saatnya untuk praktek, mencoba dan mencicipi Hadoop. Seperti telah dibahas sebelumnya, Hadoop itu fleksibel, bisa dijalankan dalam tiga mode yaitu:

1. Mode Standalone : dengan satu PC Windows. Silakan simak: Menjalankan AplikasiHadoop MapReduce dengan Windows.

2. Mode Pseudo-Distributed: dengan satu PC Linux yang dibuat seolah-olah Hadoop berjalan dalam system yang terdistribusi. Silakan simak: Menjalankan HadoopMapReduce Mode Pseudo-Distributed dengan Linux.

3. Mode Fully Distributed: menjalankan Hadoop sungguhan dalam beberapa PC. Silakan simak: Menjalankan Hadoop MapReduce Mode Fully Distributed.

Semua tutorial diatas dijelaskan secara detail langkah demi langkah dan disertai contoh aplikasi WordCount.

Kesimpulan dan Penutup.

Saat ini kita sedang berada dalam era Ledakan Informasi, dan kemampuan untuk memberdayakan Big Data adalah kunci dalam meraih sukses dan kemenangan. Google telah menyadarinya lebih dulu, dan sukses Google adalah bukti nyata. Hadoop MapReduce, senjata dalam perang Big Data telah di depan mata, para raksasa sudah mulai bergerak, apakah kita akan tinggal diam?

Referensi:

http://www.gartner.com/newsroom/id/1731916

http://japan.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf

http://www.hjo3.net/bytes.html

http://hadoop.apache.org/

http://en.wikipedia.org/wiki/Apache_Hadoop

http://en.wikipedia.org/wiki/Google#History

"Hadoop: The Definitive Guide", Tom White, O'REILLY 2012.

"Googleを支える技術", Nishida Keisuke, WEB+DB PRESS 2008.