Tuesday, March 12, 2013

Apa itu 'BIG DATA'?

Akhir-akhir ini, istilah 'big data' menjadi topik yang dominan dan sangat sering dibahas dalam industri IT. Banyak pihak yang mungkin heran kenapa topik ini baru menjadi pusat perhatian padahal ledakan informasi telah terjadi secara berkelangsungan sejak dimulainya era informasi. Perkembangan volume dan jenis data yang terus meningkat secara berlipat-lipat dalam dunia maya Internet semenjak kelahirannya adalah fakta yang tak dapat dipungkiri. Mulai data yang hanya berupa teks, gambar atau foto, lalu data berupa video hingga data yang berasal system pengindraan. Lalu kenapa baru sekarang orang ramai-ramai membahas istilah big data? Apa sebenarnya 'big data' itu?

Hingga saat ini, definisi resmi dari istilah big data belum ada. Namun demikian, latar belakang dari munculnya istilah ini adalah fakta yang menunjukkan bahwa pertumbuhan data yang terus berlipat ganda dari waktu ke waktu telah melampaui batas kemampuan media penyimpanan maupun sistem database yang ada saat ini. Kemudian, McKinseyGlobal Institute (MGI), dalam laporannya yang dirilis pada Mei 2011, mendefinisikan bahwa big data adalah data yang sudah sangat sulit untuk dikoleksi, disimpan, dikelola maupun dianalisa dengan menggunakan sistem database biasa karena volumenya yang terus berlipat. Tentu saja definisi ini masih sangat relatif, tidak mendeskripsikan secara eksplisit sebesar apa big data itu. Tetapi, untuk saat sekarang ini, data dengan volume puluhan terabyte hingga beberapa petabyte kelihatannya dapat memenuhi definis MGI tersebut. Di lain pihak, berdasarkan definisi dari Gartner, big data itu memiliki tiga atribute yaitu : volume , variety , dan velocity. Ketiga atribute ini dipakai juga oleh IBM dalam mendifinisikan big data. Volume berkaitan dengan ukuran, dalam hal ini kurang lebih sama dengan definisi dari MGI. Sedangkan variety berarti tipe atau jenis data, yang meliputi berbagai jenis data baik data yang telah terstruktur dalam suatu database maupun data yang tidak terorganisir dalam suatu database seperti halnya data teks pada web pages, data suara, video, click stream, log file dan lain sebagainya. Yang terakhir, velocity dapat diartikan sebagai kecepatan dihasilkannya suatu data dan seberapa cepat data itu harus diproses agar dapat memenuhi permintaan pengguna.

big data infographic, sumber gambar: Intel.co.jp

Dari segi teknologi, dipublikasikannya GoogleBigtable pada 2006 telah menjadi moment muncul dan meluasnya kesadaran akan pentingnya kemampuan untuk memproses ‘big data’. Berbagai layanan yang disediakan Google, yang melibatkan pengolahan data dalam skala besar termasuk search engine-nya, dapat beroperasi secara optimal berkat adanya Bigtable yang merupakan sistem database berskala besar dan cepat. Semenjak itu, teknik akses dan penyimpanan data KVS (Key-Value Store) dan teknik komputasi paralel yang disebut MapReduce mulai menyedot banyak perhatian. Lalu, terinspirasi oleh konsep dalam GoogleFile System dan MapReduce yang menjadi pondasi Google Bigtable, seorang karyawan Yahoo! bernama Doug Cutting kemudian mengembangkan software untuk komputasi paralel terdistribusi (distributed paralel computing) yang ditulis dengan menggunakan Java dan diberi nama Hadoop. Saat ini Hadoop telah menjadi project open source-nya Apache Software. Salah satu pengguna Hadoop adalah Facebook, SNS (Social Network Service) terbesar dunia dengan jumlah pengguna yang mencapai 800 juta lebih. Facebook menggunakan Hadoop dalam memproses big data seperti halnya content sharing, analisa access log, layanan message / pesan dan layanan lainnya yang melibatkan pemrosesan big data.

Jadi, yang dimaksud dengan ‘big data’ bukanlah semata-mata hanya soal ukuran, bukan hanya tentang data yang berukuran raksasa. Big data adalah data berukuran raksasa yang volumenya terus bertambah, terdiri dari berbagai jenis atau varietas data, terbentuk secara terus menerus dengan kecepatan tertentu dan harus diproses dengan kecepatan tertentu pula. Momen awal ketenaran istilah ‘big data’ adalah kesuksesan Google dalam memberdayakan ‘big data’ dengan menggunakan teknologi canggihnya yang disebut Bigtable beserta teknologi-teknologi pendukungnya.

13 comments:

ade sumantri said...

artikel yang sangat bagus.. kebetulan saya lagi skripsi dan mengambil topik tentang hadoop cluster.. barangkali saudara wjaya bisa memberikan saran dan masukkan bwt sy.. thk ^_^

Vijjam Wjaya said...

Makasi sdr Ade. Oh ya, kbetulan jg saat ini sy lg eksperiment Hadoop Cluster dengan 11 PC menggunakan Hadoop-1.0.4 (versi stabil). Performanya bagus dan memang stabil. Sy kira Hadoop (MapReduce) memang sangat relevan untuk memproses data berukuran besar sperti data peta digital, archieve web log, maupun untuk analisa web pages (posting facebook, twitter, koran online, blog dsb).

Ade Sumantri said...

mas wijaya boleh saya minta alamat email atau facebook anda? barangkali jika tidak keberatan sy ingin menanyakan beberapa hal lg.. :D

Vijjam Wjaya said...

Email sdh sy pos, silakan cek Google+

Rhyzky Putra said...

Mantab deh artikel nya, bisa dijadikan referensi untuk penelitian-penelitian saya. :)

Vijjam Wjaya said...

@Rhyzky
Thx, mudah2an bermanfaat

godofrayer said...

Apakah software ERP juga termasuk Big Data? Data yang disimpan dan diakses hanya seputar text yang disimpan ke dalam database. Volume masuk, Velocity masuk, tapi untuk Variety?

Vijjam Wjaya said...

IMHO, ERP dan Big Data adalah dua hal yang berbeda. ERP dapat dikatakan sebagai suatu system yang menunjang kinerja maupun produktivitas perusahaan dengan mengintegrasikan data2 internal perusahaan. Sedangkan Big Data dapat dikatakan sebagai suatu objek yang tak berarti apa2 jika tidak dikelola / diproses dengan menggunakan teknologi / tools yang tepat. Big Data tidak hanya menyangkut data2 internal suatu perusahaan tetapi juga data2 yang tersebar di luar perusahaan seperti halnya data2 yang tersebar di dunia Internet. Tak menutup kemungkinan bahwa data2 yang dikelola dalam ERP dapat dikategorikan sebagai bagian dari Big Data.

herii purnama said...
This comment has been removed by the author.
Rp said...

artikel bagus mas vijjam. kebetulan saya juga mengambil skripsi "pembuktian hadoop multi node pada data bidangpariwisata". saya sedikit mengalami kendala saat transfer datanya mas. kira-kira ada referensinya mas? atau mungkin mas vijjam bisa bantu? hehehe bisa tolong reply ke email saya mas mrrizkypratama1@gmail.com

Vijjam Wjaya said...

Terima kasih telah berkunjung.
Perihal contoh cara mentransfer data dari lokal disk ke Hadoop, saya ulas di artikel ttg Menjalankan Hadoop MapReduce mode Pseudo-distributed. Berikut linknya:
http://vijjam.blogspot.jp/2013/01/menjalankan-hadoop-mapreduce-mode.html?m=1

Fauzi Megantara said...

Artikelnya bagus banget,, kebetulan saya sedang mengambil tesis mengenai Big Data, untuk buku yang hard copynya apakah bisa di beli mas?bagaimana cara pemesanannya..
terimakasih

Vijjam Wjaya said...

Terima kasih atas komen positifnya mas.

Buku versi hard copy kebetulan sedang habis stok. Sekarang sedang dalam proses cetakan ke-2 di pihak penerbit.

Tentang cara pemesanan, tertera di bagian akhir artikel ini:
http://vijjam.blogspot.co.id/2015/05/buku-tentang-teknologi-big-data-sistem.html?m=1