Apa itu 'BIG DATA'?
Akhir-akhir ini, istilah 'big data' menjadi topik yang
dominan dan sangat sering dibahas dalam industri IT. Banyak pihak yang mungkin
heran kenapa topik ini baru menjadi pusat perhatian padahal ledakan informasi
telah terjadi secara berkelangsungan sejak dimulainya era informasi. Perkembangan
volume dan jenis data yang terus meningkat secara berlipat-lipat dalam dunia
maya Internet semenjak kelahirannya adalah fakta yang tak dapat dipungkiri.
Mulai data yang hanya berupa teks, gambar atau foto, lalu data berupa video
hingga data yang berasal system pengindraan. Lalu kenapa baru sekarang orang
ramai-ramai membahas istilah big data? Apa sebenarnya 'big data' itu?
Hingga saat ini, definisi resmi dari istilah big data belum
ada. Namun demikian, latar belakang dari munculnya istilah ini adalah fakta
yang menunjukkan bahwa pertumbuhan data yang terus berlipat ganda dari waktu ke
waktu telah melampaui batas kemampuan media penyimpanan maupun sistem database
yang ada saat ini. Kemudian, McKinseyGlobal Institute (MGI), dalam laporannya yang dirilis pada Mei 2011, mendefinisikan
bahwa big data adalah data yang sudah sangat sulit untuk dikoleksi, disimpan,
dikelola maupun dianalisa dengan menggunakan sistem database biasa karena volumenya
yang terus berlipat. Tentu saja definisi ini masih sangat relatif, tidak
mendeskripsikan secara eksplisit sebesar apa big data itu. Tetapi, untuk saat
sekarang ini, data dengan volume puluhan terabyte hingga beberapa petabyte kelihatannya
dapat memenuhi definis MGI tersebut. Di lain pihak, berdasarkan definisi dari Gartner, big data itu
memiliki tiga atribute yaitu : volume , variety , dan velocity. Ketiga atribute
ini dipakai juga oleh IBM dalam mendifinisikan big data. Volume berkaitan dengan ukuran, dalam hal
ini kurang lebih sama dengan definisi dari MGI. Sedangkan variety berarti tipe
atau jenis data, yang meliputi berbagai jenis data baik data yang telah
terstruktur dalam suatu database maupun data yang tidak terorganisir dalam
suatu database seperti halnya data teks pada web pages, data suara, video,
click stream, log file dan lain sebagainya. Yang terakhir, velocity dapat
diartikan sebagai kecepatan dihasilkannya suatu data dan seberapa cepat data
itu harus diproses agar dapat memenuhi permintaan pengguna.
Dari segi teknologi, dipublikasikannya GoogleBigtable pada 2006 telah menjadi moment muncul dan meluasnya kesadaran akan
pentingnya kemampuan untuk memproses ‘big data’. Berbagai layanan yang
disediakan Google, yang melibatkan pengolahan data dalam skala besar termasuk search engine-nya, dapat beroperasi
secara optimal berkat adanya Bigtable yang merupakan sistem database berskala
besar dan cepat. Semenjak itu, teknik akses dan penyimpanan data KVS (Key-Value
Store) dan teknik komputasi paralel yang disebut MapReduce
mulai menyedot banyak perhatian. Lalu, terinspirasi oleh konsep dalam GoogleFile System dan MapReduce yang menjadi pondasi Google Bigtable, seorang
karyawan Yahoo! bernama Doug Cutting kemudian mengembangkan software untuk
komputasi paralel terdistribusi (distributed paralel computing) yang ditulis
dengan menggunakan Java dan diberi nama Hadoop.
Saat ini Hadoop telah menjadi project open
source-nya Apache Software. Salah
satu pengguna Hadoop adalah Facebook, SNS (Social Network Service) terbesar
dunia dengan jumlah pengguna yang mencapai 800 juta lebih. Facebook menggunakan
Hadoop dalam memproses big data seperti halnya content sharing, analisa access
log, layanan message / pesan dan layanan lainnya yang melibatkan pemrosesan big
data.
Jadi, yang dimaksud dengan ‘big data’ bukanlah semata-mata
hanya soal ukuran, bukan hanya tentang data yang berukuran raksasa. Big data
adalah data berukuran raksasa yang volumenya terus bertambah, terdiri dari
berbagai jenis atau varietas data, terbentuk secara terus menerus dengan
kecepatan tertentu dan harus diproses dengan kecepatan tertentu pula. Momen
awal ketenaran istilah ‘big data’ adalah kesuksesan Google dalam memberdayakan ‘big
data’ dengan menggunakan teknologi canggihnya yang disebut Bigtable beserta
teknologi-teknologi pendukungnya.
Comments
Thx, mudah2an bermanfaat
Perihal contoh cara mentransfer data dari lokal disk ke Hadoop, saya ulas di artikel ttg Menjalankan Hadoop MapReduce mode Pseudo-distributed. Berikut linknya:
http://vijjam.blogspot.jp/2013/01/menjalankan-hadoop-mapreduce-mode.html?m=1
terimakasih
Buku versi hard copy kebetulan sedang habis stok. Sekarang sedang dalam proses cetakan ke-2 di pihak penerbit.
Tentang cara pemesanan, tertera di bagian akhir artikel ini:
http://vijjam.blogspot.co.id/2015/05/buku-tentang-teknologi-big-data-sistem.html?m=1
mengunjungi blog yang saya buat :)
Solusi Sales
ROWE ROWE
ROWE ROWE
ROWE ROWE
ROWE ROWE
ROWE ROWE
ROWE ROWE
ROWE ROWE