Thursday, February 7, 2019

Sentimen Netizen terhadap Presiden Jokowi sepanjang Tahun 2018

    Dalam rentang waktu 1 Januari s.d. 31 Desember 2018, sekitar 3.739.336 cuitan berhasil di-crawl dan di-filter dari Twitter dengan kata kunci “jokowi”. Jutaan cuitan tersebut kemudian diproses menggunakan Apache Spark dan MongoDB untuk menemukan kecenderungan sentimen netizen terhadap Presiden Jokowi selama tahun 2018.

    Hasilnya, porsi sentimen positif jauh lebih besar daripada sentimen negatif. Sepanjang tahun 2018, persentase sentimen positif cenderung meningkat dengan rasio yang signifikan, mulai 13,73 % pada Januari menjadi 26,08 % pada Desember 2018. Sejalan dengan itu, persentase sentimen negatif juga mengalami peningkatan, namun dengan rasio yang jauh lebih kecil, dari 6,89% pada Januari menjadi 8,42% pada Desember 2018. Tidak hanya sentimen, dengan proses lebih lanjut, didapatkan juga temuan-temuan berikut:
  1. Hashtag atau Tagar apa yang paling populer dan bagaimana kontribusinya pada proporsi sentimen positif, negatif, dan netral.
  2. Tweet atau Cuitan mana saja yang paling berpengaruh pada sentimen tertentu berdasarkan jumlah posting, Like dan Retweet.
  3. Siapa saja User yang berperan signifikan pada distribusi sentimen positif, negatif, maupun netral berdasarkan jumlah Like dan Retweet yang dihasilkannya.
Analisa data Twitter ini adalah salah satu contoh sederhana implementasi teknologi Big Data yang dibahas detail dalam buku “Teknologi Big Data – Sistem Canggih dibalik Google, Yahoo!, Facebook, IBM – “ Edisi Revisi.

 Dapatkan dari Google Play Books!

DOWNLOAD SEKARANG



Persentase Sentimen Positif, Negatif, dan Netral sepanjang Tahun 2018


15 Hashtag Terpopuler dengan Proporsi Sentimen Positif, Negatif, dan Netral


15 Cuitan yang Paling Sering Di-post oleh berbagai User


15 Cuitan yang Mendapat Retweet Terbanyak


15 User yang Cuitannya Paling Banyak Mendapat Retweet



Saturday, January 26, 2019

Membuat dan Menjalankan Aplikasi Apache Spark dengan Intellij IDEA pada OS Windows

    Pada artikel "Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data" telah diperkenalkan secara singkat tentang apa itu Apache Spark dan kegunaannya. Kali ini kita akan mencoba untuk membuat dan menjalankan sebuah aplikasi Spark sederhana dengan sumber data dari Hadoop yang telah di-install dengan mode standalone pada OS Windows.
Tutorial ini menggunakan Windows 10 dan Software berikut:
  1. IDE Intellij IDEA; download dari https://www.jetbrains.com/idea/
    Sebelum mulai install Spark, jalankan Hadoop yang sudah diinstall. Buat direktori di Hadoop yang akan digunakan untuk menyimpan file teks yang akan diproses menggunakan Apache Spark. Gunakan perintah berikut:
    hdfs dfs -mkdir /tmp/input
    Kemudian, copy file teks dari drive lokal ke Hadoop dan pastikan file tersebut sudah benar-benar dikopi ke direktori Hadoop yang telah dibuat. Gunakan perintah berikut:
    hdfs dfs -copyFromLocal C:\tmp\intellij-projects\TextSearch\input\borobudur.txt /tmp/input/borobudur.txt
    hdfs dfs -ls /tmp/input

Langkah-langkah Install Apache Spark pada OS Windows :
  1. Download Spark dari http://spark.apache.org/downloads.html dan pastikan untuk mengunduh Spark yang kompatibel dengan versi Hadoop yang digunakan. Pada tutorial ini digunakan Apache Spark-2.3.1 (jadi kita unduh file spark-2.3.1-bin-hadoop2.7.tgz ) dari laman download Apache Spark.

Friday, January 25, 2019

Membuat dan Menjalankan Aplikasi Hadoop MapReduce dengan Intellij IDEA pada OS Windows

Pada artikel Cara Sederhana Install Hadoop 2 mode Standalone pada Windows 7 dan Windows 10 telah dibahas bagaimana menginstall Hadoop 2 mode standalone pada OS Windows 7 maupun Windows 10. Setelah Hadoop berhasil di-install, kali ini kita akan mencoba untuk membuat dan menjalankan sebuah contoh aplikasi MapReduce "WordCount" dengan menggunakan IDE Intellij IDEA pada OS Windows. Kebetulan versi OS yang digunakan adalah Windows 10.
Software yang diperlukan adalah sebagai berikut ( sudah harus terinstal dan berjalan normal ) :
Langkah-langkah menjalankan aplikasi Hadoop MapReduce dengan Intellij IDEA pada OS Windows
  1. Start Intellij IDEA as Administrator

Wednesday, January 23, 2019

Cara Sederhana Install Hadoop 2 mode Standalone pada Windows 7 dan Windows 10

    Hadoop adalah framework open-source berbasis Java yang ditujukan untuk memproses data secara terdistribusi melalui kemampuan penyimpanan data secara terdistribusi. Hadoop dapat menyimpan data apapun dan memprosesnya dengan model pemrograman MapReduce. Hadoop didesain untuk dapat mengatasi permasalahan yang disebabkan oleh kegagalan fungsi hardware sehingga dapat mencegah hilangnya data maupun proses kerja. Hadoop memotong-motong data untuk didistribusikan ke setiap node di dalam suatu kluster untuk kemudian diproses secara paralel dan lokal di tiap node yang bersangkutan.

Kebutuhan Software

Berikut adalah software yang harus disiapkan untuk dapat menjalankan Hadoop 2 mode standalone dengan OS Windows 7 atau Windows 10:
  1. Apache Hadoop 2.7.7, dapat diunduh dari https://hadoop.apache.org/releases.html
  2. Hadoop Patch File untuk OS Windows, dapat diunduh dari https://github.com/wmwijaya/hadoop2-standalone-windows7-windows10

Langkah-langkah Install Hadoop 2 (dalam tutorial ini digunakan Hadoop-2.7.7):

  1. Download JDk 1.8 dari URL Java JDK diatas, install dan kemudian set JAVA_HOME dan Path pada Environment Variables>System Variables Windows. JAVA_HOME adalah lokasi Java di-install C:\Program Files\Java\jdk1.8.0_201 sedangkan Path untuk Java adalah C:\Program Files\Java\jdk1.8.0_201\bin

Friday, August 31, 2018

Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data

       Apache Spark adalah engine ( perangkat lunak ) analisis terpadu super cepat untuk memproses data dalam skala besar; meliputi Big Data dan machine learning. Secara lebih detailnya, Apache Spark dapat didefinisikan sebagai engine ( perangkat lunak ) untuk memproses data dalam skala besar secara in-memory, dilengkapi dengan API pengembangan yang elegan dan ekspresif guna memudahkan para pekerja data dalam mengeksekusi pekerjaan-pekerjaan yang membutuhkan perulangan akses yang cepat terhadap data yang diproses, seperti halnya streaming, machine learning, maupun SQL, secara efisien.

       Apache Spark terdiri atas Spark Core ( inti ) dan sekumpulan library perangkat lunak. Inti dari Spark adalah distributed execution engine, dan API Java, Scala maupun Python disediakan sebagai platform untuk mengembangkan aplikasi ETL ( Extract, Transform, Load ) terdistribusi. Kemudian, library perangkat lunak tambahan, yang dibangun diatas inti ( core )-nya, memfasilitasi berbagai jenis pekerjaan yang berhubungan dengan streaming, SQL, dan machine learning.

Sunday, July 1, 2018

Sentimen Netizen terhadap Presiden Jokowi berdasar Twitter Mei 2018: Implementasi Sederhana Teknologi Big Data dan Machine Learning


Pada artikel sebelumnya (Analisa Sentimen Masyarakat terhadap Presiden Jokowi Berdasar Data Twitter: Sebuah Contoh Sederhana Pemberdayaan Big Data) telah dibahas bagaimana memberdayakan data tak berstruktur (teks twitter) untuk mengukur sentimen terhadap suatu subyek (dalam hal ini Presiden Jokowi) dengan mengimplementasikan pola pemrosesan Big Data dan salah satu algorithma machine learning. Dengan menerapkan metode yang cukup sederhana, dapat dicapai hasil akhir berupa persentase sentimen Positif, Negatif, maupun Netral terhadap Presiden Jokowi selama kurun waktu satu bulan (April 2018). Selain itu, juga didapat data tentang hashtag/tagar maupun tweet/cuitan mana yang berkontribusi signifikan terhadap tiap sentimen.

Pada artikel ini, serupa dengan artikel sebelumnya, topik yang dibahas masih seputar mengukur sentimen netizen terhadap Presiden Jokowi dengan menganalisa cuitan Twitter. Namun, data yang dianalisa adalah cuitan Twitter selama bulan Mei 2018 dengan klasifikasi sentimen meliputi Positif, Negatif, Netral, Bangga, Kecewa, dan NA (Not Applicable = diluar klasifikasi). Berkenaan dengan langkah-langkah pemrosesan data-nya, mulai proses collecting, storing, analysing, dan visualisation masih menggunakan metode yang sama.

Namun demikian, pada artikel terdahulu, belum ada pembahasan tentang seperti apa teknik Machine Learning yang diterapkan untuk melalukan text classification berbahasa Indonesia?

Saturday, May 26, 2018

Analisa Sentimen Masyarakat terhadap Presiden Jokowi Berdasar Data Twitter: Sebuah Contoh Sederhana Pemberdayaan Big Data


Dewasa ini, eksploitasi media sosial sudah tidak dimonopoli oleh urusan bisnis belaka, tetapi telah secara nyata diberdayakan pada ranah politik. Beberapa waktu lalu, diberitakan bahwa media sosial seperti Twitter dan Facebook telah memberi pengaruh signifikan terhadap kemenangan Presiden Donald Trump pada pemilihan presiden Amerika Serikat tahun 2016. Selain itu, akhir-akhir ini juga marak diberitakan perihal kasus Cambridge Analytica yang memanfaatkan data pengguna dari media sosial Facebook maupun Twitter untuk kepentingan politik.

Kali ini, akan dibahas contoh sederhana analisa data media sosial Twitter untuk mengetahui proporsi sentimen masyarakat (secara umum) terhadap Presiden Joko Widodo (Jokowi) dalam kurun waktu satu bulan (April 2018). Hasil yang dapat diharapkan dari analisa ini adalah seberapa besar persentase masyarakat yang menaruh sentimen POSITIF, NEGATIF, maupun NETRAL terhadap Presiden Jokowi, serta faktor-faktor apa saja yang mempengaruhi komposisi sentimen tersebut. Adapun informasi yang dapat dipresentasikan adalah sebagai berikut:

  1. Persentase sentimen POSITIF, NEGATIF, dan NETRAL dari keseluruhan data yang diproses.
  2. Hashtag/Tagar (tanda pagar) apa saja yang berkontribusi signifikan pada penyebaran sentimen POSITIF/NEGATIF/NETRAL terhadap Presiden Jokowi.
  3. Tweet apa saja yang paling banyak mendapat respon positif (favorite) dari netizen yang berkontribusi pada peningkatan sentimen POSITIF terhadap Presiden Jokowi.