Crawling dan Indexing Berbasis Apache Nutch, Elasticsearch, dan MongoDB

Pada artikel sebelumnya ( Membangun Mesin Pencari dengan Kombinasi Apache Nutch, Elasticsearch, dan MongoDB ) telah dibahas secara singkat tentang apa itu Apache Nutch, apa itu Elasticsearch, dan Apa itu MongoDB. Pada bagian 2 ini akan dibahas langkah demi langkah tentang bagaimana membangun web crawler dengan Apache Nutch, melakukan crawling terhadap website yang dijadikan target, kemudian menyimpan hasil crawling tersebut dalam bentuk data terstruktur menggunakan MongoDB, serta membangun mensin pencari menggunakan Elasticsearch sehingga dapat dilakukan penelisikan dan analisis terhadap data-data hasil crawling tersebut. Software yang harus disiapkan sebelumnya diantaranya (harus sudah siap digunakan) : 1. OS jenis Linux, bisa CentOS 7, Ubuntu 14.0.4 LTS, Mac OSX 10.9 (Mavericks) 2. Java, dalam hal ini digunakan Oracle JRE 1.8 atau Oracle JRE 1.7 3. Apache Ant Java dan Apache Ant harus sudah diinstal dengan benar di OS yang digunakan. Disini tidak akan dibahas tentang cara-car...