Posts

Showing posts with the label Apache Nutch

Apache Nutch Crawl Script : Web Crawling hanya dengan Satu Command

Pada artikel Membangun Mesin Pencari dengan Kombinasi Apache Nutch, Elasticsearch, dan MongoDB telah dibahas secara singkat tentang apa itu Apache Nutch, apa itu Elasticsearch, dan Apa itu MongoDB. Kemudian, pada artikel Crawling dan Indexing Berbasis Apache Nutch, Elasticsearch, dan MongoDB telah dijelaskan langkah-langkah website crawling menggunakan Apache Nutch yang meliputi 6 tahap dengan mengeksekusi 6 command Apache Nutch, yaitu: inject, generate, fetch, parse, updatedb, index. Telah disebutkan pula bahwa proses crawling yang meliputi 6 langkah ini tidak cukup hanya dilakukan satu kali untuk dapat meng-index seluruh isi website yang dijadikan target. Beruntungnya, Apache Nutch juga dilengkapi dengan script yang dapat mempersingkat proses crawling dari 6 langkah menjadi satu langkah saja, yaitu dengan mengeksekusi perintah berikut: hennywijaya$ runtime/local/bin/crawl urls/ webpage3 http://localhost:9300/nutch/ 3 Adapun arguments dari perintah diatas adalah: 1. url...

Crawling dan Indexing Berbasis Apache Nutch, Elasticsearch, dan MongoDB

Image
Pada artikel sebelumnya ( Membangun Mesin Pencari dengan Kombinasi Apache Nutch, Elasticsearch, dan MongoDB ) telah dibahas secara singkat tentang apa itu Apache Nutch, apa itu Elasticsearch, dan Apa itu MongoDB. Pada bagian 2 ini akan dibahas langkah demi langkah tentang bagaimana membangun web crawler dengan Apache Nutch, melakukan crawling terhadap website yang dijadikan target, kemudian menyimpan hasil crawling tersebut dalam bentuk data terstruktur menggunakan MongoDB, serta membangun mensin pencari menggunakan Elasticsearch sehingga dapat dilakukan penelisikan dan analisis terhadap data-data hasil crawling tersebut. Software yang harus disiapkan sebelumnya diantaranya (harus sudah siap digunakan) : 1. OS jenis Linux, bisa CentOS 7, Ubuntu 14.0.4 LTS, Mac OSX 10.9 (Mavericks) 2. Java, dalam hal ini digunakan Oracle JRE 1.8 atau Oracle JRE 1.7 3. Apache Ant Java dan Apache Ant harus sudah diinstal dengan benar di OS yang digunakan. Disini tidak akan dibahas tentang cara-car...

Membangun Mesin Pencari dengan Kombinasi Apache Nutch, Elasticsearch, dan MongoDB

Membangun Web Crawler, tidak mahal! Pada artikel "Pentingnya Web Crawling sebagai Cara Pengumpulan Data di Era Big Data" telah dibahas tentang apa itu web crawler, apa itu web crawling, dan bagaimana peranan web crawling sebagai salah satu teknik pengumpulan data di Era Big Data. Banyak dari kita yang mungkin sedang atau pernah punya ide untuk membangun sebuah web crawler untuk mengorek isi website yang kita jadikan target dan merunut tautan yang terdapat padanya. Kemudian, menyimpan data-data yang setengah terstruktur tersebut menjadi data terstruktur dalam suatu database serta membangun mesin pencari tersendiri untuk melakukan full text search dan menganalisa data-data yang telah terkumpul tersebut. Data-data yang telah berstruktur ini bisa digunakan untuk keperluan riset maupun untuk menghasilkan suatu analisis guna menyusun strategi tertentu. Kini, untuk mewujudkan ide tersebut bukanlah suatu hal yang terlampau sulit, juga bukan merupakan benda yang terlalu mahal. K...