Posts

Showing posts with the label Web Scraping

Tutorial Python: Cara Mudah Web Scraping menggunakan Beautiful Soup

Image
 Pada artikel " Pentingnya Web Crawling sebagai Cara Pengumpulan Data di Era Big Data " telah kita bahas bahwa data dapat didapatkan dengan sejumlah cara, diantaranya: Input langsung dari pelanggan, melalui survey maupun angket. Menggunakan API pihak ketiga seperti Facebook API, Twitter API dan sebagainya. Log Web Server seperti Apache dan Nginx Dengan melakukan Web Crawling atau Web Scraping  Tutorial kali ini akan mengulas tentang bagaimana melakukan Web Scraping dengan bahasa program Python menggunakan module Beautiful Soup . Sebagai langkah awak, mari kita coba scraping satu webpage yang sangat sederhana dengan url: https://dataquestio.github.io/web-scraping-pages/simple.html Oh iya, selain module Beautiful Soup, kita juga akan menggunakan module Requests untuk mengirim HTTP requests ke webpage yg akan kita jadikan target scraping. import requests from bs4 import BeautifulSoup page = requests.get("https://dataquestio.github.io/web-scraping-pages/simple.html"...

Pentingnya Web Crawling sebagai Cara Pengumpulan Data di Era Big Data

Image
Apa itu Web Crawler? Web crawler atau yang dikenal juga dengan istilah web spider atau web robot adalah program yang bekerja dengan metode tertentu dan secara otomatis mengumpulkan semua informasi yang ada dalam suatu website. Web crawler akan mengunjungi setiap alamat website yang diberikan kepadanya, kemudian menyerap dan menyimpan semua informasi yang terkandung didalam website tersebut. Setiap kali web crawler mengunjungi sebuah website, maka dia juga akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian dikunjungi lagi satu persatu. Ketika crawlers menemukan halaman web, tugas selanjutnya adalah mengambil data-data dari halaman web dan menyimpannya ke dalam suatu media penyimpanan (harddisk). Data-data yang disimpan ini, nantinya dapat diakses pada saat dilakukan query yang berhubungan dengan data tersebut. Untuk mencapai tujuan mengumpulkan milyaran halaman web dan menyajikannya dalam hitungan detik, search engine membutuhkan data center yang sanga...