Web Crawling
Crawling adalah proses mesin pencari untuk menemukan halaman website gambar video dokumen dan lain sebagainya yang telah di update di sebuah situs.Untuk pencarian sebuah konten di search engine dengan keyword tertentu maka akan mencari indeks dan konten yang mana yang paling sesuai untuk user tersebut.Ada banyak beragam pilihan tools yang dapat digunakan untuk melakukan web Crawling salah satunya disebut sebagai web robot atau web Spider dan juga proses web rolling ini tidak dapat dilakukan secara manual
cara kerja Web Crawler
- Web crawler akan menuju ke laman situs dan link
- Masukkan URL situs di Google Search Console
- Web Crawling akan melakukan pencatatan pada setiap link di indeks.note : halaman/link yang bersifat privat tidak bisa diambil
- Informasinyainformasi yang sudah terumpul maka akan di simpan di dalam indeks search engine sehingga muncul di konten dengan keyword yang sama
Contoh Web Crawler
- Googlebot, web crawler milik Google yang paling banyak digunakan saat ini. Gogglebot akan membuat indeks yang akan bertugas untuk mengumpulkan informasi dari berbagai website.
- HTTrack, web crawler yang bersifat open source. ketika user sudah mendownload aplikasi ini maka user bia membuka konten situs tanpa melalui koneksi internet
- Cyotek WebCopy, sama halnya seperti HTTrack yang membedakan user dapat memilih bagian mana yang ingin di download.
- Webhose, web crawler yang mengubah konten menjadi datafeeds
Source Code import scrapy
class ReviewSpider(scrapy.Spider): name = 'review' allowed_domains = ['jawapos.com'] start_urls = ['https://www.jawapos.com/berita-hari-ini/']
def parse(self, response):
data = response.css('.post-list__container')
# Collecting title
title = data.css('.post-list__title')
# Collecting price
cat = data.css('.post-list__cat')
c=0
time = data.css('.post-list__time')
# Combining the results
for review in title:
yield{'title': ''.join(review.xpath('.//text()').extract()),
'cat': ''.join(cat[c].xpath(".//text()").extract()),
'time': ''.join(time[c].xpath("./text()").extract())
}
c=c+1
Referensi
- https://glints.com/id/lowongan/web-crawling-adalah/#.YMIc0fkzbIV