TUGAS PERTEMUAN 9 PENGANTAR WEB SCIENCE
RANGKUMAN TUGAS WEB
CRAWLER
MATA KULIAH PENGANTAR WEB
SCIENCE
Disusun Oleh:
Ananda Nurlita (50420166)
2IA18
TEKNIK INFORMATIKA
UNIVERSITAS GUNADARMA
2022
1. DEFINISI WEB CRAWLER
Web crawler atau
yang juga dikenal web spider, spider bot, web bot, crawler, adalah sebuah
program software komputer yang digunakan oleh mesin pencari untuk
mengindeks halaman web dan konten yang dimiliki setiap website.
Web crawler adalah
sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan
ke dalam database mesin pencari. Sehingga saat ada orang yang mencari suatu
informasi, mesin pencari akan langsung menampilkan hasil yang relevan dari
database tersebut.
Proses Indexing adalah
semacam pembuatan ‘katalog perpustakaan’ di internet, sehingga internet dapat
mengetahui ke mana harus mengambil informasi saat pengguna melakukan pencarian.
Proses indexing sebagian besar terfokus pada teks yang muncul di halaman dan
metadata yang tidak dilihat oleh pengguna. Ketika search engine melakukan
pengindeksan, maka semua kata akan ditambahkan ke dalam index.
2. CARA
KERJA WEB CRAWLER
Proses crawling bermula
dari seed, atau daftar URL yang sudah diketahui crawler. Ia akan
merayapi laman web dari daftar URL tersebut. Pada proses tersebut,
biasanya bots akan menemukan link ke URL lain. Hal itu akan
masuk ke list halaman untuk dirayapi setelah proses sebelumnya
selesai. Proses ini berlangsung secara berulang dan terus menerus hingga
tanpa batas. Setiap search engine menerapkan algoritma tertentu. Kemudian, bots atau crawler akan
bekerja berdasarkan ketentuan yang tertulis di algoritma.
Proses kerja
sebuah web crawler. Pertama, web crawler akan mengunjungi sebuah
situs dan berbagai link yang terdapat dalam laman tersebut. Namun
jika situsmu terbilang baru dan belum ada link lain di dalamnya, kamu
bisa meminta search engine untuk mendatangi situsmu, seperti dikutip
dari WebFX.
Caranya mudah
hanya perlu memasukkan URL situsmu di Google Search Console. Kemudian,
tugas tools web crawling berikutnya adalah mencatat
setiap link yang mereka temukan ke indeks mereka. Namun, perlu dicatat
bahwa web crawler hanya akan mengumpulkan informasi dari laman yang
bersifat publik, ya. Web crawler tidak ikut mencatat
laman private yang tidak dapat diakses. Setelah itu, web
crawler akan mengumpulkan berbagai informasi, seperti tulisan
dan meta tag. Informasi tersebut akan tersimpan dalam indeks search
engine sehingga dapat muncul ketika pengguna mencari konten
dengan keyword yang serupa.
3. FUNGSI
WEB CRAWLER
Fungsi utama dari
web crawler memang mengindeks konten di internet. Namun di samping itu, ada
beberapa fungsi lain yang juga tak kalah penting:
a. Membandingkan
Harga
Web
crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga
ataupun data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu
produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website
penjualnya.
b. Data
untuk Tools Analisis
Tools
analisis website seperti Google Search
Console dan Screaming Frog SEO mengandalkan
web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga
data-data yang dihasilkan selalu akurat dan terbaru.
c. Data
Untuk Statistik
Web
crawler juga memberikan data-data penting yang bisa digunakan untuk website
berita atau website statistik. Misalnya, hasil pencarian berita yang akan
muncul di Google News.
Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan
di-crawl oleh web crawler nantinya.
4. CONTOH
WEB CRAWLER
Banyak sekali
mesin pencari yang menggunakan spider bots mereka sendiri. Berikut
adalah beberapa contoh web crawlers, di antaranya:
1. DuckDuck
Bot
DuckDuckGo
mungkin adalah salah satu mesin pencari paling populer yang tidak melacak riwayat
penggunanya dan mengikuti mereka di situs apa pun yang dikunjungi. DuckDuck
Bot web crawler membantu menemukan hasil yang paling relevan dan
terbaik yang akan memenuhi kebutuhan pengguna.
2. Baiduspider
Crawler ini
dioperasikan oleh mesin mencari Cina bernama Baidu.
Seperti bot lainnya, Baiduspider merayap melalui berbagai halaman
untuk mengindeks konten di mesin pencari.
3. Alexabot
Web
crawler Amazon, Alexabot digunakan untuk identifikasi konten
di website serta backlink. Jika kamu tidak ingin bot ini mengetahui
beberapa informasi pribadi, kamu dapat mengecualikan Alexabot dari
merayapi website kamu.
4. Exabot
Mesin
pencari Prancis, Exalead, menggunakan Exabot untuk pengindeksan konten agar
dapat dimasukkan ke dalam mesin pencari.
5. Yahoo!
Slurp Bot
Crawler milik
Yahoo, Yahoo! Slurp Bot, digunakan untuk mengindeks halaman web guna
meningkatkan konten yang dibuat khusus bagi pengguna.
6. Yandex
Bot
Yandex
Bot dimiliki oleh mesin pencari terbesar asal Rusia. Kamu pun juga dapat
mengecualikan crawler ini dari pengindeksan konten jika kamu tidak
berencana untuk memperbesar nama website kamu di negara tersebut.
7. Bingbot
Bingbot
adalah salah satu web spiders paling populer yang didukung oleh
Microsoft. Bingbot membantu mesin pencari, Bing, untuk membuat indeks yang paling
relevan bagi penggunanya.
8. Facebook
External Hit
Facebook
juga memiliki perayap khusus. Sebagai contoh, ketika pengguna Facebook ingin
berbagi link ke halaman konten eksternal dengan pengguna
lainnya, crawler akan melakukan scraping pada kode HTML
halaman dan memberikan kedua pengguna tersebut dengan judul, tag, hingga gambar
pada konten.
5. JENIS-JENIS
WEB CRAWLER
1. Social
Media Crawling
Tidak
semua media sosial memungkinkan untuk dirayapi, karena beberapa jenis crawling
bisa saja ilegal dan melanggar privasi data. Namun, terdapat beberapa penyedia
platform media sosial yang terbuka terhadap hal ini, misalnya Twitter dan
Pinterest. Mereka mengizinkan spider bot untuk memindai halaman jika
tidak mengungkapkan informasi pribadi apa pun.
2. News
Crawling
Dengan
munculnya internet, berita-berita dari berbagai belahan dunia dapat diakses
dengan cepat. Untuk mengambil data tersebut dari
berbagai website tentu dapat tak terkendali. Terdapat
banyak web crawlers yang dapat mengatasi hal ini. Perayap tersebut
mengambil data dari konten berita baru, lama, dan yang diarsipkan, hingga
membaca RSS feeds. Crawlers ini memindai informasi seperti tanggal
penerbitan, nama penulis, paragraf utama, judul utama, dan bahasa dari konten
berita tersebut.
3. Video
Crawling
Menonton
sebuah video terbilang jauh lebih mudah daripada membaca banyak konten
sekaligus. Jika kamu menyematkan video YouTube, Soundcloud, atau konten video
lainnya di website kamu, konten tersebut dapat diindeks juga oleh
beberapa web crawlers.
4. Email
Crawling
Email crawling sangat
berguna untuk mendapatkan leads karena jenis perayapan ini membantu
memindai alamat email. Namun perlu dicatat bahwa crawling jenis ini
bisa saja ilegal karena melanggar privasi serta tidak dapat digunakan tanpa
izin dari pengguna.
5. Image
Crawling
Jenis crawling ini
diterapkan pada gambar. Internet dipenuhi dengan representasi visual.
Karenanya, jenis bot ini membantu pengguna menemukan gambar yang relevan dari
jutaan gambar yang terdapat di mesin pencari.
6. PERBEDAAN
WEB CRAWLING & WEB SCRAPPING
1. Definisi
·
Web crawling: Proses
menggunakan web robot atau web spider untuk membaca dan
menyimpan seluruh konten dalam sebuah website dengan tujuan
pengarsipan atau indexing.
·
Web scraping: Proses
mengekstraksi data dari sebuah website atau web page ke
format file yang baru.
2. Fokus
dan cakupan
·
Web crawling: Cakupan
besar karena lingkupnya adalah seluruh halaman dan website yang ada
di internet.
·
Web scraping: Cakupan
yang kecil karena hanya berfokus mencari kumpulan data spesifik dari
sebuah website.
3. Tujuan
·
Web crawling: Mencari
atau menemukan URL atau link di internet.
·
Web scraping:
Menghasilkan data dari target website untuk dianalisis lebih jauh
lagi.
4. Pengetahuan
terhadap website
·
Web crawling: Tidak perlu
tahu URL atau domain yang ingin di-crawl karena tujuannya memang untuk
mencari, menemukan, dan mengindeks URL tersebut.
·
Web scraping: Setidaknya
tahu di domain mana kamu akan mengambil data dari
sebuah website.
5. Output
·
Web crawling: daftar URL
yang telah di-crawl.
·
Web scraping:data
field seperti nama produk, harga produk, ukuran, dan lain sebagainya
tergantung pemakaiannya.
7. KESIMPULAN
Web crawler merupakan salah satu bagian penting dari mesin pencari yang digunakan untuk
mengindeks dan menemukan konten. Banyak perusahaan mesin pencari yang memiliki
bot mereka sendiri, seperti Googlebot yang didukung oleh Google, dan Bingbot
oleh Microsoft.
Selain itu, ada
beberapa jenis crawling yang digunakan untuk memenuhi kebutuhan
pengguna, seperti crawling dalam bentuk video, gambar, hingga media
sosial.
Mempunyai website
yang baik dengan kecepatan optimal jelas menjadi salah satu faktor crawlers dapat
lebih mudah memindai konten di dalamnya. Kamu bisa menggunakan layanan Web Hosting serta Domain dari Exabytes.
Tak hanya menawarkan peningkatan kecepatan, namun juga bantuan teknis
profesional 24 jam yang bisa membantu mengatasi kendala yang kamu alami.
DAFTAR
PUSTAKA
https://www.niagahoster.co.id/blog/apa-itu-web-crawler/
https://gudangssl.id/blog/web-crawler-adalah/
https://glints.com/id/lowongan/web-crawling-adalah/#.Yo5ogahBxnK
https://www.exabytes.co.id/blog/apa-itu-web-crawler/




Komentar
Posting Komentar