TUGAS PERTEMUAN 9 PENGANTAR WEB SCIENCE

 

RANGKUMAN TUGAS WEB CRAWLER
MATA KULIAH PENGANTAR WEB SCIENCE

  


  

Disusun Oleh:

Ananda Nurlita (50420166)

2IA18

  


TEKNIK INFORMATIKA

UNIVERSITAS GUNADARMA

2022

 

 

1.    DEFINISI WEB CRAWLER

Web crawler atau yang juga dikenal web spider, spider bot, web bot, crawler, adalah sebuah program software komputer yang digunakan oleh mesin pencari untuk mengindeks halaman web dan konten yang dimiliki setiap website.

Web crawler adalah sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database mesin pencari. Sehingga saat ada orang yang mencari suatu informasi, mesin pencari akan langsung menampilkan hasil yang relevan dari database tersebut.

Proses Indexing adalah semacam pembuatan ‘katalog perpustakaan’ di internet, sehingga internet dapat mengetahui ke mana harus mengambil informasi saat pengguna melakukan pencarian. Proses indexing sebagian besar terfokus pada teks yang muncul di halaman dan metadata yang tidak dilihat oleh pengguna. Ketika search engine melakukan pengindeksan, maka semua kata akan ditambahkan ke dalam index.


2.    CARA KERJA WEB CRAWLER

Proses crawling bermula dari seed, atau daftar URL yang sudah diketahui crawler. Ia akan merayapi laman web dari daftar URL tersebut. Pada proses tersebut, biasanya bots akan menemukan link ke URL lain. Hal itu akan masuk ke list halaman untuk dirayapi setelah proses sebelumnya selesai. Proses ini berlangsung secara berulang dan terus menerus hingga tanpa batas. Setiap search engine menerapkan algoritma tertentu. Kemudian, bots atau crawler akan bekerja berdasarkan ketentuan yang tertulis di algoritma.

Proses kerja sebuah web crawler. Pertama, web crawler akan mengunjungi sebuah situs dan berbagai link yang terdapat dalam laman tersebut. Namun jika situsmu terbilang baru dan belum ada link lain di dalamnya, kamu bisa meminta search engine untuk mendatangi situsmu, seperti dikutip dari WebFX.

Caranya mudah hanya perlu memasukkan URL situsmu di Google Search Console. Kemudian, tugas tools web crawling berikutnya adalah mencatat setiap link yang mereka temukan ke indeks mereka. Namun, perlu dicatat bahwa web crawler hanya akan mengumpulkan informasi dari laman yang bersifat publik, ya. Web crawler tidak ikut mencatat laman private yang tidak dapat diakses. Setelah itu, web crawler akan mengumpulkan berbagai informasi, seperti tulisan dan meta tag. Informasi tersebut akan tersimpan dalam indeks search engine sehingga dapat muncul ketika pengguna mencari konten dengan keyword yang serupa.


3.    FUNGSI WEB CRAWLER

Fungsi utama dari web crawler memang mengindeks konten di internet. Namun di samping itu, ada beberapa fungsi lain yang juga tak kalah penting:

a.     Membandingkan Harga 

Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.

b.     Data untuk Tools Analisis

Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

c.     Data Untuk Statistik

Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News. Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan di-crawl oleh web crawler nantinya.

 

4.    CONTOH WEB CRAWLER

Banyak sekali mesin pencari yang menggunakan spider bots mereka sendiri. Berikut adalah beberapa contoh web crawlers, di antaranya:

1.     DuckDuck Bot

DuckDuckGo mungkin adalah salah satu mesin pencari paling populer yang tidak melacak riwayat penggunanya dan mengikuti mereka di situs apa pun yang dikunjungi. DuckDuck Bot web crawler membantu menemukan hasil yang paling relevan dan terbaik yang akan memenuhi kebutuhan pengguna.

2.     Baiduspider

Crawler ini dioperasikan oleh mesin mencari Cina bernama Baidu. Seperti bot lainnya, Baiduspider merayap melalui berbagai halaman untuk mengindeks konten di mesin pencari.

3.     Alexabot

Web crawler Amazon, Alexabot digunakan untuk identifikasi konten di website serta backlink. Jika kamu tidak ingin bot ini mengetahui beberapa informasi pribadi, kamu dapat mengecualikan Alexabot dari merayapi website kamu. 

4.     Exabot

Mesin pencari Prancis, Exalead, menggunakan Exabot untuk pengindeksan konten agar dapat dimasukkan ke dalam mesin pencari.

5.     Yahoo! Slurp Bot

Crawler milik Yahoo, Yahoo! Slurp Bot, digunakan untuk mengindeks halaman web guna meningkatkan konten yang dibuat khusus bagi pengguna.

6.     Yandex Bot

Yandex Bot dimiliki oleh mesin pencari terbesar asal Rusia. Kamu pun juga dapat mengecualikan crawler ini dari pengindeksan konten jika kamu tidak berencana untuk memperbesar nama website kamu di negara tersebut.

7.     Bingbot

Bingbot adalah salah satu web spiders paling populer yang didukung oleh Microsoft. Bingbot membantu mesin pencari, Bing, untuk membuat indeks yang paling relevan bagi penggunanya.

8.     Facebook External Hit

Facebook juga memiliki perayap khusus. Sebagai contoh, ketika pengguna Facebook ingin berbagi link ke halaman konten eksternal dengan pengguna lainnya, crawler akan melakukan scraping pada kode HTML halaman dan memberikan kedua pengguna tersebut dengan judul, tag, hingga gambar pada konten.


5.    JENIS-JENIS WEB CRAWLER

1.     Social Media Crawling

Tidak semua media sosial memungkinkan untuk dirayapi, karena beberapa jenis crawling bisa saja ilegal dan melanggar privasi data. Namun, terdapat beberapa penyedia platform media sosial yang terbuka terhadap hal ini, misalnya Twitter dan Pinterest. Mereka mengizinkan spider bot untuk memindai halaman jika tidak mengungkapkan informasi pribadi apa pun.

2.     News Crawling

Dengan munculnya internet, berita-berita dari berbagai belahan dunia dapat diakses dengan cepat. Untuk mengambil data tersebut dari berbagai website tentu dapat tak terkendali. Terdapat banyak web crawlers yang dapat mengatasi hal ini. Perayap tersebut mengambil data dari konten berita baru, lama, dan yang diarsipkan, hingga membaca RSS feeds. Crawlers ini memindai informasi seperti tanggal penerbitan, nama penulis, paragraf utama, judul utama, dan bahasa dari konten berita tersebut.

3.     Video Crawling

Menonton sebuah video terbilang jauh lebih mudah daripada membaca banyak konten sekaligus. Jika kamu menyematkan video YouTube, Soundcloud, atau konten video lainnya di website kamu, konten tersebut dapat diindeks juga oleh beberapa web crawlers. 

4.     Email Crawling

Email crawling sangat berguna untuk mendapatkan leads karena jenis perayapan ini membantu memindai alamat email. Namun perlu dicatat bahwa crawling jenis ini bisa saja ilegal karena melanggar privasi serta tidak dapat digunakan tanpa izin dari pengguna.

5.     Image Crawling

Jenis crawling ini diterapkan pada gambar. Internet dipenuhi dengan representasi visual. Karenanya, jenis bot ini membantu pengguna menemukan gambar yang relevan dari jutaan gambar yang terdapat di mesin pencari.


6.     PERBEDAAN WEB CRAWLING & WEB SCRAPPING

1.     Definisi

·       Web crawling: Proses menggunakan web robot atau web spider untuk membaca dan menyimpan seluruh konten dalam sebuah website dengan tujuan pengarsipan atau indexing.

·       Web scraping: Proses mengekstraksi data dari sebuah website atau web page ke format file yang baru.

2.     Fokus dan cakupan

·       Web crawling: Cakupan besar karena lingkupnya adalah seluruh halaman dan website yang ada di internet.

·       Web scraping: Cakupan yang kecil karena hanya berfokus mencari kumpulan data spesifik dari sebuah website.

3.     Tujuan

·       Web crawling: Mencari atau menemukan URL atau link di internet.

·       Web scraping: Menghasilkan data dari target website untuk dianalisis lebih jauh lagi.

4.     Pengetahuan terhadap website

·       Web crawling: Tidak perlu tahu URL atau domain yang ingin di-crawl karena tujuannya memang untuk mencari, menemukan, dan mengindeks URL tersebut.

·       Web scraping: Setidaknya tahu di domain mana kamu akan mengambil data dari sebuah website.

5.     Output

·       Web crawling: daftar URL yang telah di-crawl.

·       Web scraping:data field seperti nama produk, harga produk, ukuran, dan lain sebagainya tergantung pemakaiannya.

 

7.     KESIMPULAN

Web crawler merupakan salah satu bagian penting dari mesin pencari yang digunakan untuk mengindeks dan menemukan konten. Banyak perusahaan mesin pencari yang memiliki bot mereka sendiri, seperti Googlebot yang didukung oleh Google, dan Bingbot oleh Microsoft.

Selain itu, ada beberapa jenis crawling yang digunakan untuk memenuhi kebutuhan pengguna, seperti crawling dalam bentuk video, gambar, hingga media sosial. 

Mempunyai website yang baik dengan kecepatan optimal jelas menjadi salah satu faktor crawlers dapat lebih mudah memindai konten di dalamnya. Kamu bisa menggunakan layanan Web Hosting serta Domain dari Exabytes. Tak hanya menawarkan peningkatan kecepatan, namun juga bantuan teknis profesional 24 jam yang bisa membantu mengatasi kendala yang kamu alami.

 


DAFTAR PUSTAKA

https://www.niagahoster.co.id/blog/apa-itu-web-crawler/

https://gudangssl.id/blog/web-crawler-adalah/

https://glints.com/id/lowongan/web-crawling-adalah/#.Yo5ogahBxnK

https://www.exabytes.co.id/blog/apa-itu-web-crawler/

 

 

 

 

 

Komentar

Postingan populer dari blog ini

ALGORITMA DDA, BRESENHAM DAN MIDPOINT CIRCLE

PERKEMBANGAN BISNIS INFORMATIKA PERUSAHAAN NASIONAL & INTERNASIONAL