Web Crawler Routing dan Protocol

Kelompok 4 :
1. Crislie Santoso / 51418581
2. Dewi Irwan / 51418817
3. Lisa Angeline / 53418803
4. Nabila Suraya / 55418085
5. Ronald Leonardo P. / 56418357
6. Windy Aulia / 57418364

Pengertian Web Crawler

Web crawler adalah sebuah perangkat lunak yang digunakan untuk menjelajah serta mengumpulkan halaman-halaman web yang selanjutnya diindeks oleh mesin pencari (Gatial E,2005). Sering juga disebut dengan web spider atau web robot. Web Crawler adalah program yang menelusuri World Wide Web dengan cara yang metodis, otomatis dan teratur. Istilah lain untuk web crawler adalah ant, automatic indexer, bots, web spiders atau web robots. Web crawler dapat memperoleh informasi sesuai dengan kata kunci yang diberikan, sama halnya dengan mesin pencari atau search engine. Web Crawler dirancang untuk menelusuri halaman web dan memasukkannya ke dalam database lokal.

Cara web crawler bekerja
Secara umum, proses crawling dimulai dengan list URL yang akan dikunjungi, disebut seeds. Kemudian web crawler akan mengunjungi URL tersebut satu per satu. Setiap page URL yang dikunjungi akan diidentifikasi apakah ada hyperlink di dalamnya. Jika ada maka akan ditambahkan ke dalam list URL yang akan dikunjungi. Ini disebut crawl frontier. URL yang didapat dari crawl frontier akan dikunjungi secara rekursif dengan beberapa kebijakan tertentu.

Fungsi Web Crawler / Web Spider
1.      Pemanfaatan web crawler dalam mengumpulkan data atau informasi dari internet dapat mendukung pertumbuhan ekonomi bisnis sebuah kota yang menjadikan “Smart Cities” sebagai tujuannya.
2.      Memudahkan pengambilan informasi yang tersebar dan selalu berubah-ubah di Internet dalam jumlah besar

3.      Melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di Internet. Hasil pengumpulan situs web selanjutnya akan di indeks oleh mesin pencari sehingga mempermudah pencarian informasi di Internet.

Contoh Web Crawler 

Setiap mesin pencari yang ada di Internet memiliki web crawler-nya sendiri. Oleh karena itu, jika Anda melakukan pencarian dengan keyword yang sama di mesin pencari lain akan menghasilkan hasil yang berbeda pula.
Beberapa web crawler lain selain Googlebot adalah Bingbot dari Bing, Slurp Bot dari Yahoo, DuckDuckBot dari DuckDuckGO, Alexa Crawler dari Amazon.


Crawling Policies (Kebijakan Perayapan)

1. Kebijakan Pemilihan : Yang menyatakan halaman untuk diunduh.
2. Kebijakan Kunjungan Ulang : Yang menyatakan kapan memeriksa perubahan pada halaman.
3. Kebijakan Kesopanan : Yang menyatakan bagaimana menghindari kelebihan situs web.
4. Kebijakan Paralelisasi : Yang menyatakan cara mengoordinasikan perayap web terdistribusi.

Routing Protocol


Routing Information Protocol (RIP)
Interior Gateway Routing Protocol (IGRP)
Open Short Path First (OSPF)
·         Menggunakan algoritma “distance vector”.
·         Metric yang dilakukan pada protokol ini berdasarkan hop count untuk pemilihan jalur terbaik.
·         Jika hop count lebih dari 15, maka paket datagram akan dibuang dan tidak diteruskan.
·         Update routing table pada protokol ini akan dilakukan secara broadcast setiap 30 detik.
·         Menggunakan algoritma “distance vector”.
·         Memiliki hop maksimum 255, tetapi default dari protokolnya sendiri adalah 100.
·         Menggunakan bandwidth dan garis menunda secara default untuk menentukan rute terbaik dalam sebuah interkoneksi.
·         Update routing pada protokol ini dilakukan secara broadcast setiap 90 detik.

·      cocok diterapkan pada jaringan yang memiliki router yang berbeda-beda.
·      Jika jaringan yang dikelola adalah jaringan besar, maka OSPF adalah pilihan protokol satu-satunya agar semua router tersebut bisa melakukan routing.
·      Update routing table pada protokol ini dilakukan secara floaded saat terjadi perubahan topologi jaringan.





Enhanced Interior Gateway Routing Protocol (EIGRP)
Border Gateway Protocol (BGP)
Intermediate System-to-Intermediate System (IS-IS)
·         Menggunakan algoritma “advanced distance vector” dan menggunakan “cost load balancing” yang tidak sama. Algoritma yang dipakai adalah kombinasi antara “distance vector” dan “link-state”.
·         Menggunakan Diffusing Update Algorithm (DUAL) untuk menghitung jalur terpendek.
·         Broadcast-broadcast EIGRP di-update setiap 90 detik ke semua router EIGRP yang berdekatan.
·         Memiliki kemampuan untuk melakukan pengumpulan rute, pertukaran rute dan menentukan rute terbaik menuju ke sebuah lokasi dalam sebuah jaringan.
·         Termasuk ke dalam kategori routing protocol jenis Exterior Gateway Protocol (EGP).
·         Update informasi pada protokol ini akan dikirim melalui koneksi TCP.
·         Kelebihan dari protokol ini adalah instalasi yang sangat sederhana.
·         Digunakan pada perangkat jaringan komputer yang berguna untuk menentukan jalur terbaik bagi datagram ketika diarahkan ke tujuan.

Sumber :
1.      http://jurnal.atmaluhur.ac.id/index.php/knsi2018/article/download/413/338
2.      http://jurnal.untan.ac.id/index.php/justin/article/download/18687/15772
3.      http://lib.itenas.ac.id/kti/wp-content/uploads/2013/10/No.-2-Vol.-2-Mei-Agustus-2011-5.pdf

Komentar

Postingan populer dari blog ini

Bagaimana cara membuat pitch deck untuk menarik Investor?

KASUS PAJAK DI INDONESIA

MASALAH SOSIAL SAMPAH VISUAL