Web Crawler Routing dan Protocol
Kelompok 4 :
1. Crislie Santoso / 51418581
2. Dewi Irwan / 51418817
3. Lisa Angeline / 53418803
4. Nabila Suraya / 55418085
5. Ronald Leonardo P. / 56418357
6. Windy Aulia / 57418364
1. Crislie Santoso / 51418581
2. Dewi Irwan / 51418817
3. Lisa Angeline / 53418803
4. Nabila Suraya / 55418085
5. Ronald Leonardo P. / 56418357
6. Windy Aulia / 57418364
Pengertian Web Crawler
Web crawler
adalah sebuah perangkat lunak yang digunakan untuk menjelajah serta
mengumpulkan halaman-halaman web yang selanjutnya diindeks oleh mesin pencari
(Gatial E,2005). Sering juga
disebut dengan web spider atau web robot. Web
Crawler adalah program yang menelusuri World Wide Web dengan cara yang metodis,
otomatis dan teratur. Istilah lain untuk web crawler adalah ant, automatic
indexer, bots, web spiders atau web robots. Web crawler dapat memperoleh
informasi sesuai dengan kata kunci yang diberikan, sama halnya dengan mesin
pencari atau search engine. Web Crawler dirancang untuk menelusuri halaman web
dan memasukkannya ke dalam database lokal.
Cara web crawler
bekerja
Secara umum,
proses crawling dimulai dengan list URL yang akan dikunjungi, disebut seeds.
Kemudian web crawler akan mengunjungi URL tersebut satu per satu. Setiap page
URL yang dikunjungi akan diidentifikasi apakah ada hyperlink di dalamnya. Jika
ada maka akan ditambahkan ke dalam list URL yang akan dikunjungi. Ini disebut
crawl frontier. URL yang didapat dari crawl frontier akan dikunjungi secara rekursif dengan beberapa
kebijakan tertentu.
Fungsi Web
Crawler / Web Spider
1. Pemanfaatan web crawler dalam mengumpulkan
data atau informasi dari internet dapat mendukung pertumbuhan ekonomi bisnis
sebuah kota yang menjadikan “Smart Cities” sebagai tujuannya.
2. Memudahkan pengambilan informasi yang tersebar
dan selalu berubah-ubah di Internet dalam jumlah besar
3. Melakukan penjelajahan dan pengambilan
halaman-halaman web yang ada di Internet. Hasil pengumpulan situs web selanjutnya akan di indeks oleh
mesin pencari sehingga mempermudah pencarian informasi di Internet.
Contoh Web Crawler
Setiap mesin pencari yang ada di Internet memiliki web
crawler-nya sendiri. Oleh karena itu, jika Anda melakukan pencarian dengan
keyword yang sama di mesin pencari lain akan menghasilkan hasil yang berbeda
pula.
Beberapa web crawler lain selain Googlebot adalah Bingbot dari
Bing, Slurp Bot dari Yahoo, DuckDuckBot dari DuckDuckGO, Alexa Crawler dari
Amazon.
Crawling Policies (Kebijakan Perayapan)
1. Kebijakan Pemilihan : Yang menyatakan halaman untuk diunduh.
2. Kebijakan Kunjungan Ulang : Yang menyatakan kapan memeriksa
perubahan pada halaman.
3. Kebijakan Kesopanan : Yang menyatakan bagaimana menghindari
kelebihan situs web.
4. Kebijakan Paralelisasi : Yang menyatakan cara
mengoordinasikan perayap web terdistribusi.
Routing
Protocol
Routing Information Protocol (RIP)
|
Interior Gateway
Routing Protocol (IGRP)
|
Open Short Path First (OSPF)
|
·
Menggunakan
algoritma “distance vector”.
·
Metric yang dilakukan pada protokol ini
berdasarkan hop count untuk pemilihan jalur terbaik.
·
Jika hop count lebih dari 15, maka paket
datagram akan dibuang dan tidak diteruskan.
·
Update routing table pada protokol ini akan
dilakukan secara broadcast setiap 30 detik.
|
·
Menggunakan
algoritma “distance vector”.
·
Memiliki
hop maksimum 255, tetapi default dari protokolnya sendiri adalah 100.
·
Menggunakan
bandwidth dan garis menunda secara default untuk menentukan rute terbaik
dalam sebuah interkoneksi.
·
Update routing pada protokol ini dilakukan
secara broadcast setiap 90 detik.
|
·
cocok diterapkan pada jaringan yang memiliki
router yang berbeda-beda.
·
Jika
jaringan yang dikelola adalah jaringan besar, maka OSPF adalah pilihan
protokol satu-satunya agar semua router tersebut bisa melakukan routing.
·
Update routing table pada protokol ini
dilakukan secara floaded saat terjadi perubahan topologi jaringan.
|
Enhanced Interior Gateway Routing
Protocol (EIGRP)
|
Border Gateway Protocol (BGP)
|
Intermediate System-to-Intermediate
System (IS-IS)
|
·
Menggunakan
algoritma “advanced distance vector” dan menggunakan “cost load balancing”
yang tidak sama. Algoritma yang dipakai adalah kombinasi antara “distance
vector” dan “link-state”.
·
Menggunakan
Diffusing Update Algorithm (DUAL) untuk menghitung jalur terpendek.
·
Broadcast-broadcast EIGRP di-update setiap 90
detik ke semua router EIGRP yang berdekatan.
|
·
Memiliki
kemampuan untuk melakukan pengumpulan rute, pertukaran rute dan menentukan
rute terbaik menuju ke sebuah lokasi dalam sebuah jaringan.
·
Termasuk
ke dalam kategori routing protocol jenis Exterior Gateway Protocol (EGP).
·
Update informasi pada protokol ini akan
dikirim melalui koneksi TCP.
·
Kelebihan dari protokol ini adalah instalasi
yang sangat sederhana.
|
·
Digunakan
pada perangkat jaringan komputer yang berguna untuk menentukan jalur terbaik
bagi datagram ketika diarahkan ke tujuan.
|
Sumber :
1.
http://jurnal.atmaluhur.ac.id/index.php/knsi2018/article/download/413/338
2.
http://jurnal.untan.ac.id/index.php/justin/article/download/18687/15772
3.
http://lib.itenas.ac.id/kti/wp-content/uploads/2013/10/No.-2-Vol.-2-Mei-Agustus-2011-5.pdf
Komentar
Posting Komentar