File robots.txt memungkinkan kita untuk mengontrol dan memberikan izin bagi crawler search engine, mana konten blog yang boleh di akses dan mana konten blog yang tidak boleh diakses. Pada pengaturan file robots.txt ini hanya dikenal dua macam perintah yaitu DISALLOW untuk perintah larangan peng-indexan dan ALLOW untuk perintah mengizinkan peng-indexan.
Sebagai contoh bagi setiap blog yang menggunakan platform Blogger rata-rata akan menggunakan robots.txt seperti berikut:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://www.example.com/feeds/posts/default?orderby=updated
penjelasan dari robot.txt diatas :
Mediapartners-Google adalah robot dari Google Adsense, dan biarkan seperti defaultnya karena jika Anda salah mengubahnya maka iklan yang ditayangkan tidak akan menyesuaikan dengan konten Anda.
Baris berikutnya adalah untuk semua robot yang ditandai dengan tanda bintang (*). Pada konfigurasi defaultnya jelas terlihat bahwa label dari blog kita sudah disetting untuk tidak terindeks dengan menulis Disallow: /search.
Perlu di ingat bahwa tanda garis miring ( / ) di ibaratkan sebagai homepage Anda, jadi misalkan Anda ingin supaya label terindeks jangan hanya mengisi dengan garis miring seperti ini Disallow: / karena itu sama saja Anda tidak memperbolehkan robot menelusuri blog Anda,
tapi menjadi seperti contoh di bawah ini:
User-agent: Mediapartners-GoogleDengan konfigurasi seperti di atas maka semua artikel dan label akan terindeks. Dan untuk memblock robot di halaman tertentu, Anda cukup menulis seperti berikut:
Disallow:
User-agent: *
Disallow:
Allow: /
Sitemap: http://www.example.com/feeds/posts/default?orderby=updated
User-agent: Mediapartners-GoogleNote:
Disallow:
User-agent: *
Disallow: /p/daftar-isi.html
Allow: /
Sitemap: http://www.example.com/feeds/posts/default?orderby=updated
memecahkan masalah paginasi yang muncul di blogspot setelah kita menghapus Disallow: /search maka kita bisa menggunakan pengaturan seperti berikut untuk memblock halaman paginasi:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search?updated-min=
Disallow: /search?updated-max=
Disallow: /search/label/*?updated-min=
Disallow: /search/label/*?updated-max=
Allow: /
Sitemap: http://www.example.com/feeds/posts/default?orderby=updated
Setelah mengubahnya pastikan semuanya sesuai seperti apa yang kita inginkan dengan mengunjungi www.example.com/robots.txt.
Note :
- Ganti Example.com dengan domain Anda.
- Gunakan dengan hati-hati. Jika salah menggunakan fitur ini maka blog Anda bisa diabaikan oleh mesin pencari.
Demikian Artikel Penjelasan dan Cara Setting Custom Robot.txt di Blogger
Semoga Bermanfaat