Sun. Feb 28th, 2021

“Terindeks, meskipun diblokir oleh robots.txt” muncul di Google Search Console ( GSC ) saat Google telah mengindeks URL yang tidak diizinkan untuk dirayapi.

Dalam kebanyakan kasus, ini akan menjadi masalah langsung ketika Anda memblokir perayapan di file robots.txt Anda. Tetapi ada beberapa kondisi tambahan yang dapat memicu masalah, jadi mari kita lakukan proses pemecahan masalah berikut untuk mendiagnosis dan memperbaiki berbagai hal seefisien mungkin:

Sumber gambar

Anda dapat melihat bahwa langkah pertama adalah bertanya pada diri sendiri apakah Anda ingin Google mengindeks  URL .

Jika tidak ingin URL diindeks

Cukup tambahkan tag meta robot noindex dan pastikan untuk mengizinkan perayapan, anggap itu kanonis.

Jika Anda memblokir halaman agar tidak dirayapi, Google mungkin masih mengindeksnya karena perayapan dan pengindeksan adalah dua hal yang berbeda. Kecuali Google dapat meng-crawl halaman, mereka tidak akan melihat tag meta noindex dan mungkin masih mengindeksnya karena memiliki link.

Jika URL dikanonikalisasi ke halaman lain, jangan tambahkan tag meta robot noindex. Cukup pastikan sinyal kanonikalisasi yang tepat tersedia, termasuk tag kanonis di halaman kanonis, dan izinkan perayapan sehingga sinyal lolos dan terkonsolidasi dengan benar.

Jika ingin URL diindeks

Anda perlu mencari tahu mengapa Google tidak dapat merayapi URL dan menghapus blokir.

Penyebab yang paling mungkin adalah blok perayapan di robots.txt. Tetapi ada beberapa skenario lain di mana Anda mungkin melihat pesan yang mengatakan bahwa Anda diblokir. Mari kita bahas ini dalam urutan yang mungkin seharusnya Anda cari.

Periksa blok perayapan di robots.txt

Cara termudah untuk melihat masalah ini adalah dengan penguji robots.txt di GSC , yang akan menandai aturan pemblokiran.

2-robot-tester.gif

Jika Anda tahu apa yang Anda cari atau tidak memiliki akses ke GSC , Anda dapat membuka domain.com/robots.txt untuk menemukan file tersebut. Kami memiliki lebih banyak informasi di artikel robots.txt kami, tetapi Anda mungkin mencari pernyataan pelarangan seperti:

Larang: /

Mungkin ada agen pengguna tertentu yang disebutkan, atau mungkin memblokir semua orang. Jika situs Anda baru atau baru saja diluncurkan, Anda mungkin ingin mencari:

Agen-pengguna: * 
Disallow: /
TIDAK DAPAT MENEMUKAN MASALAH?

Ada kemungkinan seseorang telah mengatasi blok robots.txt dan menyelesaikan masalah tersebut sebelum Anda menyelidiki masalahnya. Itu skenario kasus terbaik. Namun, jika masalah tampaknya telah teratasi tetapi muncul kembali tidak lama setelah itu, Anda mungkin mengalami pemblokiran sesekali.

Bagaimana cara mengatasi?

Anda akan ingin menghapus pernyataan disallow yang menyebabkan pemblokiran. Bagaimana Anda melakukan ini bervariasi tergantung pada teknologi yang Anda gunakan.

WordPress

Jika masalah memengaruhi seluruh situs web Anda, kemungkinan besar penyebabnya adalah Anda memeriksa pengaturan di WordPress untuk melarang pengindeksan. Kesalahan ini biasa terjadi di website baru dan setelah migrasi website. Ikuti langkah-langkah berikut untuk memeriksanya:

  1. Klik “Settings”
  2. Klik “Reading”
  3. Pastikan “search engine visibility” tidak dicentang.
3-wordpress-search-engine-block.png
WordPress dengan Yoast

Jika Anda menggunakan plugin Yoast SEO , Anda dapat langsung mengedit file robots.txt untuk menghapus pernyataan pemblokiran.

  1. Klik “Yoast SEO
  2. Klik “tools”
  3. Klik “Editor file”
WordPress dengan Rank Math

Mirip dengan Yoast, Rank Math memungkinkan Anda mengedit file robots.txt secara langsung.

  1. Klik “Rank Math”
  2. Klik “Settings general”
  3. Klik “Edit robots.txt”
FTP atau hosting

Jika Anda memiliki akses FTP ke situs tersebut, Anda dapat langsung mengedit file robots.txt untuk menghapus pernyataan pelarangan yang menyebabkan masalah. Penyedia hosting Anda juga dapat memberi Anda akses ke Manajer File yang memungkinkan Anda mengakses file robots.txt secara langsung .

Periksa blok yang terputus-putus

Masalah yang terputus-putus bisa jadi lebih sulit untuk dipecahkan karena kondisi yang menyebabkan pencekalan mungkin tidak selalu ada.

Yang saya rekomendasikan adalah memeriksa riwayat file robots.txt Anda. Misalnya, di dalam GSC robots.txt tester , jika Anda mengklik dropdown, Anda akan melihat versi terakhir dari file yang Anda dapat mengklik dan melihat apa yang mereka terkandung.

4-historis-robot-txt.gif

Mesin Wayback di archive.org juga memiliki riwayat file robots.txt untuk situs web yang mereka rayapi. Anda dapat mengklik salah satu tanggal mereka memiliki datanya dan melihat file apa yang disertakan pada hari itu.

5-wayback-machine.png

Atau gunakan versi beta dari laporan Perubahan, yang memungkinkan Anda dengan mudah melihat perubahan konten di antara dua versi yang berbeda.

6-wayback-machine.gif

Bagaimana cara mengatasi

Proses untuk memperbaiki blok yang terputus-putus akan bergantung pada apa yang menyebabkan masalah. Misalnya, satu kemungkinan penyebabnya adalah cache bersama antara lingkungan pengujian dan lingkungan hidup . Saat cache dari lingkungan pengujian aktif, file robots.txt mungkin menyertakan perintah pemblokiran. Dan saat cache dari lingkungan langsung aktif, situs tersebut mungkin dapat dirayapi. Dalam kasus ini, Anda ingin memisahkan cache atau mungkin mengecualikan file .txt dari cache di lingkungan pengujian.

Periksa blok agen pengguna

Pemblokiran agen pengguna adalah saat situs memblokir agen pengguna tertentu seperti Googlebot atau AhrefsBot. Dengan kata lain, situs tersebut mendeteksi bot tertentu dan memblokir agen pengguna yang sesuai.

Jika Anda dapat melihat halaman yang bagus di browser biasa tetapi diblokir setelah mengubah agen pengguna Anda, itu berarti agen pengguna tertentu yang Anda masukkan diblokir.

Anda dapat menentukan agen pengguna tertentu menggunakan devtools Chrome . Pilihan lainnya adalah menggunakan ekstensi browser untuk mengubah agen pengguna seperti ini .

Alternatifnya, Anda bisa memeriksa blok agen pengguna dengan perintah cURL. Berikut cara melakukan ini di Windows:

  1. Tekan Windows + R untuk membuka kotak “Run”.
  2. Ketik “cmd” lalu klik ” Oke “.
  3. Masukkan perintah cURL seperti ini:
curl -A “nama-agen-pengguna-di sini” -Lv [URL] curl -A “Mozilla / 5.0 (kompatibel; AhrefsBot / 7.0; + http: //ahrefs.com/robot/)” -Lv https: // ahrefs.com

Bagaimana cara memperbaiki

Sayangnya, ini adalah masalah lain di mana mengetahui cara mengatasi’nya akan tergantung di mana Anda menemukan bloknya. Banyak sistem berbeda yang dapat memblokir bot, termasuk .htaccess, konfigurasi server, firewall, CDN , atau bahkan sesuatu yang mungkin tidak dapat Anda lihat yang dikendalikan oleh penyedia hosting Anda. Taruhan terbaik Anda mungkin menghubungi penyedia hosting atau CDN Anda dan bertanya dari mana blok itu berasal dan bagaimana Anda bisa mengatasinya.

Misalnya, berikut dua cara berbeda untuk memblokir agen pengguna di .htaccess yang mungkin perlu Anda cari.

RewriteEngine On 
RewriteCond% {HTTP_USER_AGENT} Googlebot [NC] RewriteRule. * - [F, L]

Atau…

BrowserMatchNoCase "Googlebot" bot 
Memesan Izinkan, Tolak 
Izinkan dari SEMUA 
Tolak dari env = bot

Periksa blok IP

Jika Anda telah mengonfirmasi bahwa Anda tidak diblokir oleh robots.txt dan mengesampingkan pemblokiran agen pengguna, kemungkinan itu adalah  blok IP .

Bagaimana cara mengatasi

Blok IP adalah masalah yang sulit untuk dilacak. Seperti halnya blok agen pengguna, taruhan terbaik Anda mungkin adalah menghubungi penyedia hosting atau CDN Anda dan menanyakan dari mana blok itu berasal dan bagaimana Anda dapat mengatasinya.

Berikut salah satu contoh dari sesuatu yang mungkin Anda cari di .htaccess:

deny from 123.123.123.123

Kesimpulan

Sering kali, peringatan “diindeks, meskipun diblokir oleh robots.txt” dihasilkan dari blok robots.txt. sumber . Semoga panduan ini membantu Anda menemukan dan memperbaiki masalah jika bukan itu masalahnya.

Advertisements

Leave a Reply