El archivo robots.txt
El archivo robots.txt es un simple archivo de texto que debe estar en la raiz de tu sitio web y debe ser accesible por cualquier robot que vaya a visitar tu sitio web. Básicamente les dice a los motores de búsqueda que partes del sitio deberían analizar y cuáles no.
Dependiendo de tu sitio web, las opciones son:
Para que los robots tengan acceso completo a tu web puedes crear un archivo vacío o simplemente no crearlo. En todo caso si quieres tener uno, este debe contener:
User-agent: *
Disallow:
Para que los robots no tengan acceso a tu sitio web:
User-agent: *
Disallow: /
Para que no tengan acceso a ciertas partes de tu servidor:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Si quieres que un robot en específico no pueda acceder a tu sitio:
User-agent: RobotMalo
Disallow: /
Si quieres que solamente un robot en específico pueda acceder a tu sitio:
User-agent: Googlebot
Disallow:
El robot de Google no puede acceder a tu sitio
Esta es una gran señal de alarma, normalmente la puedes ver en algunos emails o en Google Search Console. Si el robot de Google no puede acceder a tu sitio estas en graves problemas ya que no podrá indexarlo y perderas casi todo tu posicionamiento. En todo caso la recuperación es relativamente sencilla.
Lo primordial es entender el problema y para ello debes revisar los archivos log de tu servidor. Muchas veces se trata de que tu servidor esta bloqueando los IPs de los robots, es por eso que debes desactivar tus firewalls o contactarte con tu servicio de alojamiento para que deje a Google hacer su trabajo.
Otro caso común es que Google visita demasiado tu sitio web y hacer que el servicio se caiga. Para ello tienes dos caminos. El primero es optimizar tu web para que pueda aceptar cargas grandes de visitas, para ello puedes servirte de sistemas de caché, optimizar tus bases de datos o hacer tu web más ligera.
El segundo camino es pedirle a Google que visite tu sitio con menos frecuencia. Para ello debes conectarte a Google Search Console y reducir el tiempo de rastreo. Este camino es el menos aconsejable ya que tu web debería poder soportar cargas grandes sin problemas.
