WordPress.org

Noticias

Errores habituales utilizando “noindex” y el Robots.txt en WordPress

Errores habituales utilizando “noindex” y el Robots.txt en WordPress


No vengo a descubrir ahora que WordPress ayuda mucho a optimizar una web para posicionarla mejor. Facilita implementar el SEO. Tampoco seré el primero que advierte que los plugins de SEO no hacen SEO por ti, pero como digo, facilitan bastante implementar acciones que pueden repercutir positivamente.

Algunas de las acciones que podemos hacer en WordPress, y que se suelen hacer mediante plugins SEO es marcar una página con “noindex” a través de su etiqueta meta robots o bien utilizar el robots.txt para bloquear o permitir el acceso a ciertas partes de la web.

Y esas dos acciones tienen sentido para SEO, pero hay que saber utilizarlas porque se pueden cometer errores, que suelen ser habituales además.

En primer lugar, ¿qué implica “noindex”?

Empecemos por lo básico. Existe la etiqueta meta robots, la cual encontramos en el <head> de una página y ésta puede hacer que los motores de búsqueda indexen o no páginas concretas en los resultados de búsqueda (las SERPs).

Aspecto de una etiqueta meta robots:

<meta name="robots" content="noindex">

Dentro de la etiqueta meta robots podemos indicar diferentes reglas, siendo las más habituales:

  • index: por defecto es la que suele formar la etiqueta meta robots junto con “follow”. De esta forma un motor de búsqueda indexará la página siempre y cuando cumpla con una serie de requisitos, porque una página indexable no siempre se tiene por qué indexar (pero de eso hablamos otro día).
  • noindex: protagonista de este post. Hace lo contrario a la anterior, le estamos diciendo a Google u otro motor de búsqueda que no indexe esa página. Lo que introducimos en la etiqueta meta robots es una directiva, por lo que Google obedece y no la indexa, y en el caso de que la página estuviera indexada y hemos cambiado su estado a “noindex”, la desindexará más pronto que tarde (aunque en ocasiones sean varias semanas).
  • follow: le decimos a los motores de búsqueda que sus bots sigan los enlaces que hay en esa página, es decir, que vayan a las páginas que hay en dichos enlaces, internos o externos.
  • nofollow: lo contrario a la anterior. 

Quiero profundizar un poco más en el “noindex” y en qué hacen los bots a grandes rasgos cuando se encuentran con este caso.

Para poder ver que una página tiene “noindex” debe poder acceder a esa página, es decir, a su código para llegar a la etiqueta meta robots. Una vez comprueba que es “noindex follow”, por ejemplo, el bot seguirá rastreando los enlaces (por el “follow”) pero no indexará la página.

Y repito, para poder desindexar la página o bien no indexarla de inicio, debe poder acceder a ella.

El uso del Robots.txt

Vamos con el coprotagonista de este post, el robots.txt

He adelantado al comienzo del post que el robots.txt puede bloquear el acceso de los motores de búsqueda a ciertas partes de una web, o bien dar acceso. 

No voy a detenerme en cómo funciona un robots.txt, te dejo esta documentación de Google en el que lo explican.

Cuando en un archivo robots.txt bloqueamos el acceso mediante la regla disallow conseguimos que un bot no acceda a esa URL o directorio

Tengamos en cuenta que un user-agent puede rastrear cualquier página por defecto que no esté bloqueada mediante disallow.

Lo que conseguimos bloqueando el acceso a una página es que Google o cualquier otro motor de búsqueda no emplee recursos ni tiempo de rastreo en ella. 

A veces lo hacemos por cuestiones SEO, como optimizar el rastreo para que vaya a lo realmente importante para la web y el negocio. En otras ocasiones por cuestiones técnicas o de seguridad.

Podemos pensar que si el disallow consigue que Google no acceda a una página, ésta no puede indexar, porque para que haya indexación primero debe rastrearse, ¿verdad?

Correcto, pero el robots.txt tiene limitaciones.

Lo más importante es reconocer que el robots.txt no es una herramienta para evitar la indexación, sino para evitar rastreos.

Una página que está bloqueada por robots.txt y que a su vez está enlazada desde otra web puede ser rastreada desde esa referencia y si la página es indexable, se puede indexar.

Limitas el rastreo, pero no la indexación en este caso.

La mala combinación del robots.txt y el “noindex” en la etiqueta meta robots

Ahora que entendemos el funcionamiento básico tanto de la etiqueta meta robots como del archivo robots.txt y la regla disallow, abordemos el error habitual.

Te voy a plantear una pregunta: ¿qué ocurriría si marco una página con “noindex” en el meta robots, y a su vez bloqueo su rastreo mediante disallow en el robots.txt? 

Es lícito pensar que esa página no se indexará y en efecto, es probable que no se indexe, pero no estamos haciendo lo correcto.

Una página que está marcada con “noindex” y a su vez está bloqueada en el robots.txt mediante disallow puede llegar a indexar o bien no desindexarse si venimos de una página que lo estaba previamente.

¿Por qué?

Porque para que un bot sepa que una página tiene “noindex” en el meta robots tiene que poder acceder a su HTML, cosa que no puede hacer si marcamos la URL con disallow en el robots.txt

Y el resultado de esto es que una página que queremos desindexar no se desindexe o tarde más de la cuenta.

Es habitual ver como ciertas páginas o secciones de una web se marcan como no indexables a la vez que se bloquean mediante robots.

Cuando quieras limitar el rastreo por cualquier motivo: robots.txt

Cuando quieres no indexar una página: “noindex” en el meta robots.

Podríamos pensar en para qué queremos que Google rastree una página que no se indexa. Eso da para otro post, pero por resumir; puede que dentro de esa página haya enlaces que sí queremos que Google rastree, y para ello un “noindex follow” ayuda, y claro, que se rastree esa página y sus enlaces.

Otra opción que se puede dar por válida, es bloquear mediante disallow una página o directorio que ya lleva tiempo desindexado, además de estar marcado con “noindex”. Raro sería que se indexara de nuevo.
Como ves, son varias las aristas de la posible combinación y usos tanto del robots.txt como del “noindex”, pero si quieres asegurarte de hacer las cosas correctamente, este es el camino (“this is the way”).

Una respuesta a «Errores habituales utilizando “noindex” y el Robots.txt en WordPress»

  1. Muy bien explicado, Álex. No había pensado sobre la mala combinación de ‘disallow’ + ‘noindex’, pero tiene mucho sentido. Gracias por el dato 😉

Deja una respuesta