Google no rastrea instantáneamente una página. Puede tardar un día si tienes suerte, pero a veces pueden pasar semanas antes de que rastreen tu página. Esto puede perjudicar significativamente tus esfuerzos SEO así que quédate con nosotros porque en este post hablaremos sobre qué es el crawl budget y por qué es importante para el SEO.
El crawl budget o presupuesto de rastreo en español es el número de páginas que Google rastreará en tu sitio web en un día determinado. Este número varía de un día a otro, es posible que Google rastree 6 páginas de tu web cada día, que rastree 5.000 páginas o incluso que rastree 4.000.000 de páginas cada día. El número de páginas que Google rastrea, tu "presupuesto", se determina generalmente por el tamaño de tu sitio web, su "salud" (cuántos errores encuentra Google) y el número de enlaces a tu site.
Google determina el presupuesto de rastreo sopesando el límite de velocidad de rastreo y la demanda de rastreo.
Algunos de estos factores son cosas en las que se puede trabajar, pero eso lo veremos un poco más adelante.
Los motores de búsqueda funcionan a través de tres funciones principales:
¿Qué es el rastreo en los motores de búsqueda?
El rastreo es el proceso de descubrimiento en el que los motores de búsqueda envían un equipo de robots (conocidos como rastreadores o arañas) para encontrar contenido nuevo y actualizado. El contenido puede variar (puede ser una página web, una imagen, un vídeo, un PDF, etc.) pero independientemente del formato, el contenido se descubre mediante enlaces (links).
¿Qué es el índice de un motor de búsqueda?
Los motores de búsqueda procesan y almacenan la información que encuentran en un índice, una enorme base de datos de todo el contenido que han descubierto y que consideran lo suficientemente bueno para servir a los buscadores.
Clasificación en los motores de búsqueda
Cuando alguien realiza una búsqueda, los motores de búsqueda recorren su índice en busca de contenido altamente relevante y luego ordenan ese contenido con la esperanza de resolver la consulta del buscador.
Esta ordenación de los resultados de la búsqueda por relevancia se conoce como ranking. En general, se puede suponer que cuanto más alto esté clasificado un sitio web, más relevante cree el motor de búsqueda que es ese sitio para la consulta.
Es posible bloquear a los rastreadores de los motores de búsqueda de una parte o la totalidad de tu sitio, o dar instrucciones a los motores de búsqueda para que no almacenen determinadas páginas en su índice.
Aunque puedes tener motivos para querer hacer esto, si quieres que tu contenido sea encontrado por los buscadores, primero tienes que asegurarte de que es accesible para los rastreadores y es indexable. De lo contrario, es tan bueno como invisible.
En resumen: si Google no rastrea o indexa una página, no va a clasificar nada.
Por lo tanto, y volviendo al crawling budget… si el número de páginas supera el presupuesto de rastreo de tu sitio, tendrás páginas que no se indexarán.
Dicho esto, la gran mayoría de los sites que existen no necesitan preocuparse en exceso por el crawl budget. Google es realmente bueno rastreando, clasificando e indexando páginas.
Eso sí, hay algunos casos en los que sí debes prestar atención al crawl budget:
1. Mejora la velocidad del sitio
Mejorar la velocidad de carga de tu página puede hacer que Googlebot rastree más URLs de tu página web.
De hecho, Google afirma que
"Hacer un sitio más rápido mejora la experiencia de los usuarios a la vez que aumenta la tasa de rastreo".
En otras palabras:
Las páginas de carga lenta consumen el valioso tiempo del robot de Google y eso no les hace demasiada gracia. Lógicamente, si tus páginas se cargan más rápidamente, Googlebot tendrá más tiempo para visitar e indexar más páginas.
2. Utilizar enlaces internos
El robot de Google da prioridad a las páginas que tienen muchos enlaces externos e internos que apuntan a ellas.
Sí, lo ideal sería tener backlinks que apunten a cada una de las páginas de tu sitio. Pero eso no es realista en la mayoría de los casos.
Por eso los enlaces internos son tan importantes.
Tus enlaces internos envían al robot de Google a todas las diferentes páginas de tu sitio que quieras indexar.
3. Arquitectura plana del sitio web
Según Google:
"Las URLs que son más populares en internet tienden a ser rastreadas más a menudo para mantenerlas más frescas en nuestro índice".
Y en el mundo de Google, “popular” es igual a “autoridad de enlace”.
Por eso es conveniente utilizar una arquitectura de sitio web plana en tu site.
Una arquitectura plana establece las cosas de manera que todas las páginas de tu sitio tengan alguna autoridad de enlace que fluya hacia ellas.
4. Evitar las páginas “huérfanas"
Las páginas huérfanas son páginas que no tienen enlaces internos o externos que apunten a ellas.
A Google le resulta muy difícil encontrar páginas huérfanas. Por lo tanto, si quieres aprovechar al máximo tu presupuesto de rastreo, asegúrate de que haya al menos un enlace interno o externo que apunte a cada página de tu site.
5. Limitar el contenido duplicado
Limitar el contenido duplicado es inteligente por muchas razones.
Resulta que el contenido duplicado puede perjudicar tu crawl Budget. Mira este pantallazo sacado directamente de developers.google.com.
Esto se debe a que Google no quiere desperdiciar recursos indexando varias páginas con el mismo contenido.
Por lo tanto, asegúrate de que el 100% de las páginas de tu sitio estén formadas por contenido único y de calidad.
Esto no es fácil para un sitio grande (con más de 10.000 páginas) pero es una obligación si quieres aprovechar al máximo tu presupuesto de rastreo.
El presupuesto de rastreo o crawl Budget no es sólo una cuestión técnica. Es una cuestión de ingresos. Así que lleva a los bots - y a los visitantes - sólo a las cosas buenas.
En Esmartia trabajamos día a día para resolver este tipo de problemas, así que si quieres saber más o te gustaría vernos en acción, ponte en contacto con nosotros. ¡Nos encantará conocer tu negocio y ver qué podemos hacer por él!