Crawling: búsqueda de contenidos en la web, comprobando el código/contenido de cada URL encontrada.
Indexación: almacenamiento y organización de los contenidos encontrados durante el rastreo. Una vez que una página se incluye en el índice, se muestra como resultado de las consultas de búsqueda pertinentes.
Clasificación: ofrece el contenido que mejor se ajusta a la consulta del motor de búsqueda, es decir, los resultados se clasifican de mayor a menor relevancia.
El rastreo es un proceso de búsqueda en el que los motores de búsqueda envían un equipo de robots (llamados rastreadores o arañas) para encontrar contenido nuevo y actualizado. El contenido puede ser diferente: una página web, una imagen, un vídeo, un archivo PDF, etc., pero independientemente del formato, el contenido se encuentra a través de enlaces.
Googlebot comienza rastreando algunas páginas web y luego sigue los enlaces de esas páginas para descubrir nuevas URL. Al peinar este camino de enlaces, el robot puede descubrir nuevos contenidos y añadirlos a su índice, llamado Caffeine. Caffeine es una gran base de datos de URLs descubiertas que pueden ser recuperadas más tarde cuando el motor de búsqueda busca información para la que el contenido de una URL es relevante.
Los motores de búsqueda procesan y almacenan la información que encuentran en un índice, una enorme base de datos con todos los contenidos que han encontrado y que consideran de suficiente calidad para ponerlos a disposición de los buscadores.
Clasificación en los motores de búsqueda
Cuando alguien realiza una búsqueda, los motores de búsqueda revisan su índice y buscan contenido relevante, que luego clasifican con la esperanza de encontrar una respuesta a la consulta de búsqueda. Esta ordenación de los resultados de la búsqueda por relevancia se denomina clasificación. En general, cuanto más alto se clasifique un sitio web, más relevante cree el motor de búsqueda que es para una determinada consulta.
Es posible impedir que un motor de búsqueda rastree una parte o la totalidad de un sitio web, o decirle a los motores de búsqueda que no almacenen determinadas páginas en su índice. Puede haber razones para ello, pero si quiere que los motores de búsqueda encuentren su contenido, primero debe asegurarse de que sea accesible e indexable por los motores de búsqueda. Por lo demás, es tan bueno como invisible.
Como acaba de aprender, un requisito previo para que su sitio web aparezca en las SERP es que sea rastreado e indexado. Si ya tiene un sitio web, primero debe averiguar cuántas de sus páginas están en el índice. Esto le dará información valiosa sobre si Google está rastreando y encontrando todas las páginas que desea y no las que no desea.
El número de resultados que muestra Google (véase «Acerca de los resultados XX» más arriba) no es exacto, pero le dará una idea precisa de qué páginas de su sitio están indexadas y cómo aparecen actualmente en los resultados de búsqueda.
Para obtener resultados más precisos, supervisa y utiliza el informe de cobertura del índice en Google Search Console. Si aún no tienes una cuenta de Google Search Console, puedes registrarla gratuitamente. Con esta herramienta, puede enviar mapas de sitio y ver, entre otras cosas, cuántas de las páginas enviadas están realmente incluidas en el índice de Google.
Su sitio web es nuevo y aún no ha sido rastreado.
Su sitio web no está vinculado a un sitio web externo.
La navegación de su sitio web dificulta que los robots rastreen su sitio web con eficacia.
Su sitio web contiene un código básico llamado directivas de rastreo que bloquean los motores de búsqueda.
Su sitio web ha sido penalizado por Google por tácticas de spam.
Indique a los motores de búsqueda cómo rastrear su sitio
Si ha utilizado Google Search Console o el operador de búsqueda avanzada «sitio: dominio.com» y ha descubierto que algunas de sus páginas importantes no aparecen en el índice y/o que algunas de sus páginas no importantes no se han indexado correctamente, puede realizar algunos ajustes para indicar mejor al rastreador de Google cómo rastrear el contenido de su web. Al indicar a los motores de búsqueda cómo rastrear su sitio web, puede controlar mejor lo que entra en el índice.
La mayoría de la gente piensa en cómo conseguir que Google encuentre sus páginas importantes, pero es fácil olvidar que probablemente hay páginas que no quieres que Googlebot encuentre. Entre ellas se encuentran las URL antiguas con poco contenido, las URL duplicadas (por ejemplo, para clasificar y filtrar parámetros en un sitio de comercio electrónico), las páginas con códigos promocionales especiales, las páginas de prueba o ensayo, etc.
Utilice el archivo robots.txt para mantener el rastreador de Google alejado de ciertas páginas y partes de su sitio web.
Los archivos Robots.txt se encuentran en el directorio raíz de su sitio web (por ejemplo, sudominio.com/robots.txt) y especifican qué partes de su sitio web deben ser rastreadas por los motores de búsqueda y cuáles no, y a qué velocidad debe ser rastreado. Esto se hace mediante instrucciones especiales en robots.txt.
No todos los rastreadores web obedecen el archivo robots.txt. Los malintencionados (por ejemplo, los navegadores de correo electrónico) crean robots que no siguen este protocolo. Algunos delincuentes utilizan los archivos robots.txt para averiguar dónde ha colocado su contenido personal. Aunque puede parecer lógico que las páginas privadas, como las de inicio de sesión y de administración, no aparezcan en el índice, poner estas URL en un archivo robots.txt de acceso público también significa que las personas malintencionadas pueden encontrarlas más fácilmente. Es mejor no indexar estas páginas y bloquearlas tras el formulario de envío que incluirlas en el archivo robots.txt.
Algunos sitios web (especialmente los de comercio electrónico) sirven el mismo contenido bajo diferentes URLs añadiendo ciertos parámetros a las mismas. Si alguna vez ha comprado en Internet, probablemente haya utilizado filtros para limitar su búsqueda. Por ejemplo, en Amazon puedes buscar «zapatos» y luego afinar la búsqueda por talla, color y estilo. Cada vez que se afina la búsqueda, la URL cambia ligeramente.
Google puede determinar una URL representativa por sí mismo, pero usted puede utilizar la función «Parámetros de URL» de Google Search Console para indicarle a Google exactamente cómo desea que se trate su sitio. Cuando se utiliza esta función para indicar al rastreador de Google que no rastree las URL con el parámetro __, básicamente se está pidiendo a Google que oculte ese contenido del rastreador de Google, lo que puede dar lugar a la eliminación de esas páginas de los resultados de búsqueda. Esto es necesario si estos parámetros crean páginas duplicadas, pero no es lo ideal si quiere indexar estas páginas.
Ahora que ya conoce algunas tácticas para garantizar que los motores de búsqueda eviten su contenido poco importante, conozca más sobre las optimizaciones que ayudan al rastreador de Google a encontrar sus páginas importantes.
A veces, un motor de búsqueda puede encontrar partes de su sitio web cuando lo rastrea, pero otras páginas o secciones pueden estar ocultas por una u otra razón. Es importante que los motores de búsqueda puedan encontrar todo el contenido que desea indexar, no sólo su página de inicio.
Si quieres aprender mas sobre el mundo del SEO y el marketing puedes siguenos en nuestra web.