Los robots de los buscadores

latino · 8 Ene 2015

Un robot de un buscador, llamado también spider o crawler, es un programa que accede de forma automática a páginas web y recolecta una determinada información sobre su contenido, frecuentemente las palabras clave y los enlaces de la página en cuestión.

Cualquier buscador de páginas web, necesita disponer de una base de datos con la información de todas las páginas que pueden llegar a aparecer en la página de resultados ( páginas indexadas ) , esta base de datos, se rellena utilizando precisamente un robot distribuido entre varios ordenadores.

¿Como se rastrea todo Internet?

Para acceder al mayor número de páginas posibles, los buscadores acceden a unas páginas introducidas manualmente en una lista ( semillas ) y guardan las URL de los hiper-vínculos para descargarlas posteriormente.

Ningún buscador dispone de información actualizada de todas y cada una de la páginas de Internet, pero realizan esfuerzos importantes para que sus robots rastreen todas las páginas posibles luchando contra estos dos factores:

Gran volumen de páginas
Para luchar contra el gran volumen de páginas, los buscadores deben aumentar el número de páginas descargadas por segundo, y esto lo consiguen mejorando su conectividad y la localización geográfica y número de robots de rastreo.

Variabilidad de las páginas

Para tener siempre los contenidos actualizados, la solución no es tan sencilla como revisar cada web más a menudo, porque esto supone un aumento enorme del número de páginas a descargar. En estos casos lo que se hace es detectar el grado de variabilidad ( también llamado frescura ) de cada documento indexado para determinar cada cuando hay que revisarla.

¿Como consigo ser rastreado?

Para que un buscador rastree tu página web, primero deberá conocer tu URL, esto podemos conseguirlo enviando la URL al buscador desde un formulario para que la guarde en su base de datos, o poniendo enlaces hacia nuestra URL en otras páginas ya indexadas, vamos a detallar más cada opción:

El formulario de URL's

La mayoría de buscadores disponen de formularios que permiten introducir la URL de tu página para ser indexada posteriormente.
Este sistema suele ser menos interesante ya que un factor importante para aparecer en los primeros resultados de un buscador es el número de enlaces hacia tu página y de esta manera nuestra página tendrá 0 enlaces entrantes.
Recientemente, el buscador Google, ha introducido una nueva e interesante manera de indicar al buscador que contenidos de tu web debe rastrear llamada sitemaps.

Los enlaces entrantes

Aunque para que un robot nos rastree encontrando un enlace entrante a nuestra página es una opción más lenta ( hay que conseguir enlaces entrantes en sitios indexados, esperar que el robot los rastree y apunte nuestra URL y esperar que finalmente nos rastree a nosotros ) sobretodo si contamos con el efecto sandbox, los enlaces entrantes son un factor importante para conseguir una buena posición.

Ambas prácticas tienen sus pros y sus contras, por esto es aconsejable llevar a cabo ambas prácticas simultáneamente.

Además si queremos que los robots nos visiten más a menudo, consiguiendo tener siempre nuestro contenido actualizado en sus indices, deberemos aumentar el grado de variabilidad o frescura de nuestras páginas modificandolas a menudo y aportando nuevos contenidos de forma regular.

¿Puedo evitar ser rastreado?

Existen diferentes métodos llamados Métodos de Exclusión que permiten evitar que un buscador rastree e indexe nuestra página, vamos a conocer algunos de ellos:

El archivo robots.txt

Meta-Tags específicos para robots

El formulario de solicitud de eliminación

websgp · 8 Ene 2015

Muy buena información, gracias por el aporte

latino · 8 Ene 2015

websgp dijo:
Muy buena información, gracias por el aporte

Gracias, Estamos para ayudar a las personas.
:sisi1:

Socio · 9 Ene 2015

genial amigo muy buen aporte!!

foro1234 · 9 Ene 2015

Genial aporte amigo, siempre es bueno saber de más.

Blasky · 12 Ene 2015

que genial tuto

seomaximo · 12 Ene 2015

Genial aportación, muy buena y muy currada!

marthin3030 · 13 Ene 2015

Me pareció muy buena la información, se agradece el aporte

Los robots de los buscadores

latino

Suspendido

websgp

latino

Suspendido

Socio

foro1234

Blasky

Suspendido

seomaximo

Suspendido

marthin3030

Comparte esta página