Los robots de los buscadores

latino

Suspendido
Mensajes
96
Puntuación de reacción
0
Un robot de un buscador, llamado también spider o crawler, es un programa que accede de forma automática a páginas web y recolecta una determinada información sobre su contenido, frecuentemente las palabras clave y los enlaces de la página en cuestión.

Cualquier buscador de páginas web, necesita disponer de una base de datos con la información de todas las páginas que pueden llegar a aparecer en la página de resultados ( páginas indexadas ) , esta base de datos, se rellena utilizando precisamente un robot distribuido entre varios ordenadores.

¿Como se rastrea todo Internet?

Para acceder al mayor número de páginas posibles, los buscadores acceden a unas páginas introducidas manualmente en una lista ( semillas ) y guardan las URL de los hiper-vínculos para descargarlas posteriormente.

Ningún buscador dispone de información actualizada de todas y cada una de la páginas de Internet, pero realizan esfuerzos importantes para que sus robots rastreen todas las páginas posibles luchando contra estos dos factores:

  • Gran volumen de páginas
  • Para luchar contra el gran volumen de páginas, los buscadores deben aumentar el número de páginas descargadas por segundo, y esto lo consiguen mejorando su conectividad y la localización geográfica y número de robots de rastreo.

2nkuq8z.jpg

Variabilidad de las páginas
Para tener siempre los contenidos actualizados, la solución no es tan sencilla como revisar cada web más a menudo, porque esto supone un aumento enorme del número de páginas a descargar. En estos casos lo que se hace es detectar el grado de variabilidad ( también llamado frescura ) de cada documento indexado para determinar cada cuando hay que revisarla.​


¿Como consigo ser rastreado?

Para que un buscador rastree tu página web, primero deberá conocer tu URL, esto podemos conseguirlo enviando la URL al buscador desde un formulario para que la guarde en su base de datos, o poniendo enlaces hacia nuestra URL en otras páginas ya indexadas, vamos a detallar más cada opción:

  • El formulario de URL's

La mayoría de buscadores disponen de formularios que permiten introducir la URL de tu página para ser indexada posteriormente.
Este sistema suele ser menos interesante ya que un factor importante para aparecer en los primeros resultados de un buscador es el número de enlaces hacia tu página y de esta manera nuestra página tendrá 0 enlaces entrantes.
Recientemente, el buscador Google, ha introducido una nueva e interesante manera de indicar al buscador que contenidos de tu web debe rastrear llamada sitemaps.

  • Los enlaces entrantes

Aunque para que un robot nos rastree encontrando un enlace entrante a nuestra página es una opción más lenta ( hay que conseguir enlaces entrantes en sitios indexados, esperar que el robot los rastree y apunte nuestra URL y esperar que finalmente nos rastree a nosotros ) sobretodo si contamos con el efecto sandbox, los enlaces entrantes son un factor importante para conseguir una buena posición.

Ambas prácticas tienen sus pros y sus contras, por esto es aconsejable llevar a cabo ambas prácticas simultáneamente.

Además si queremos que los robots nos visiten más a menudo, consiguiendo tener siempre nuestro contenido actualizado en sus indices, deberemos aumentar el grado de variabilidad o frescura de nuestras páginas modificandolas a menudo y aportando nuevos contenidos de forma regular.

¿Puedo evitar ser rastreado?

Existen diferentes métodos llamados Métodos de Exclusión que permiten evitar que un buscador rastree e indexe nuestra página, vamos a conocer algunos de ellos:
  • El archivo robots.txt

  • Meta-Tags específicos para robots

  • El formulario de solicitud de eliminación
 
Última edición:

websgp

Moderador
Miembro del equipo
Usuario de Bronce
Mensajes
3,724
Puntuación de reacción
13
Muy buena información, gracias por el aporte
 
Arriba