- Mensajes
- 1,537
- Puntuación de reacción
- 0
Buenas,
dada la acogida que tienen últimamente los Web Scrapers yo también me decidí a hacer uno, concretamente de películas y series motivado por el resultado de @romanwp con su web. Y éste es su hilo de seguimiento donde iré actualizando con el progreso de la web, que espero sea bueno
Datos:
Dominio: Compré un dominio expirado .com, registrado desde 2001 y activo, con palabra clave.
Script: El script no hace más que grabar texto y traducir lo necesario al Español. Texto es lo que almaceno, pero hay urls de imágenes y un vídeo de Vimeo o Youtube (generalmente entran todos de YouTube).
También le he creado taxonomías por géneros y etiquetas y un sistema de búsqueda.
En cuanto al SEO OnPage es excelente, completamente marcado con microformatos y no tan completamente con WAI-ARIA. Como lo tome Google después es otro caso... También los sitemaps se hacen con imágenes y vídeos.
Timeline:
14-02-2014 -- Cuando lo terminé y lo puse en funcionamiento me dí cuenta de algún error con baja probabilidad (pero ahí estaba) del cual no me había percatado antes dado que al correrlo en localhost lo hacía de manera menos 'bestia', así que cerre la web hasta arreglarlo, no llegué a enviar sitemaps a Google, ni a darlo de alta en GWT.
26-02-2014 -- Estuve algunos días sin tocarlo ya que tuve que hacer otras cosas, por lo que tardé más de una semana en poder ponerme a arreglarlo. Esa noche finalizo y pongo a correr el cron hasta 250.
27-02-2014 -- Reabro la web, corro los sitemaps, pongo el cron para que me grabe 1 película/serie cada 20 minutos y pongo el sitemap para que corra una vez al día. Doy de alta la web en GWT, envío sitemaps y pongo Analytics.
02-03-2014 -- Los sitemaps los tengo que partir en varios porque si la web funciona no me llegarán uno, ni dos ni tres, sino muchos más ya que Google sólo permite un máximo de 50.000 urls /50mb y otros robots sólo 15mb, así que por esta razón creé un index de sitemaps, donde se irán apuntando los demás. Google procesó el index del sitemap, pero no sé porque sucia razón no procesó las urls (que sí detectaba ya que salía el total de ellas) del primer (y único de momento) sitemap que se apunta en el index, en la documentación de Google indica que no es necesario enviar cada sitemap si los tienes en un index, pero como no procesaba envié el sitemap.
Así que ahora de momento esto es lo que me indica:
Y tengo 6 urls indexadas, que yo vea.
03-03-2014 : Ya me ha indexado más de 500 urls
Así que pondré el cron a scrapear unas 10 url por hora
04-03-2014 : Ya tengo cerca de 1000 urls indexadas, así que me pondré a escribir un objeto Javascript para controlar la publicidad a mi antojo e ir eligiendo que campañas poner.
05-03-2014: 1080 urls indexadas, he puesto el scraper a una url cada 3 minutos, lo dejaré así unos días
10-03-2014: Más de 1900 urls indexadas a día de hoy, además Google ha empezado automáticamente a darle más importancia a las urls de contenido que a las listas, un buen avance a mi parecer. Sobre el scraper le he hecho un cron lock y ya me corre a cada minuto el 'problema' es que como no todas las urls me sirven por falta de un contenido u otro, 1440 urls diarias que debería guardar se me quedan en unas 500, así en breve haré un fix a esto para guardar más
18-03-2014: Cerca de 3000 urls indexadas (lo miré hace un rato y no recuerdo exactamente), he mirado GWT y ya me marca estadísticas más 'consoladoras' bastantes registros sobre el marcado de datos, unas 2000 urls indexadas y cerca de 4000 visitadas alguna vez. Y sobre las visitas... pues he recibido 4 desde Google y 'keyword not provided', eso sí de habla hispana así que espero que sean visitantes naturales, no sé si será normal la cantidad, pero bueno espero vaya creciendo
20-03-2014: Estoy empezando a recibir algunas visitas, ayer recibí tres y hoy llevo una de 3h y media que llevamos del día, espero que suba
21-03-2014: Tres visitas más recibí ayer, o sea cuatro. Uno de estos días pondré la publi.
22-03-2014: Hoy van 2 visitas de momento, teniendo en cuenta que empieza el fin de semana espero ver que suban. He añadido botones sociales y un 'fake player' para una campaña de Adjal si el usuario es de España y otra en caso de que no lo sea, que es válida para varios países de Latinoamérica.
Nota: Cuando digo que hay X urls indexadas y en GWT hay menos es porque las urls indexadas lasmiro con site:misitio.com buscando en Google, pero GWT siempre muestra bastantes menos.
Pensamientos:
Mi principal idea es que con sacar 200-300€ al mes me conformo, realmente me conformo con que me pague el hosting ya que la experiencia de crear el scraper me ha llenado bastante, pero bueno 200-300€ eran mis expectativas al principio (dado lo que me motivó a hacerlo claro) que no me vendrían mal para ir pagando alguna cosilla.
En cuanto a la monetización será CPA/PPI/PPD lo que vea en su momento.
Sobre el script pues si no da resultado lo pondré a la venta, si da poco resultado o sea menos de 300€ cuando me canse lo pondré a la venta y si el resultado es más de lo esperado no lo venderé y explotaré otras opciones con pequeños cambios del mismo script en distintas webs.
Saludos :mola:
dada la acogida que tienen últimamente los Web Scrapers yo también me decidí a hacer uno, concretamente de películas y series motivado por el resultado de @romanwp con su web. Y éste es su hilo de seguimiento donde iré actualizando con el progreso de la web, que espero sea bueno
Datos:
Dominio: Compré un dominio expirado .com, registrado desde 2001 y activo, con palabra clave.
Script: El script no hace más que grabar texto y traducir lo necesario al Español. Texto es lo que almaceno, pero hay urls de imágenes y un vídeo de Vimeo o Youtube (generalmente entran todos de YouTube).
También le he creado taxonomías por géneros y etiquetas y un sistema de búsqueda.
En cuanto al SEO OnPage es excelente, completamente marcado con microformatos y no tan completamente con WAI-ARIA. Como lo tome Google después es otro caso... También los sitemaps se hacen con imágenes y vídeos.
Timeline:
14-02-2014 -- Cuando lo terminé y lo puse en funcionamiento me dí cuenta de algún error con baja probabilidad (pero ahí estaba) del cual no me había percatado antes dado que al correrlo en localhost lo hacía de manera menos 'bestia', así que cerre la web hasta arreglarlo, no llegué a enviar sitemaps a Google, ni a darlo de alta en GWT.
26-02-2014 -- Estuve algunos días sin tocarlo ya que tuve que hacer otras cosas, por lo que tardé más de una semana en poder ponerme a arreglarlo. Esa noche finalizo y pongo a correr el cron hasta 250.
27-02-2014 -- Reabro la web, corro los sitemaps, pongo el cron para que me grabe 1 película/serie cada 20 minutos y pongo el sitemap para que corra una vez al día. Doy de alta la web en GWT, envío sitemaps y pongo Analytics.
02-03-2014 -- Los sitemaps los tengo que partir en varios porque si la web funciona no me llegarán uno, ni dos ni tres, sino muchos más ya que Google sólo permite un máximo de 50.000 urls /50mb y otros robots sólo 15mb, así que por esta razón creé un index de sitemaps, donde se irán apuntando los demás. Google procesó el index del sitemap, pero no sé porque sucia razón no procesó las urls (que sí detectaba ya que salía el total de ellas) del primer (y único de momento) sitemap que se apunta en el index, en la documentación de Google indica que no es necesario enviar cada sitemap si los tienes en un index, pero como no procesaba envié el sitemap.
Así que ahora de momento esto es lo que me indica:

03-03-2014 : Ya me ha indexado más de 500 urls

Así que pondré el cron a scrapear unas 10 url por hora
04-03-2014 : Ya tengo cerca de 1000 urls indexadas, así que me pondré a escribir un objeto Javascript para controlar la publicidad a mi antojo e ir eligiendo que campañas poner.
05-03-2014: 1080 urls indexadas, he puesto el scraper a una url cada 3 minutos, lo dejaré así unos días

10-03-2014: Más de 1900 urls indexadas a día de hoy, además Google ha empezado automáticamente a darle más importancia a las urls de contenido que a las listas, un buen avance a mi parecer. Sobre el scraper le he hecho un cron lock y ya me corre a cada minuto el 'problema' es que como no todas las urls me sirven por falta de un contenido u otro, 1440 urls diarias que debería guardar se me quedan en unas 500, así en breve haré un fix a esto para guardar más

18-03-2014: Cerca de 3000 urls indexadas (lo miré hace un rato y no recuerdo exactamente), he mirado GWT y ya me marca estadísticas más 'consoladoras' bastantes registros sobre el marcado de datos, unas 2000 urls indexadas y cerca de 4000 visitadas alguna vez. Y sobre las visitas... pues he recibido 4 desde Google y 'keyword not provided', eso sí de habla hispana así que espero que sean visitantes naturales, no sé si será normal la cantidad, pero bueno espero vaya creciendo

20-03-2014: Estoy empezando a recibir algunas visitas, ayer recibí tres y hoy llevo una de 3h y media que llevamos del día, espero que suba
21-03-2014: Tres visitas más recibí ayer, o sea cuatro. Uno de estos días pondré la publi.
22-03-2014: Hoy van 2 visitas de momento, teniendo en cuenta que empieza el fin de semana espero ver que suban. He añadido botones sociales y un 'fake player' para una campaña de Adjal si el usuario es de España y otra en caso de que no lo sea, que es válida para varios países de Latinoamérica.
Nota: Cuando digo que hay X urls indexadas y en GWT hay menos es porque las urls indexadas lasmiro con site:misitio.com buscando en Google, pero GWT siempre muestra bastantes menos.
Pensamientos:
Mi principal idea es que con sacar 200-300€ al mes me conformo, realmente me conformo con que me pague el hosting ya que la experiencia de crear el scraper me ha llenado bastante, pero bueno 200-300€ eran mis expectativas al principio (dado lo que me motivó a hacerlo claro) que no me vendrían mal para ir pagando alguna cosilla.
En cuanto a la monetización será CPA/PPI/PPD lo que vea en su momento.
Sobre el script pues si no da resultado lo pondré a la venta, si da poco resultado o sea menos de 300€ cuando me canse lo pondré a la venta y si el resultado es más de lo esperado no lo venderé y explotaré otras opciones con pequeños cambios del mismo script en distintas webs.
Saludos :mola:
Última edición: