[Seguimiento] Web Scraper propio

Estado
No está abierto para más respuestas.

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
Buenas,

dada la acogida que tienen últimamente los Web Scrapers yo también me decidí a hacer uno, concretamente de películas y series motivado por el resultado de @romanwp con su web. Y éste es su hilo de seguimiento donde iré actualizando con el progreso de la web, que espero sea bueno :)

Datos:

Dominio:
Compré un dominio expirado .com, registrado desde 2001 y activo, con palabra clave.

Script: El script no hace más que grabar texto y traducir lo necesario al Español. Texto es lo que almaceno, pero hay urls de imágenes y un vídeo de Vimeo o Youtube (generalmente entran todos de YouTube).
También le he creado taxonomías por géneros y etiquetas y un sistema de búsqueda.
En cuanto al SEO OnPage es excelente, completamente marcado con microformatos y no tan completamente con WAI-ARIA. Como lo tome Google después es otro caso... También los sitemaps se hacen con imágenes y vídeos.

Timeline:

14-02-2014 -- Cuando lo terminé y lo puse en funcionamiento me dí cuenta de algún error con baja probabilidad (pero ahí estaba) del cual no me había percatado antes dado que al correrlo en localhost lo hacía de manera menos 'bestia', así que cerre la web hasta arreglarlo, no llegué a enviar sitemaps a Google, ni a darlo de alta en GWT.

26-02-2014 -- Estuve algunos días sin tocarlo ya que tuve que hacer otras cosas, por lo que tardé más de una semana en poder ponerme a arreglarlo. Esa noche finalizo y pongo a correr el cron hasta 250.

27-02-2014 -- Reabro la web, corro los sitemaps, pongo el cron para que me grabe 1 película/serie cada 20 minutos y pongo el sitemap para que corra una vez al día. Doy de alta la web en GWT, envío sitemaps y pongo Analytics.

02-03-2014
-- Los sitemaps los tengo que partir en varios porque si la web funciona no me llegarán uno, ni dos ni tres, sino muchos más ya que Google sólo permite un máximo de 50.000 urls /50mb y otros robots sólo 15mb, así que por esta razón creé un index de sitemaps, donde se irán apuntando los demás. Google procesó el index del sitemap, pero no sé porque sucia razón no procesó las urls (que sí detectaba ya que salía el total de ellas) del primer (y único de momento) sitemap que se apunta en el index, en la documentación de Google indica que no es necesario enviar cada sitemap si los tienes en un index, pero como no procesaba envié el sitemap.
Así que ahora de momento esto es lo que me indica:

W94dCws.png

Y tengo 6 urls indexadas, que yo vea.

03-03-2014 : Ya me ha indexado más de 500 urls

5ShO6F7.png


Así que pondré el cron a scrapear unas 10 url por hora :)

04-03-2014 : Ya tengo cerca de 1000 urls indexadas, así que me pondré a escribir un objeto Javascript para controlar la publicidad a mi antojo e ir eligiendo que campañas poner.

05-03-2014: 1080 urls indexadas, he puesto el scraper a una url cada 3 minutos, lo dejaré así unos días
sisi1.gif


10-03-2014: Más de 1900 urls indexadas a día de hoy, además Google ha empezado automáticamente a darle más importancia a las urls de contenido que a las listas, un buen avance a mi parecer. Sobre el scraper le he hecho un cron lock y ya me corre a cada minuto el 'problema' es que como no todas las urls me sirven por falta de un contenido u otro, 1440 urls diarias que debería guardar se me quedan en unas 500, así en breve haré un fix a esto para guardar más
smile.gif


18-03-2014: Cerca de 3000 urls indexadas (lo miré hace un rato y no recuerdo exactamente), he mirado GWT y ya me marca estadísticas más 'consoladoras' bastantes registros sobre el marcado de datos, unas 2000 urls indexadas y cerca de 4000 visitadas alguna vez. Y sobre las visitas... pues he recibido 4 desde Google y 'keyword not provided', eso sí de habla hispana así que espero que sean visitantes naturales, no sé si será normal la cantidad, pero bueno espero vaya creciendo
smile.gif


20-03-2014: Estoy empezando a recibir algunas visitas, ayer recibí tres y hoy llevo una de 3h y media que llevamos del día, espero que suba :)

21-03-2014: Tres visitas más recibí ayer, o sea cuatro. Uno de estos días pondré la publi.

22-03-2014: Hoy van 2 visitas de momento, teniendo en cuenta que empieza el fin de semana espero ver que suban. He añadido botones sociales y un 'fake player' para una campaña de Adjal si el usuario es de España y otra en caso de que no lo sea, que es válida para varios países de Latinoamérica.


Nota: Cuando digo que hay X urls indexadas y en GWT hay menos es porque las urls indexadas lasmiro con site:misitio.com buscando en Google, pero GWT siempre muestra bastantes menos.


Pensamientos:

Mi principal idea es que con sacar 200-300€ al mes me conformo, realmente me conformo con que me pague el hosting ya que la experiencia de crear el scraper me ha llenado bastante, pero bueno 200-300€ eran mis expectativas al principio (dado lo que me motivó a hacerlo claro) que no me vendrían mal para ir pagando alguna cosilla.

En cuanto a la monetización será CPA/PPI/PPD lo que vea en su momento.

Sobre el script pues si no da resultado lo pondré a la venta, si da poco resultado o sea menos de 300€ cuando me canse lo pondré a la venta y si el resultado es más de lo esperado no lo venderé y explotaré otras opciones con pequeños cambios del mismo script en distintas webs.

Saludos :mola:
 
Última edición:

Hache

Oro Blanco
Usuario de Bronce
Mensajes
1,004
Puntuación de reacción
2
La conclusión es demoledora. Vamos, que si funciona no lo vamos ni a oler... y si no funciona, ¿pa qué lo queremos? xD

PS: La semana entrante te contacto :mola:
 
Mensajes
1
Puntuación de reacción
2
Buenas,

dada la acogida que tienen últimamente los Web Scrapers yo también me decidí a hacer uno, concretamente de películas y series motivado por el resultado de @romanwp con su web. Y éste es su hilo de seguimiento donde iré actualizando con el progreso de la web, que espero sea bueno :)

Datos:

Dominio:
Compré un dominio expirado .com, registrado desde 2001 y activo, con palabra clave.

Script: El script no hace más que grabar texto y traducir lo necesario al Español. Texto es lo que almaceno, pero hay urls de imágenes y un vídeo de Vimeo o Youtube (generalmente entran todos de YouTube).
También le he creado taxonomías por géneros y etiquetas y un sistema de búsqueda.
En cuanto al SEO OnPage es excelente, completamente marcado con microformatos y no tan completamente con WAI-ARIA. Como lo tome Google después es otro caso... También los sitemaps se hacen con imágenes y vídeos.

Timeline:

14-02-2014] -- Cuando lo terminé y lo puse en funcionamiento me dí cuenta de algún error con baja probabilidad (pero ahí estaba) del cual no me había percatado antes dado que al correrlo en localhost lo hacía de manera menos 'bestia', así que cerre la web hasta arreglarlo, no llegué a enviar sitemaps a Google, ni a darlo de alta en GWT.

26-03-2014 -- Estuve algunos días sin tocarlo ya que tuve que hacer otras cosas, por lo que tardé más de una semana en poder ponerme a arreglarlo. Esa noche finalizo y pongo a correr el cron hasta 250.

27-03-2014 -- Reabro la web, corro los sitemaps, pongo el cron para que me grabe 1 película/serie cada 20 minutos y pongo el sitemap para que corra una vez al día. Doy de alta la web en GWT, envío sitemaps y pongo Analytics.

02-03-2014
-- Los sitemaps los tengo que partir en varios porque si la web funciona no me llegarán uno, ni dos ni tres, sino muchos más ya que Google sólo permite un máximo de 50.000 urls /50mb y otros robots sólo 15mb, así que por esta razón creé un index de sitemaps, donde se irán apuntando los demás. Google procesó el index del sitemap, pero no sé porque sucia razón no procesó las urls (que sí detectaba ya que salía el total de ellas) del primer (y único de momento) sitemap que se apunta en el index, en la documentación de Google indica que no es necesario enviar cada sitemap si los tienes en un index, pero como no procesaba envié el sitemap.
Así que ahora de momento esto es lo que me indica:

W94dCws.png

Y tengo 6 urls indexadas, que yo vea.


Pensamientos:


Mi principal idea es que con sacar 200-300€ al mes me conformo, realmente me conformo con que me pague el hosting ya que la experiencia de crear el scraper me ha llenado bastante, pero bueno 200-300€ eran mis expectativas al principio (dado lo que me motivó a hacerlo claro) que no me vendrían mal para ir pagando alguna cosilla.

En cuanto a la monetización será CPA/PPI/PPD lo que vea en su momento.

Sobre el script pues si no da resultado lo pondré a la venta, si da poco resultado o sea menos de 300€ cuando me canse lo pondré a la venta y si el resultado es más de lo esperado no lo venderé y explotaré otras opciones con pequeños cambios del mismo script en distintas webs.

Saludos :mola:

Vienes del futuro xDDDD

Ahora en serio, buena suerte :D
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
La conclusión es demoledora. Vamos, que si funciona no lo vamos ni a oler... y si no funciona, ¿pa qué lo queremos? xD

PS: La semana entrante te contacto :mola:
También si funciona sólo un poco puede servirle a alguien, sobre todo con más experiencia y conocimientos SEO que yo :)

Creí que te referías a esta semana pasada..., cuando quieras :)

Vienes del futuro xDDDD

Ahora en serio, buena suerte :D

Si no me has entendido te entiendo, sino no te entiendo lo que quieres decir, con lo de que vienes del futuro :confused:

Gracias :)
 
Mensajes
1
Puntuación de reacción
2
También si funciona sólo un poco puede servirle a alguien, sobre todo con más experiencia y conocimientos SEO que yo :)

Creí que te referías a esta semana pasada..., cuando quieras :)



Si no me has entendido te entiendo, sino no te entiendo lo que quieres decir, con lo de que vienes del futuro :confused:

Gracias :)

Buenas,

dada la acogida que tienen últimamente los Web Scrapers yo también me decidí a hacer uno, concretamente de películas y series motivado por el resultado de @romanwp con su web. Y éste es su hilo de seguimiento donde iré actualizando con el progreso de la web, que espero sea bueno :)

Datos:

Dominio:
Compré un dominio expirado .com, registrado desde 2001 y activo, con palabra clave.

Script: El script no hace más que grabar texto y traducir lo necesario al Español. Texto es lo que almaceno, pero hay urls de imágenes y un vídeo de Vimeo o Youtube (generalmente entran todos de YouTube).
También le he creado taxonomías por géneros y etiquetas y un sistema de búsqueda.
En cuanto al SEO OnPage es excelente, completamente marcado con microformatos y no tan completamente con WAI-ARIA. Como lo tome Google después es otro caso... También los sitemaps se hacen con imágenes y vídeos.

Timeline:

14-02-2014 -- Cuando lo terminé y lo puse en funcionamiento me dí cuenta de algún error con baja probabilidad (pero ahí estaba) del cual no me había percatado antes dado que al correrlo en localhost lo hacía de manera menos 'bestia', así que cerre la web hasta arreglarlo, no llegué a enviar sitemaps a Google, ni a darlo de alta en GWT.

26-03-2014 -- Estuve algunos días sin tocarlo ya que tuve que hacer otras cosas, por lo que tardé más de una semana en poder ponerme a arreglarlo. Esa noche finalizo y pongo a correr el cron hasta 250.

27-03-2014 -- Reabro la web, corro los sitemaps, pongo el cron para que me grabe 1 película/serie cada 20 minutos y pongo el sitemap para que corra una vez al día. Doy de alta la web en GWT, envío sitemaps y pongo Analytics.

02-03-2014
-- Los sitemaps los tengo que partir en varios porque si la web funciona no me llegarán uno, ni dos ni tres, sino muchos más ya que Google sólo permite un máximo de 50.000 urls /50mb y otros robots sólo 15mb, así que por esta razón creé un index de sitemaps, donde se irán apuntando los demás. Google procesó el index del sitemap, pero no sé porque sucia razón no procesó las urls (que sí detectaba ya que salía el total de ellas) del primer (y único de momento) sitemap que se apunta en el index, en la documentación de Google indica que no es necesario enviar cada sitemap si los tienes en un index, pero como no procesaba envié el sitemap.
Así que ahora de momento esto es lo que me indica:

W94dCws.png

Y tengo 6 urls indexadas, que yo vea.


Pensamientos:


Mi principal idea es que con sacar 200-300€ al mes me conformo, realmente me conformo con que me pague el hosting ya que la experiencia de crear el scraper me ha llenado bastante, pero bueno 200-300€ eran mis expectativas al principio (dado lo que me motivó a hacerlo claro) que no me vendrían mal para ir pagando alguna cosilla.

En cuanto a la monetización será CPA/PPI/PPD lo que vea en su momento.

Sobre el script pues si no da resultado lo pondré a la venta, si da poco resultado o sea menos de 300€ cuando me canse lo pondré a la venta y si el resultado es más de lo esperado no lo venderé y explotaré otras opciones con pequeños cambios del mismo script en distintas webs.

Saludos :mola:

xDDD Mira las fechas... Pones 26 de Marzo de 2014 xDDDD A eso me refería.
Un saludo!
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
xDDD Mira las fechas... Pones 26 de Marzo de 2014 xDDDD A eso me refería.
Un saludo!
Sí, ya lo había visto, y ahora has remarcado el 27, por eso digo que qué ves ahí para decir eso :confused:
 

Hache

Oro Blanco
Usuario de Bronce
Mensajes
1,004
Puntuación de reacción
2
Sí, ya lo había visto, y ahora has remarcado el 27, por eso digo que qué ves ahí para decir eso :confused:

Supongo que se refiere a que has puesto marzo y suponemos que lo has hecho el 26 y 27 de febrero. Digo yo, vaya.
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
Supongo que se refiere a que has puesto marzo y suponemos que lo has hecho el 26 y 27 de febrero. Digo yo, vaya.
La madre que me parió :dale2: y mira que lo volví a leer y no me enteré :roto2:, pondré como disculpa que llevo varias horas de más despierto:qmeparto:
 

Mustang

Platino
Usuario de Bronce
Mensajes
1,671
Puntuación de reacción
0
Muy interesante lobogris, estaré pendiente de los resultados que vayas obteniendo
 

Imagination

Moderador
Miembro del equipo
Usuario de Bronce
Mensajes
2,683
Puntuación de reacción
0
Estaré atento a tus progresos, tengo en mente como tu hacer varios scrapers de distintas temáticas, y tus avances me serviran de ayuda para perfeccionar :D , gracias por comentar @lobogris



Saludos Imagination :cool: :cool:
 

Pure Profit

Oro
Usuario de Bronce
Mensajes
1,085
Puntuación de reacción
0
Muy interesante el hilo @lobogris

¿Podrías dar tu opinión acerca de las webs automáticas hoy en día? ¿Realmente funcionan bien de cara a Google? ¿Existe riesgo de penalización de Adsense?

Gracias
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
Muy interesante el hilo @lobogris

¿Podrías dar tu opinión acerca de las webs automáticas hoy en día? ¿Realmente funcionan bien de cara a Google? ¿Existe riesgo de penalización de Adsense?

Gracias
Pues no me puedo agarrar a una experiencia propia de momento, pero por lo que he visto dan buen resultado, por ello me animé a hacerla, eso sí, es contenido único, scrapeado pero único :sisi1:
Sobre penalización en AdSense seguramente que si lo detectan al menos te bloqueen la url, eso le pasó al usuario @romanwp por culpa de algún envidioso que reportó, además esto se cataloga como puro spam así que lo mejor será no arriesgarse con AdSense a no ser que no 'dé de ojo', que lo veo muy chungo...

De momento, la actualización de hoy...


5ShO6F7.png




...me va diciendo que sí funciona :sisi1: Y el marcado de datos me ha indexado las listas, pero los resultados de películas aun no me ha puesto el vídeo, duración etc, espero que lo ponga :)
 

Pure Profit

Oro
Usuario de Bronce
Mensajes
1,085
Puntuación de reacción
0
Pues no me puedo agarrar a una experiencia propia de momento, pero por lo que he visto dan buen resultado, por ello me animé a hacerla, eso sí, es contenido único, scrapeado pero único :sisi1:
Sobre penalización en AdSense seguramente que si lo detectan al menos te bloqueen la url, eso le pasó al usuario @romanwp por culpa de algún envidioso que reportó, además esto se cataloga como puro spam así que lo mejor será no arriesgarse con AdSense a no ser que no 'dé de ojo', que lo veo muy chungo...

De momento, la actualización de hoy...


5ShO6F7.png




...me va diciendo que sí funciona :sisi1: Y el marcado de datos me ha indexado las listas, pero los resultados de películas aun no me ha puesto el vídeo, duración etc, espero que lo ponga :)

Gracias por tu respuesta compi. ¿Qué tipo de publi le piensas meter entonces? ¿Utilizarás Adjal con CPA, PPC..?
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
Gracias por tu respuesta compi. ¿Qué tipo de publi le piensas meter entonces? ¿Utilizarás Adjal con CPA, PPC..?

No sé de momento, no pondré publi hasta no ver que recibo alguna visita, pero sí, lo más probable es que utilice Adjal
 
Mensajes
363
Puntuación de reacción
0
Me gustan este tipo de hilos, el problema suele ser que dejan de actualizarse. De momento te dejo una batería de preguntas para darle vidilla al hilo:

Preguntas sobre el scrapper:
- ¿Qué lenguaje has utilizado?
- ¿Te has basado en algo hecho o has programado desde cero?
- ¿Qué utilizas para traducir?
- ¿Realizas algún tipo de spin aparte de la traducción?
- ¿Scrappeas de una sóla web?

Sobre el dominio:
- ¿Ha mantenido la antigüedad?
- El nombre, ¿Tiene sentido con el proyecto?

Sobre el proyecto:
- ¿Crees que sería fácil utilizar el scrapper para otro tipo de proyectos que no sean series/películas?
 

nasio

Cobre
Usuario de Bronce
Mensajes
929
Puntuación de reacción
0
Muy interesante el hilo, me subscribo y espero resultados
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
Me gustan este tipo de hilos, el problema suele ser que dejan de actualizarse. De momento te dejo una batería de preguntas para darle vidilla al hilo:

Preguntas sobre el scrapper:
- ¿Qué lenguaje has utilizado?
- ¿Te has basado en algo hecho o has programado desde cero?
- ¿Qué utilizas para traducir?
- ¿Realizas algún tipo de spin aparte de la traducción?
- ¿Scrappeas de una sóla web?

Sobre el dominio:
- ¿Ha mantenido la antigüedad?
- El nombre, ¿Tiene sentido con el proyecto?

Sobre el proyecto:
- ¿Crees que sería fácil utilizar el scrapper para otro tipo de proyectos que no sean series/películas?

Yo dejaré de actualizarlo cuando vea un resultado 'final' o más bien dicho estable, ya sea bueno o malo :)

Paso a responderte:

Preguntas sobre el scrapper:
1.- PHP
2.- Programado desde cero, es un mini-CMS, que aun dejé la parte de administración a medias ya que no la necesito de momento.
3.- Secreto :sisi1: pero es una API
4.- No, porque es contenido que hasta ahora no había aparecido. Lo que si hago, aunque no es spin, es una vez traducido el texto partirlo en párrafos para darle algo más de, no sé, ¿credibilidad?¿naturalidad? a ojos de Google claro.
5.- No, de varias, pero el contenido principal de una.

Sobre el dominio:
1.- Si me dices como se mira eso te lo confirmo, pero lo compré recién expirado.
2.- Sí, ya lo dije, palabra clave en el dominio.

Sobre el proyecto:
1.- No está hecho para eso, pero modificando se puede adaptar cambiando lo relacionado con el contenido a sacar, con el contenido a guardar y con el contenido a mostrar, lo demás casi tal cual
 
Mensajes
363
Puntuación de reacción
0
Gracias por las respuestas.

Sobre el dominio:
1.- Si me dices como se mira eso te lo confirmo, pero lo compré recién expirado.

Mirando el whois (por ejemplo en dondominio buscas el dominio y pulsas en whois) la fecha de registro.
Por lo que comentas, parece has perdido la antigüedad del dominio. Aunque para mí es más importante que tenga key en el nombre que antigüedad.
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
Gracias por las respuestas.



Mirando el whois (por ejemplo en dondominio buscas el dominio y pulsas en whois) la fecha de registro.
Por lo que comentas, parece has perdido la antigüedad del dominio. Aunque para mí es más importante que tenga key en el nombre que antigüedad.

Pues sí, me sale la fecha en la que lo registré, supongo que es a lo que te refieres, que ha perdido antigüedad. Yo de eso ni idea, más que nada lo compré porque tenía palabra clave, sino no lo hubiera hecho, además tenía el plus (si es que me sirven de algo) de antigüedad + Pagerank 1 así que no me lo pensé :)
 
Mensajes
130
Puntuación de reacción
0
Me suscribo al tema, porque este proyecto tuyo tiene muy pinta y parece realmente interesante.

Gracias por compartir la información con nosotros.
 
Estado
No está abierto para más respuestas.
Arriba