Encuentra blogs eliminados con autoridad de forma automática

lekroz

Platino
Usuario de Bronce
Mensajes
1,734
Puntuación de reacción
0
@lekroz ¿La velocidad de este script en python es menor que en la versión java? Me da la impresión al estar probándolo un tiempo...

Por cierto, ¿de qué forma se podría guardar el archivo blogs.txt que te genera en la misma carpeta que el script? Actualmente me lo guarda en un nivel superior.

Y otra duda...¿por qué empieza a scrapear a partir de la página 11 de Google y no empieza por la 1?

Es posible que sea menor, pero no demasiado. Java es más rápido que python.

Para guardarlo en la misma carpeta leyendo la ruta del script, pero no me interesa eso.

Si empieza en la 11 será que tiene un tiene un fallo o lo dejé mientras probaba
 

Pure Profit

Oro
Usuario de Bronce
Mensajes
1,085
Puntuación de reacción
0
Ya encontré como guardar el archivo que te genera en la misma carpeta que el script.

Hay que hacer lo siguiente:

import os
file = open(os.path.join(os.path.dirname(__file__),'tuarchivodetexto.txt'),'w')
 

mikealme

Cobre
Usuario de Bronce
Mensajes
901
Puntuación de reacción
0
Caído el link, no se porque ésto pasa siempre con buenos aportes.
 

Rhazz

Platino
Usuario de Bronce
Mensajes
1,400
Puntuación de reacción
0
Ahora no hay que ser premium para en Moz, basta con tener cuenta.
Aquí lo tienes:

Zippyshare.com - BloggerExpiredDomains.zip
Perfecto, muchísimas gracias, voy a probar.

- - - Actualización- - -
@lekroz hay alguna forma de detener el programa? Algún comando o similar, ya que hasta ahora tuve que cerrarlo dos veces antes que termine y nunca guardó, pero copié manualmente el contenido de la ventana cmd.
 

lekroz

Platino
Usuario de Bronce
Mensajes
1,734
Puntuación de reacción
0
@TheHacker01 por algún lado lo dije, el archivo se guarda solo al finalizar. Este programa, si es que puedo llamar así xD lo programe sin tener ni idea al comienzo. Por eso esta lleno de fallos como este. A veces por algún motivo también no continua, y no hay que hacer búsquedas de muchas páginas.

Por mi parte no voy a dar actualizaciones, porque no me interesa. Pero considero que la mejor solución para continuarlo seria usar Python + Mechanize/PhantomJS para después compilarlo a .exe. El código de Python está en la página anterior.
 

Zeokat

Oro
Usuario de Bronce
Mensajes
1,194
Puntuación de reacción
4
@lekroz: y no se parará porque Google bloquea las busquedas. Vamos, pasa siempre, cuando haces muchas peticiones seguidas a Google te bloquea. Al menos es lo que pasa con el script en Python, porque lo estoy programando a mi manera y da ese problema (con la versión Java imagino que pasará lo mismo).
 

lekroz

Platino
Usuario de Bronce
Mensajes
1,734
Puntuación de reacción
0
@lekroz : y no se parará porque Google bloquea las busquedas. Vamos, pasa siempre, cuando haces muchas peticiones seguidas a Google te bloquea. Al menos es lo que pasa con el script en Python, porque lo estoy programando a mi manera y da ese problema (con la versión Java imagino que pasará lo mismo).
Google no te bloquea, porque hace 1 sola búsqueda y cambia de página cada 1-3 minutos. En Java se bloquea por htmlunit, el "navegador" que usa. En Python no se bloquea, pero al no usar Javascript hay veces que no lee blogspot correctamente.
 

Zeokat

Oro
Usuario de Bronce
Mensajes
1,194
Puntuación de reacción
4
Google no te bloquea, porque hace 1 sola búsqueda y cambia de página cada 1-3 minutos. En Java se bloquea por htmlunit, el "navegador" que usa. En Python no se bloquea, pero al no usar Javascript hay veces que no lee blogspot correctamente.

Ok, entonces hay que hacerlo más despacio. Mi script en Python usa threads para acelerar el tema por eso me estaba bloqueando.

Esque en el script en Python no hay nada que controle el tiempo para cambiar de página cada 1-3 minutos :confused:

Bueno ya veré, ahora tengo la ip bloqueada no puedo hacer mas pruebas jeje
 
Última edición:

lekroz

Platino
Usuario de Bronce
Mensajes
1,734
Puntuación de reacción
0
Ok, entonces hay que hacerlo más despacio. Mi script en Python usa threads para acelerar el tema por eso me estaba bloqueando.

Esque en el script en Python no hay nada que controle el tiempo para cambiar de página cada 1-3 minutos :confused:

Bueno ya veré, ahora tengo la ip bloqueada no puedo hacer mas pruebas jeje

El script busca en Google y entra en todos los blogs y a los perfiles. Por eso tarda 1-3 minutos, por que lleva si tiempo.

En python para esperar escribes

Import time
Time.sleep(segundos)
 

mikealme

Cobre
Usuario de Bronce
Mensajes
901
Puntuación de reacción
0
Hola alguien que me explique como funciona esto :D ???
 
Última edición:

cifu1986

Cobre
Usuario de Bronce
Mensajes
507
Puntuación de reacción
0
¿Funciona el programa aún? Ambos archivos de Dropbox están caidos.
 

mikealme

Cobre
Usuario de Bronce
Mensajes
901
Puntuación de reacción
0
@lekroz hola amigo, esto aun sirve? podrias resubir el archivo? gracias
 
Arriba