Venta scraperscript script crowdfunding desde 15€

Estado
No está abierto para más respuestas.

Alf

Hierro
Mensajes
129
Puntuación de reacción
0
Reputación de negocios - 100%
4   0   0
Existiría la posibilidad de que el scraping tradujera el contenido de x idioma a otro ?
 

Zeokat

Oro
Usuario de Bronce
Mensajes
1,193
Puntuación de reacción
4
Reputación de negocios - 100%
18   0   0
A mi me interesa para cuando sea de codigo abierto poder hacer mejoras, solucionar bugs y todo eso...

Sigo el hilo a ver que van contando :mola:
 

Julio Rodríguez

Diamante
Usuario de Bronce
Mensajes
2,520
Puntuación de reacción
2
Reputación de negocios - 100%
47   0   0
A mi me interesa para cuando sea de codigo abierto poder hacer mejoras, solucionar bugs y todo eso...

Sigo el hilo a ver que van contando :mola:

pues colabora y compralo jajajaja

el código esta todo comentado y en una clase para que sea mas fácil de usar, aunque queda ir depurando :D
 

Zeokat

Oro
Usuario de Bronce
Mensajes
1,193
Puntuación de reacción
4
Reputación de negocios - 100%
18   0   0
pues colabora y compralo jajajaja

el código esta todo comentado y en una clase para que sea mas fácil de usar, aunque queda ir depurando :D

Este mes estoy en números rojos para gastos online :sisi1: ... lo compraría y colaboraria si le fuese a dar uso pero no va a ser el caso.
 

lobogris

Platino
Usuario de Bronce
Mensajes
1,537
Puntuación de reacción
0
Reputación de negocios - 90.9%
10   1   0
Buenas, le he hechado un vistazo rápido, y va la primera mejora, que sería emular a un navegador ya que usamos cURL y hay algunos sitios que bloquean estas transferencias si las cabeceras enviadas no son del todo aceptadas por el servidor, pongo el código que tengo de un scraper que estuve haciendo hace unos días y he dejado parado, si damos un valor true a $imgoogle emulará el bot de Google e caso contrario emulará un Firefox al azar:

PHP:
 public static function do_curl( $url, $imgoogle = false ) {
        
            $ip = rand( 0, 255 ).'.'.rand( 0, 255 ).'.'.rand( 0, 255 ).'.'.rand( 0, 255 );
            $ch = curl_init();
            
            if( true === $imgoogle )
                $ua = 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)';
            else
                $ua = "Mozilla/".rand(3,5).".".rand(0,3)." (Windows NT ".rand(3,5).".".rand(0,2)."; rv:2.0.1) Gecko/20100101 Firefox/".rand(3,5).".0.1";
            
            curl_setopt($ch, CURLOPT_URL, $url);
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
            curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5);
            curl_setopt($ch, CURLOPT_HTTPHEADER, array('Accept-Language    es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3', "REMOTE_ADDR: $ip", "HTTP_X_FORWARDED_FOR: $ip"));
            curl_setopt( $ch, CURLOPT_USERAGENT, $ua );

            $html = curl_exec($ch);

            curl_close($ch);

            return $html;

        }

Decir por ahí que yo ya tengo el código para traducir texto (ahí me quedé con el scraper), pero no lo voy a compartir que me costó lo suyo xD ya que hay que partir textos largos en cadenas, que no se partan palabras etc y es algo complejo

Saludos :mola:
 

Godino

Cobre
Usuario de Bronce
Mensajes
596
Puntuación de reacción
0
Reputación de negocios - 88.9%
8   1   0
Script comprado :D

Anímense y no esperéis a que lo libere, esto tiene su trabajo y son solo 15€. Lo recomiendo 100%.
 

Godino

Cobre
Usuario de Bronce
Mensajes
596
Puntuación de reacción
0
Reputación de negocios - 88.9%
8   1   0
Alguien que lo haya usado ya, ¿pueden recomendarme un hosting que cumpla con los requisitos del script?
 
Mensajes
103
Puntuación de reacción
0
Reputación de negocios - 100%
2   0   0
Yo lo comprare a final de semana, que ahora no tengo cash en paypal :p
 

Zeokat

Oro
Usuario de Bronce
Mensajes
1,193
Puntuación de reacción
4
Reputación de negocios - 100%
18   0   0
@lobogris: no sería mejor poner una versión fija de FireFox... lo digo porque de ese modo en el que tratas de conseguir darle naturalidad a las peticiones agregando el User-agent, si haces varias peticiones seguidas, pues es como si usases un firefox diferente para cada petición.

Por otro lado en las cabeceras no entiendo muy bien para que se emplean:
Código:
"REMOTE_ADDR: $ip", "HTTP_X_FORWARDED_FOR: $ip"

Ambas cabeceras no funcionarán correctamente, imagino que son para simular que la peticion viene de otra IP, pero eso no funciona.

La cabecera de REMOTE_ADDR no existe por parte del cliente, es una variable que se establece a nivel tcp/ip no hay posibilidad de "fakearla", sino no necesitariamos proxies.

La siguiente cabecera HTTP_X_FORWARDED_FOR, esa no es la forma correcta de definir la cabecera, es la forma con la que obtenemos la cabecera en PHP. La cabecera que tiene que enviar el cliente es X-Forwarded-For y luego en PHP se obtiene con $_SERVER['HTTP_X_FORWARDED_FOR'].

Pero ya digo que de todas formas esos metodos no funcionan para ocultar la ip.
 
Última edición:

Julio Rodríguez

Diamante
Usuario de Bronce
Mensajes
2,520
Puntuación de reacción
2
Reputación de negocios - 100%
47   0   0
@lobogris: no sería mejor poner una versión fija de FireFox... lo digo porque de ese modo en el que tratas de conseguir darle naturalidad a las peticiones agregando el User-agent, si haces varias peticiones seguidas, pues es como si usases un firefox diferente para cada petición.

Por otro lado en las cabeceras no entiendo muy bien para que se emplean:
Código:
"REMOTE_ADDR: $ip", "HTTP_X_FORWARDED_FOR: $ip"

Ambas cabeceras no funcionarán correctamente, imagino que son para simular que la peticion viene de otra IP, pero eso no funciona.

La cabecera de REMOTE_ADDR no existe por parte del cliente, es una variable que se establece a nivel tcp/ip no hay posibilidad de "fakearla", sino no necesitariamos proxies.

La siguiente cabecera HTTP_X_FORWARDED_FOR, esa no es la forma correcta de definir la cabecera, es la forma con la que obtenemos la cabecera en PHP. La cabecera que tiene que enviar el cliente es X-Forwarded-For y luego en PHP se obtiene con $_SERVER['HTTP_X_FORWARDED_FOR'].

Pero ya digo que de todas formas esos metodos no funcionan para ocultar la ip.

este no es post para eso aun!!
 
Estado
No está abierto para más respuestas.
Arriba