Existiría la posibilidad de que el scraping tradujera el contenido de x idioma a otro ?
A mi me interesa para cuando sea de codigo abierto poder hacer mejoras, solucionar bugs y todo eso...
Sigo el hilo a ver que van contando :mola:
pues colabora y compralo jajajaja
el código esta todo comentado y en una clase para que sea mas fácil de usar, aunque queda ir depurando
Para que sirve dicho scrip ?
public static function do_curl( $url, $imgoogle = false ) {
$ip = rand( 0, 255 ).'.'.rand( 0, 255 ).'.'.rand( 0, 255 ).'.'.rand( 0, 255 );
$ch = curl_init();
if( true === $imgoogle )
$ua = 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)';
else
$ua = "Mozilla/".rand(3,5).".".rand(0,3)." (Windows NT ".rand(3,5).".".rand(0,2)."; rv:2.0.1) Gecko/20100101 Firefox/".rand(3,5).".0.1";
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Accept-Language es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3', "REMOTE_ADDR: $ip", "HTTP_X_FORWARDED_FOR: $ip"));
curl_setopt( $ch, CURLOPT_USERAGENT, $ua );
$html = curl_exec($ch);
curl_close($ch);
return $html;
}
Script comprado
Anímense y no esperéis a que lo libere, esto tiene su trabajo y son solo 15€. Lo recomiendo 100%.
Yo lo comprare a final de semana, que ahora no tengo cash en paypal
Alguien que lo haya usado ya, ¿pueden recomendarme un hosting que cumpla con los requisitos del script?
ven a madrid y me lo pagas en persona :sisi1:
"REMOTE_ADDR: $ip", "HTTP_X_FORWARDED_FOR: $ip"
@lobogris: no sería mejor poner una versión fija de FireFox... lo digo porque de ese modo en el que tratas de conseguir darle naturalidad a las peticiones agregando el User-agent, si haces varias peticiones seguidas, pues es como si usases un firefox diferente para cada petición.
Por otro lado en las cabeceras no entiendo muy bien para que se emplean:
Código:"REMOTE_ADDR: $ip", "HTTP_X_FORWARDED_FOR: $ip"
Ambas cabeceras no funcionarán correctamente, imagino que son para simular que la peticion viene de otra IP, pero eso no funciona.
La cabecera de REMOTE_ADDR no existe por parte del cliente, es una variable que se establece a nivel tcp/ip no hay posibilidad de "fakearla", sino no necesitariamos proxies.
La siguiente cabecera HTTP_X_FORWARDED_FOR, esa no es la forma correcta de definir la cabecera, es la forma con la que obtenemos la cabecera en PHP. La cabecera que tiene que enviar el cliente es X-Forwarded-For y luego en PHP se obtiene con $_SERVER['HTTP_X_FORWARDED_FOR'].
Pero ya digo que de todas formas esos metodos no funcionan para ocultar la ip.