Uso de wget para rescargar archivos i sitios web

Aprenderemos a bajarnos archivos y webs enteras usando wget en Linux. Todas las siguientes lineas de código las tenemos que poner en la consola de Linux pero sustituir la web por la que queramos.

Su uso básico es para bajarnos archivos así que pondremos:

wget http://sitioweb.com/archivo.zip

De este modo nos bajaríamos el archivo.zip, pero podemos añadirle otros parámetros y usarlos de modo que nos ayuden a perfeccionar nuestra tarea.

Si ahora ponemos:

wget -r http://sitioweb.com

Con el parámetro -r le estaremos diciendo que baje recursivamente todos los archivos del sitio web, esto significa que nos bajará imágenes, archivos html, etc. Pero si lo usan de este modo seguro que el sitio les bloquea la ip debido a que estamos enviando demasiadas peticiones seguidas y descargando todo, para evitar esto podríamos usar algo asi:

wget –random-wait –limit-rate=20k -r http://sitioweb.com

–random-wait Hace que entre un archivo y otro espere un periodo de tiempo aleatorio. De este modo el sitio de donde estamos bajando los archivos no se dará cuenta de nada.

–limit-rate=20k Lo que hace es limitar las descargas de los archivos a una transferencia máxima de 20k. Al igual que el parámetro anterior ayuda a evitar que nos baneen la IP mientras estamos bajando.

Aunque aún le podemos añadir mas parámetros, por ejemplo algo así:

wget –wait=20 –limit-rate=20K -r -p -U Mozilla http://sitioweb.com

–wait=20 Hace una pausa de 20 entre archivo y archivo pero creo que lo mejor seria usar random, –random-wait

-p Indica que descargue los archivos para ser visualizados correctamente como html, con esto me refiero a que se baje las páginas para verlas en tu disco como si estuvieras navegando por internet

-U mozilla Hará creer al sitio web que estamos usando algún navegador de la familia de Mozilla para hacer las descargas. Es decir como si estuviéramos navegando pro la web con Firefox.

También podemos poner niveles para bajar la página como en este ejemplo:

wget -r -l 4 http://sitioweb.com

-l 4 Significa que solo nos bajaremos cuatro niveles des de esa web, debemos tener en cuenta que cuatro niveles puede ser bastante y que a cada nivel se aumenta exponencialmente la información descargada. Podemos sustituir el 4 por otro numero, el numero de niveles que deseemos descargar.

Para descargar solo un tipo de archivo concreto podemos poner este código:

wget -r -A=.jpg,.png http://sitioweb.com

A=.jpg,.png Con este parámetro nos bajaríamos los archivos .jpg y .png. Aunque podemos poner A= #, dónde # equivale a cualquier otro formato, puede ser que dependiendo del formato no nos encuentre ningún archivo. Si queremos poner múltiples formatos debemos separarlos con comas y sin espacios. El formato debe incluir punto.

Espero que les aya servido, para cualquier cosa pueden dejar un comentario.

Deja un comentario

*

Buscador