08 December 2010

Usando wget y Linux para bajar sitios web completos

Unos trucos para lograr bajar automáticamente los sitios que necesites desde el internet a tu pc.

Wget es una herramienta que viene en cualquier linux, es usada para bajar archivos desde internet. Su forma basica de uso es: wget http://www.guatewireless.org

Esta es la manera en la cual wget se utiliza normalmente, pero también puede ser utilizado recursivamente, esto es su poder escondido. wget puede conectarse a los sitios y recursivamente bajar todas las paginas (imágenes y otro tipo de datos) que estén linkeadas en la pagina principal:

wget -r http://www.guatewireless.org/

Sin embargo, existen muchos sitios los cuales nos deniegan poder bajar el sitio completo. Para prevenir esto, los sitios verifican la identificacion de los navegadores. Para evitar estas molestias wget tiene la opcion -U.

wget  -r -p -U Mozilla http://www.guatewireless.org/

Seria bueno que agregaran las opciones –limit-rate= y –wait=. Lo anterior es para hacer pausa entre cada pagina, ya que de lo contrario el dueño del sitio puede darse cuenta que con un simple comando wget le estamos bajando el sitio completamente. Sin embargo, nadie se dará cuenta si limitan la velocidad de descarga y hacen pausa entre archivos.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.guatewireless.org/

Use --no-parent

--no-parent esta opción garantiza de que wget no descargara archivos por debajo del directorio que deseamos descargar.

La opción para hacer lo mismo en windows es con el software gratuito WebRipper disponible en http://calluna-software.com/downloads/webripper_1x/WebRipper_1.33.exe

fuente: aqui

No comments: