2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Descargar TODAS las carpetas, subcarpetas y archivos con Wget

He estado usando Wget, y me he encontrado con un problema. Tengo un sitio, que tiene varias carpetas y subcarpetas dentro del sitio. Necesito descargar todo el contenido de cada carpeta y subcarpeta. He probado varios métodos usando Wget, y cuando compruebo la finalización, todo lo que puedo ver en las carpetas es un archivo “índice”. Puedo hacer clic en el archivo de índice, y me llevará a los archivos, pero necesito los archivos reales.

¿alguien tiene un comando para Wget que haya pasado por alto, o hay otro programa que pueda utilizar para obtener toda esta información?

ejemplo de sitio:

www.mysite.com/Pictures/ dentro de la DIr de Fotos, hay varias carpetas…..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

Necesito todos los archivos, carpetas, etc…..

Respuestas (3)

38
38
38
2013-10-07 16:23:25 +0000

Quiero suponer que no has probado esto:

wget -r --no-parent http://www.mysite.com/Pictures/

o recuperar el contenido, sin descargar los archivos “index.html”:

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

Referencia: Usando wget para obtener recursivamente un directorio con archivos arbitrarios en él

20
20
20
2014-12-20 09:22:17 +0000

Uso wget -rkpN -e robots=off http://www.example.com/

-r significa recursivamente

-k significa convertir enlaces. Así que los enlaces en la página web serán localhost en lugar de example.com/bla

-p significa obtener todos los recursos de la página web para obtener imágenes y archivos javascript para que el sitio web funcione correctamente.

-N es recuperar las marcas de tiempo para que si los archivos locales son más recientes que los archivos del sitio web remoto los omita.

-e es una opción de bandera que necesita estar ahí para que el robots=off funcione.

robots=off significa ignorar el archivo de robots.

También tenía -c en este comando para que si se caía la conexión continuara donde se quedó cuando volviera a ejecutar el comando. Pensé que -N iría bien con -c

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A \N -pk -e robots=off www.mysite.com/ esto descargará todo tipo de archivos localmente y apuntará a ellos desde el archivo html e ignorará el archivo robots