[Ubuntu-ni] como usar wget para captura de contenido web?

Adolfo Fitoria adolfo.fitoria en gmail.com
Mar Feb 22 06:07:19 UTC 2011


2011/2/21 Leandro Gómez <leogg en ubuntu.org.ni>:
> 2011/2/21 Omar Valle <vomar00 en gmail.com>
>>
>> Hola Comunidad!
>> He intentado copiar una carpeta completo de un sitio web, pero cada vez
>> que utilizo el comando wget, en vez de copiarlo me guarda otros archivos.
>> Este es el directorio
>> url = http://www.bacanalnica.com/mis-fotos?func=viewalbum&aid=7975
>> y esto es lo que pongo en la terminal
>> wget -r -l1 -nd - N - np -A.jpg -erobots=off url
>> Que es lo que estoy haciendo mal?
>
> No estás haciendo nada mal. Lo que pasa que el enlace de arriba es
> dinámico... o en otras palabras, las imágenes no están en el directorio
> 'bacanalnica.com' o 'bacanalnica.com/mis-fotos', sino que se hace la llamada
> a otro directorio.
> Una simple inspección del código de la página revela que, por ejemplo, la
> primera imágen de la galeria está en
> 'bacanalnica.com/images/sg_photos/8E9E282AC6C9-7975.jpg'.
>
>>
>> Saludos Cordiales,
>> Omar Valle
>> --
>> Ubuntu-ni mailing list
>> Ubuntu-ni en lists.ubuntu.com
>> Modify settings or unsubscribe at:
>> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ni
>>
>
>
> --
> Ubuntu-ni mailing list
> Ubuntu-ni en lists.ubuntu.com
> Modify settings or unsubscribe at:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ni
>
>

A como cuenta Leo, las imágenes de este sitio son administrar por el
manejador de contenidos y no está configurado de la "manera antigua"
que era simplemente tener un directorio de imágenes donde podrías
meter archivos, wget haría maravillas si estuviera así. Pero en tu
caso si quieres automatizar la descarga un poco te recomiendo que uses
tu lenguaje de programación favorito con la biblioteca llamada
Mechanize. Existe implementación en muchos de los lenguajes mas
populares, ej: ruby[1], python[2], perl[3]. Esta biblioteca es genial!

Para esto toca leer un poco sobre como funciona Mechanize y manos a la
obra! Seguramente habrá otra solución usando regex y bash pero mi
nivel de kung fu no llega hasta ahí.

[1] http://mechanize.rubyforge.org/mechanize/
[2] http://wwwsearch.sourceforge.net/mechanize/
[3] http://search.cpan.org/dist/WWW-Mechanize/
-- 
Adolfo Fitoria
http://fitoria.net



Más información sobre la lista de distribución Ubuntu-ni