- Principal
- Administracion de sistemas
- Linux
- Extraer los enlaces de una página web
Extraer los enlaces de una página web
- Por Larry Hans Arroyo Vargas
- Publicado 10.07.08
- Linux
-
Rating:




En esta entrega utilizaremos la potencia del navegador LYNX para extraer con un simple comando los enlaces disponibles en una página web en específico.
Sabiendo que si no disponemos de un servidor Linux, y de mucho menos el navegador LYNX instalado, podemos utilizar la utilidad gratuita de “listar enlaces”, explicaremos, como mediante un sencillo comando, podemos extraer los enlaces que se ofrezcan de manera pública en cualquier sitio web.
La tarea la realizamos mediante el navegador SEO LYNX, que en el caso de que no lo tengamos instalado en nuestro sistema, en la mayoría de los casos lo podríamos incluir corriendo:
yum install lynx
En este caso extraeremos los enlaces a los cuales el sitio de http://www.abdicar.com hace referencia.
El comando es el siguiente:
El resultado a la fecha sería el siguiente:
https://www.abdicar.com/
http://www.ticosland.com/perfil/abdicar-Comunicaciones
http://www.axired.com/
http://www.axired.com/
http://www.ticosland.com/
En general lo único que debemos cambiar es la dirección del dominio en el comando, y podremos utilizarlo a gusto en nuestra consola Linux.
Un hacking saludo…
Sabiendo que si no disponemos de un servidor Linux, y de mucho menos el navegador LYNX instalado, podemos utilizar la utilidad gratuita de “listar enlaces”, explicaremos, como mediante un sencillo comando, podemos extraer los enlaces que se ofrezcan de manera pública en cualquier sitio web.
La tarea la realizamos mediante el navegador SEO LYNX, que en el caso de que no lo tengamos instalado en nuestro sistema, en la mayoría de los casos lo podríamos incluir corriendo:
En este caso extraeremos los enlaces a los cuales el sitio de http://www.abdicar.com hace referencia.
El comando es el siguiente:
lynx -dump http://www.abdicar.com | grep -A999 "^References$" | tail -n +3 | awk '{print $2 }'
El resultado a la fecha sería el siguiente:
https://www.abdicar.com/
http://www.ticosland.com/perfil/abdicar-Comunicaciones
http://www.axired.com/
http://www.axired.com/
http://www.ticosland.com/
En general lo único que debemos cambiar es la dirección del dominio en el comando, y podremos utilizarlo a gusto en nuestra consola Linux.
Un hacking saludo…
Compartelo
2 Responses to "Extraer los enlaces de una página web" 
|
said this on 24 Aug 2008 3:46:24 PM MSD
Muuuy buen truco, funciona perfecto ;)
|
|
said this on 16 Mar 2010 9:24:49 AM MSD
Otra mas que no me sabía del pingüinito.
|

Author/Admin)