Auditoría Web: Fingerprinting I – Fichero robots.txt

Buenas compañeros,

Esta es la primera entrada de una serie de posts sobre la técnica de Fingerprinting. Para empezar, ¿Qué es el Fingerprinting? Es la técnica de obtención de información del target interactuando vía web. Esta fase se categoriza dentro de la etapa de obtención de información en un proceso de auditoría web.

Uno de los primeros «rincones» que se suele consultar en toda web es el fichero robots.txt El fichero robots.txt indica a los robots las URL’s de un sitio web que no deben ser visitadas, y por lo tanto, no indexadas en sus resultados. Dicho fichero se encuentra en el raíz del servidor web:

ejemplo.es/robots.txt

Por lo tanto, en toda auditoria web debe ser uno de los sitios recomendados dónde mirar al comenzar. A continuación, se muestran algunos ejemplos de sitios webs dónde no se han configurado correctamente y se está facilitando información sobre la infraestructura del mismo:

ejemplos2_robots

Entre la información mostrada puede facilitarse rutas de directorios realmente peligrosas (otra cosa es que se puedan acceder o no) como se muestra en el siguiente caso:

Con esta información, se podría intentar acceder a los directorios mostrados para ver que información se puede acceder. Lo ideal es que nos devuelve un 403 Forbidden si se encuentra bien configurado…,

pruebas

Sin embargo, como se muestra a continuación, no suele ser así y se puede acceder a contenido especialmente, sensible como por ejemplo la descarga de contenido del sitio web:

contenido_pistas_audio
En este caso, se está facilitando desde el exterior la descarga de contenido multimedia, recursos que no deberían poder ser accesibles.

Si se encontrara bien configurado, se debería observar un mensaje como el siguiente, en el que se está prohibiendo la indexación de los diferentes bots de los buscadores.
configuracion_correcta_robots

O por el contrario, impedir su acceso desde fuera, de esta manera no se indexará, sin embargo, no será fácil de encontrar por la búsqueda de los buscadores, sino que habrá que clicar la URL del dominio exacta.

acceso_403_robots
Análogamente, al acceso al fichero robots.txt, se puede verificar el acceso al fichero .htaccess si el servidor se trata de un servidor Apache (ver cabeceras de respuesta).

Apache ofrece configuración de directorios a través de los archivos de Acceso a Hipertexto, más conocidos como archivos .htaccess.

La finalidad de esta entrada es con fines educativos y formativos, no nos hacemos responsable de su uso para otros fines distintos, ¡no seáis malos!

La mejor defensa, es un buen ataque.

NaxHack5

Un comentario en «Auditoría Web: Fingerprinting I – Fichero robots.txt»