Hacking con buscadores I – Leak information

Buena compis,

Tras el maratón de posts sobre WordPress, ya tocaba cambiar un poco de ámbito y en esta ocasión me voy a centrar en la técnica conocida como Hacking con Buscadores.

En este primer post, se va a centrar sobre Leak Information. Ya sabemos la cantidad de información que los buscadores nos facilitan, sin embargo, en numerosas ocasiones, los bots de estos buscadores visitan recursos que quizás no deberían estar accesibles desde el exterior e indexan esa información. Ahora bien la información está ahí, pero claro hay que saber dónde buscarla.

Como ya se comentó anteriormente sobre el fichero robots.txt, indica a los bots que no deben visitar el sitio web y por lo tanto, no indexar su contenido en los resultados que éstos ofrecen. Para lograr este hito, se requiere de una correcta configuración como se muestra a continuación:

 

                                                       <meta name=»googlebot» content=»NOFOLLOW,NOINDEX»>

 

Esto tendría que hacerse para cada bot de los buscadores: Bing, Exalead, Baidu, Yandex,…Sin embargo, a pesar de esta configuración, algunos bots pueden no obedecer las indicaciones de estas directivas.

Pero no está todo perdido, también se dispone de la herramienta sitemap para los webmasters. Los sitemaps indican explíticamente los documentos que deben ser indexados por los buscadores, así como facilitar una serie de recomendaciones a los buscadores sobre la frecuencia de variación de los contenidos, su relevancia, …

Después de ver brevemente el papel del fichero robots y las opciones para su configuración, entramos a lo que viene siendo la fuga de información.

Inciso: Toda la información que se puede obtener a través de la indexación de los buscadores es de dominio público. En el post, no obstante, se va a pixelar toda la información relevante. Por ello, se va a utilizar el dominio fictio ejemplo.es como si fuera el target.

Para realizar las pruebas se va a emplear el buscador Google, debido a que es el principal buscador, que aloja la mayor cantidad de resultados y que es muy flexible a la hora de usar los llamado dorks, es decir, vamos a centrarnos en Google Hacking.

En primer lugar, se van a buscar todos los ficheros ofimáticos alojados en el dominio principal para tener una toma de contacto de cuántos documentos hay y qué tipo de información se tiene, es decir, si son documentos de interés público (notas de prensa, artículos,…) o por el contrario, son documentos que se han indexados pero que no deberían estar accesible de manera pública.

 

leak_information_target

 

Dork: site:ejemplo.es (ext:pdf OR ext:doc OR ext:docx OR ext:xls OR ext:ppt)

Explicación: Se está buscando en el dominio ejemplo.es documentos pdf y ofimáticos de Microsoft Office. Se indica entre paréntesis para concatenar las búsquedas con el operador lógico OR.

Como se observa en la imagen anterior, se identifica un manual de usuario, quizás contenga información relevante sobre la infraestructura.

Además, hacking con buscadores – metadatos está muy relacionado, por lo que se podrían descargar estos ficheros y extraer su metadatos para ver si se encuentra algo interesante. Para esta opción, se puede hacer a mano y emplear herramientas como exiftool para descubrir lo que esconde los metadatos o por el contrario, emplear la FOCA, que permite personalizar el dork de búsqueda, descargar los documentos y extraer sus metadatos. Además, la obtención de los metadatos se puede emplear para auditorias de licencias para conocer si una empresa está cumpliendo las normativas o por el contrario, emplea software «pirata».

A nivel personal a la hora de extraer metadatos me gusta más exiftool, sin embargo, la FOCA tiene una mejor representación de la información extraída clasificándola según una categoría como ya explicó nuestro compañero Rubén en «Sacando a pasear a la FOCA»

 

foca

 

Acordáos de en «config» uncheck todos los checkbox y sólo habilitar el de metadataSearch

Realmente lo que se ha hecho hasta ahora, podríamos tirar de botón «gordo» y que lo haga la FOCA, pero al menos a mí, me mola más saber como funcionan las herramientas por dentro (o al menos intuirlo). Al fin y al cabo, la FOCA es una herramienta que trata de automatizar los búsquedas que se harían de manera manual para optimizar los recursos del pentester.

foca_leak_information

 

Como se observa se han encontrado hasta 190 documentos ofimáticos destacando la extensión «pdf».

Extrayendo los metadatos de 3 documentos encontrados, se tiene la siguiente información:foca_users

En este caso, se dispone de 4 nombres de usuario, de los cuales, parece que el primero es el nombre del directorio activo, y también destaca el usuario «típico o por defecto» Info Path

Mientras que respecto al software empleado para su creación:

foca_sw

Se identifica software de Microsoft característico de equipos con SSOO Windows.

Con esa información, dentro de la etapa de Footprinting, se deduce que con la información obtenida, destacan equipos con SSOO Windows y una posible estructura de nombres de usuario para el directorio Activo.

Tras ver lo que se encuentra en el dominio ejemplo.es, es decir, los documentos que están alojados en la infraestructura del target, parece interesante echar un vistazo a que documentos del target no se encuentran en su infraestructura, es decir, hablamos de Leak information. Información sensible que se haya identificado en el target y se encuentra en otros dominios, y además si alguno de ellos se corresponde con servicios de compartición de ficheros como Dropbox, Google Drive y cia.

 

leak_information_outside_target_results

 

leak_information_outside_target

 

Dork: site:*.es intext:ejemplo intitle:ejemplo (ext:pdf OR ext:docx OR ext:doc OR ext:xls OR ext:ppt) -site:www.ejemplo.es -site:*.ejemplo.es

Explicación: Búsqueda en todos los dominios españoles (.es) donde aparezca en título (intitle) o en el texto (intext) ejemplo que sean documentos ofimáticos y no pertecezcan (-site) a los dominios y subdominios de ejemplo.

Como se aprecia en las capturas anteriores, se ha obtenido numerosa información, alojándose alguna de ella en sindicatos del sector. De esta manera, se podría saber si por ejemplo hay información sensible o comercial que se encuentre alojado en la competencia.

Espero que os haya gustado y especialmente que os sea útil, pero sobre todo para tener conciencia de la información pública que se encuentra indexada en los buscadores.

La mejor defensa es un buen ataque.

Saludos.

N4xh4ck5