Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Análisis de características de PDFs maliciosos. Análisis de características de
PDFs maliciosos.
Hugo González
@hugo_glez
http://atit.upslp.edu.mx/~hugo/
Introducción
El formato de archivos PDF
Abusos en los archivos PDF
Análisis de Malware
Métodos y Herramientas
Resultados
Conclusiones
Agenda
Introducción
• El formato PDF (del inglés Portable
Document Format) tiene cerca de 17
años.
• En el 2008 se volvió un estándar abierto
• A evolucionado mucho al incluir
características como Javascript,
formularios …
• YA NO SE PUEDE CONSIDERAR
SEGURO!
El formato de archivos PDF
Objeto
Encabezado PDF
Objeto
Objeto
xref
trailer
Objeto
Booleano, Numeros, Cadenas,Nombres,Arreglos,
Diccionarios,Objetos Nulos,
Flujos
JavascriptImagenesFormas
ActionscriptFuentes
Archivos Incrus-tados.
• Estándar ISO bastante extenso.
• El contenido es texto en formato ASCII.
• Este es interpretado por los “visores” de
archivos PDF.
• Los objetos es donde se produce los
abusos
El formato de archivos PDF
Abusos
• Algunos abusos se dan por errores de
programación en los “visualizadores”
• Otro es el uso de Javascript o ActionScript
para ejecutar un archivo de internet.
• Otros aprovechan objetos mal formados
que son atendidos por terceros. (librerias)
• Un gran problema para detectarlos es la
OFUSCACIÓN.
Análisis de Malware
• Análisis de comportamiento
• Análisis Estático
• Análisis Dinámico
Métodos y Herramientas
• Muestra 11, 104 archivos maliciosos.
• Muestra 8, 669 archivos no malicioso.
• 200 archivos de muestra obtenidos en
Internet.
• Se revisaron con CLAMAV antivirus
• Se utilizó PDFiD y PDF-parser, de Didier
Stevens
• Desarrollos propios.
1. encabezado
2. cantidad de objetos
3. cantidad de flujos
4. cantidad de xref
5. cantidad de trailer
6. cantidad de xref de inicio
(startxref)
7. total de paginas
8. total de elementos
encriptados
9. total de flujos binarios
(objstream)
10. total de javascript identificado
con JS
11. total de javascripts
12. total de actionscript
13. existencia de acciones al abrir
14. total de formas
15. total de objetos multimedia
16. existencia de accion cargar
17. total de nombres de
identificador ofuscados.
Resultados
• Al utilizar el antivirus clamav para linux
con la base de datos más reciente se
detectaron 8,775 archivos maliciosos
solamente, equivalente al 79% dejando
2,329 archivos maliciosos sin identificar.
• Del total de los 8,779 archivos
considerados no maliciosos, ninguno fue
detectado como tal por el antivirus
Clamav.
Característica Archivos maliciosos Archivos NO maliciosos
Detección de
Clamav
79 % Detectados 0% Detectados
1 encabezado Un 6% tiene
encabezados mal
formatos.
Los encabezados son
bien formados
2* cantidad de
objetos
95% tiene menos de
20.
99% tiene mesnos de
40.
23% tienen menos de 40 .
43% tienen menos de 100
.
3* cantidad de flujos 99% tiene menos de
12.
89% tiene menos de 100.
4* cantidad de xref 99% tiene menos de 2. 35% tiene menos de 2.
50% tiene 2.
5* cantidad de trailer 99% tiene menos de 2 . 35% tiene menos de 2.
50% tiene 2.
6* cantidad de xref de
inicio (startxref)
99% tiene menos de 2 . 27% tiene menos de 2.
53% tiene 2.
7* total de paginas 92% tiene 1. 14% tiene 1.
8 total de elementos
encriptados
0.04% 3.6%
9 total de flujos
binarios
(objstream)
1% 27%
10* total de javascript
identificado con
JS
91% 6%
11* total de javascripts 91% 6%
12 total de
actionscript
2% 6%
13* existencia de
acciones al abrir
75% 10%
14 total de formas 17% 21%
15 total de objetos
multimedia
0.1% 0%
16 existencia de
acción cargar
0.7% 0.9%
17* total de nombres
de identificador
ofuscados.
4.4% 0%
Propuesta
Si un archivo cumple lo siguiente es
sospechoso:
• menos de 40 objetos y
• menos de 12 flujos y
• menos de 2 xref y
• menos de 2 trailers y
• menos de 2 xref de inicio y
• menos de 2 paginas o
• contiene javascript o js
• Aplicando lo anterior a los archivos
obtenidos de Internet, 10% de ellos las lo
cumplen. Estos son sospechosos y en un
análisis posterior se descartan como
maliciosos. Aplicando la misma propuesta
al conjunto de archivos maliciosos un
99.7% lo cumplen.
Conclusiones
• Los atacantes van ideando nuevas formas
de ofuscar el código malicioso dentro de
los PDFs para evitar ser detectados.
• Con las características aquí presentadas,
ayudarán a identificar posibles archivos
sospechosos, que deberán ser sometidos
a otro tipo de análisis para identificarlos
plenamente.
Trabajo a futuro
• Implementación de un software
automatizado para detectar archivos PDF
sospechosos.
• Utilización de redes neuronales para
clasificación automática de archivos
basado en estas características.
Agradecimientos
• Universidad Politécnica de San Luis
Potosí.
• Mila, en el Blog “Contagiodump” por las
muestras maliciosas.