Page 22

BOT 55

en profundidad generados en dichos ejercicios y su contraste con los datos tomados en vivo. Lo anterior abre la posibilidad en el futuro de habilitar otra innovación clave: la simulación de nuevos escenarios generados de forma automática a partir de la combinación de los ya existentes con la información procedente de fuentes reales. Dicha simulación permitirá una mejor verificación de hipótesis ofreciendo un grado de analítica más avanzado al sistema de soporte. Principales innovaciones del EDTD A través del uso de sistemas de recolección de datos en tiempo real, también conocidos como Big Data, se puede obtener información de prácticamente cualquier entorno monitorizado de forma escalable. Todos los sistemas permiten tanto escalabilidad horizontal como vertical, lo que permite su despliegue en gran cantidad de infraestructuras diferentes. El sistema de monitorización de alertas basado en patrones provenientes de la base de datos CAPEC permite correlacionar las alertas agregadas por los sistemas de Big Data a lo largo del tiempo. Esto permite predecir próximas probables víctimas de ciberataques y detectar ataques con marcos de tiempo muy elevados que pasarían desapercibidos por otros sistemas. Por último, el módulo del implementador de modelos permite la instalación de los modelos entrenados por analistas de datos en el componente del EAN en sistemas de detección instalados en la red monitorizada. Está diseñado para ser independiente tanto de los modelos almacenados como de las tecnologías finales a través de un sistema de plugins que permite al usuario extender el sistema a las tecnologías necesarias. Principales innovaciones del EAN Dentro del entorno de análisis (EAN), uno de los puntos a destacar es la implementación de un sistema de aprendizaje automático con revisión por parte de personal experto, basándose en el algoritmo AI². Ese modelo permite modelar con aprendizaje supervisado y no supervisado, de tal forma se extraen los beneficios de ambos métodos, y posteriormente se valida la información por un experto para confirmar las predicciones obtenidas. Además, esos resultados validados servirán como datos históricos para futuras iteraciones. Otro de los puntos fuertes del EAN es el diseño de su DataLake, el Repositorio Integrado de Datos, el cual permite almacenar información que será gestionada utilizando una serie de objetos llamados Registros. Dichos registros sirven como capa de metadatos sobre los datos en crudo almacenados, pudiendo realizar búsquedas o diferentes acciones sobre éstos, añadirlos o eliminarlos (de manera manual o con políticas de expurgo). Gracias a estos el científico de datos se desentiende de los datos, trabajando únicamente con los registros. Por último, también se ofrecen unas librerías llamadas WrapperModelos, que permiten la ejecución de diferentes modelos de DataScience de forma muy sencilla, facilitando y ahorrando código del científico de datos que lo vaya a utilizar. Principales innovaciones del Generador de Escenarios El estado del arte sobre conjuntos de datos que recojan ciberataques reales es bastante reducido. Esto hace que surja la necesidad de generar esta información a partir de escenarios sintéticos que en la actualidad se realizan en su mayor parte de forma manual. El Generador de Escenarios desarrollado en el proyecto PREDECIBLE facilita esta tarea proporcionando una interfaz gráfica que abstrae al diseñador del escenario de la tecnología de virtualización que hay por debajo, facilitando su trabajo. Aunque este sistema ha sido probado y validado en la infraestructura disponible en el área de TICS del ITM, formada por hipervisores XenServer y el gestor CloudStack, existen varios aspectos desarrollados que puedes ser extrapolables a cualquier plataforma de virtualización. Por un lado, se ha diseñado la arquitectura de la red de gestión, transparente para el propio escenario, que a través del despliegue de sondas a las que el generador tiene acceso, permite configurar y acceder al resto de equipos desplegados. Por otro lado, el uso de tecnologías cómo Ansible, generaliza la forma de crear servicios para los equipos desplegados, haciéndolos un poco más independientes de los sistemas operativos de los anfitriones. Por último, el contar con la posibilidad de importar y exportar las especificaciones de los escenarios diseñados y levantar o destruir un escenario completo en pocos pasos, facilita enormemente la gestión de los recursos disponibles en las infraestructuras de virtualización y la repetitividad de los escenarios diseñados. Agradecimientos El proyecto descrito en este artículo ha sido elaborado en el marco del contrato firmado con la Dirección General de Armamento y Material del Ministerio de Defensa. Expediente número 1003215005600. Programa COINCIDENTE. Agradecimiento especial al Mando Conjunto de Ciberdefensa por su apoyo y participación en el proyecto. Referencias 1 Kalyan Veeramachaneni (CSAIL, MIT Cambridge, MA), Ignacio Arnaldo (PatternEx, San Jose, CA), Alfredo Cuesta-Infante, Vamsi Korrapati, Costas Bassias, Ke Li (PatternEx, San Jose, CA), «AI2: Training a big data machine to defend», 2016. 2 S. Jajodia, S. Noel, P. Kalapa, M. Albanese and J. Williams, “Cauldron mission-centric cyber situational awareness with defense in depth,” 2011 - MILCOM 2011 Military Communications Conference, Baltimore, MD, 2011, pp. 1339-1344. 3 M.-A. Sicilia, J. Bermejo-Higuera, E. García-Barriocanal, S. Sánchez Alonso, D. Domínguez-Álvarez, y M. Monzón-Fernández, «Querying Streams of Alerts for Knowledge-Based Detection of Long-Lived Network Intrusions», en Flexible Query Answering Systems, 2017, pp. 186-197. 4 Estrategia de Tecnología e Innovación para la Defensa (ETID - 2015). www. tecnologiaeinnovacion.defensa.gob.es. 22 Boletín de Observación Tecnológica en Defensa n.º 55. Tercer y cuarto trimestre 2017


BOT 55
To see the actual publication please follow the link above