Page 19

BOT 55

en profundidad serán recogidos por el Data Science Workbench para entrenar los modelos predictivos. El entorno de análisis es el encargado del diseño e implementación de los modelos predictivos que posteriormente serán implementados como reglas de seguridad para interceptar posibles ataques externos. Este módulo, dividido en los componentes señalados, funciona de la siguiente manera: • El módulo Data Science Work- Bench une las diferentes técnicas analíticas disponibles con los datos recogidos en el repositorio integrado de datos. • Al Data Science WorkBench, encargado de revisar y diseñar nuevos modelos, se le facilitan todas las librerías necesarias utilizando un entorno interactivo de análisis que facilita el trabajo de programación, haciéndolo más eficiente. Todas las librerías y modelos disponibles se encuentran dentro del framework analítico. El Repositorio integrado de datos es el componente que recoge todos los datos listos para la analítica, que posteriormente son recogidos por el Data Science Workbench para entrenar los modelos predictivos. El repositorio integrado de datos está compuesto por una serie de gestores que se encargan de diferentes tareas: • Gestor de almacenamiento: extrae los datos desde su ruta física (File System, Cloud, etc.) o bien los deposita. • Gestor de adquisición y expurgo: define las políticas de adquisición, pudiendo filtrar los tipos de datos a extraer, o bien las políticas de expurgo, que configurarán la caducidad de los datos presentes en el repositorio. • Gestor de búsqueda y creación de registros: Con el objetivo de independizarse de los diferentes sistemas de almacenamientos utilizados, se ha creado una capa de registros de mayor abstracción, sobre los cuales se podrán realizar búsquedas sobre parámetros o fechas de adquisición de los datos. Los modelos desarrollados en el entorno de análisis serán enviados a un integrador de modelos que se encargará de implementar reglas de seguridad en las diferentes capas del resto del sistema. Un punto esencial en el entorno de análisis son los métodos escogidos para la creación de los modelos. El más innovador que se incorpora es el propuesto en 1 por Veeramachaneni et al, conocido como AI2. En este algoritmo se combinan los resultados de la aplicación de modelos supervisados y no supervisados, validándolos posteriormente por un experto y comenzando una nueva iteración, siguiendo el siguiente proceso: • Los datos de entrada se aplican sobre unas técnicas de aprendizaje supervisado de tipo “Random Forest” (que incluyen datos históricos ya etiquetados) y no supervisado, del tipo “detección de outliers”, obteniendo modelos diferentes. • Los modelos devuelven como resultado una lista de datos ordenados según la amenaza que puedan suponer, en función del algoritmo escogido. • Se ordena la lista y se seleccionan los registros, que se envían a un analista experto que es quien valida la información. Esa información validada sirve como datos históricos en la próxima iteración. • Los algoritmos no supervisados se orientan a la detección de datos atípicos (outliers), obtenidos tras la aplicación de distancias, medidas de densidad y otras técnicas estadísticas, ordenando a continuación la información según el nivel de comportamiento anómalo. Entorno de Detección y Toma de Datos Debido a que se quiere aplicar una fase de análisis y modelaje sobre la red monitorizada, incluyendo otras fuentes externas, es necesario un entorno que transporte la información entre los dos extremos, añadiendo también valor adicional. Por lo tanto el entorno tiene las funciones de extracción, transporte y detección de alertas, además de la subscripción de éstas. La información será agregada hasta que sea solicitada por el analista de datos. El entorno de detección y toma de datos es el encargado de la recolección de datos de diversas fuentes y su agregación. Posteriormente, los datos son leídos por el entorno de análisis para su procesamiento. Los datos se originan en las fuentes externas e internas. Las fuentes de datos externas son bases de datos de conocimiento usadas por un Analizador de Patrones de Ataque, mientras que las fuentes internas son sistemas de seguridad tradicionales de monitorización, tales como analizadores de vulnerabilidades o detectores de intrusiones. • El componente de detección consiste en una serie de sensores sobre datos en tiempo real que Fig. 3. Arquitectura de integración de tecnologías del EDTD. (Fuente: Universidad de Alcalá de Henares / DGAM). Boletín de Observación Tecnológica en Defensa n.º 55. Tercer y cuarto trimestre 2017 19

BOT 55
To see the actual publication please follow the link above