ABORDANDO EL DESEQUILIBRIO DE DATOS EN CLASIFICACIÓN DE ATAQUES DE DENEGACIÓN DE SERVICIO DISTRIBUIDO (DDOS)
##plugins.themes.bootstrap3.article.main##
Publicado: Sep 15, 2023
Resumen
Los ataques de denegación de servicio distribuido (DDoS) representan una amenaza significativa para instituciones y empresas que dependen de redes interconectadas. Distinguir entre ataques maliciosos y aumentos legítimos en el tráfico web es un desafío, y los sistemas de defensa existentes luchan por identificar. Este estudio explora el impacto del desequilibrio de datos en la clasificación de ataques DDoS y propone una solución utilizando datos sintéticos. La metodología involucra: recolección de datos, preprocesamiento, generación de datos sintéticos, y análisis de rendimiento. Utilizamos CICDDoS2019 dataset, contiene 22 millones de ejemplos medidos en 88 características. Generamos datos sintéticos utilizando Redes Generativa Antagónica (GANs), centrándonos en tres características del conjunto de datos: tiempo, tipo de ataque y duración. Se trabajó con tres grupos de datos del mismo dataset: manera convencional (desequilibrada), submuestreo de la clase minoritaria y utilizando GANs para generar un total adicional de 2 millones de puntos de datos. Una comparación de rendimiento entre métodos tradicionales de clasificación (CNN, KNN y XGBoost) y el uso de GANs muestra una mejora significativa. Los métodos tradicionales alcanzan tasas de precisión del 82-86%, mientras que las GANs logran consistentemente tasas de precisión del 98-99%. Estos hallazgos resaltan el impacto del desequilibrio de datos en la eficacia de la clasificación y demuestran la efectividad de las GANs para mitigar este desafío mientras mejoran la precisión. El estudio enfatiza la importancia de considerar el desequilibrio de datos y adoptar técnicas innovadoras como las GANs en el campo de la ciberseguridad.