Une communication équilibrée
Rapports scientifiques volume 13, Numéro d'article : 9083 (2023) Citer cet article
1 Altmétrique
Détails des métriques
Le domaine de l'Internet des objets a créé de nombreux défis pour les architectures de réseau. Assurer la sécurité du cyberespace est l'objectif principal des systèmes de détection d'intrusion (IDS). En raison de l'augmentation du nombre et des types d'attaques, les chercheurs ont cherché à améliorer les systèmes de détection d'intrusion en protégeant efficacement les données et les appareils connectés dans le cyberespace. Les performances d'IDS sont essentiellement liées à la quantité de données, à la dimensionnalité des données et aux fonctions de sécurité. Cet article propose un nouveau modèle IDS pour améliorer la complexité de calcul en fournissant une détection précise en moins de temps de traitement que d'autres travaux connexes. La méthode de l'indice de Gini est utilisée pour calculer l'impureté des éléments de sécurité et affiner le processus de sélection. Un procédé d'arbre de décision de machine à vecteur de support équilibré évitant la communication est exécuté pour améliorer la précision de détection d'intrusion. L'évaluation est effectuée à l'aide de l'ensemble de données UNSW-NB 15, qui est un ensemble de données réel et est accessible au public. Le modèle proposé atteint des performances de détection d'attaque élevées, avec une précision d'environ 98,5 %.
L'Internet des objets (IoT) est largement utilisé dans notre vie quotidienne. Les appareils électroniques devaient être connectés à Internet pour prendre en charge la surveillance et la gestion. Les algorithmes d'intelligence artificielle (IA) ont ajouté de grandes opportunités aux systèmes d'intelligence distribuée. Les méthodes d'IA forment des décideurs intelligents et réduisent la centralisation des décisions, qui nécessitent une consommation de temps considérable. Néanmoins, la complexité des systèmes intelligents distribués ne cesse d'augmenter1. Cette complexité se révèle en termes de quantité massive de données, de nature des données, de taille des ensembles de données et d'algorithmes intelligents2. Ces défis constituent un environnement idéal pour les cyberattaques.
Les systèmes de détection d'intrusion (IDS) ont toujours cherché à suivre l'augmentation de la complexité du système. Les systèmes IDS visent à protéger à la fois les appareils physiques et les données des utilisateurs. La cybersécurité est donc la clé du succès des services cloud. Les méthodes traditionnelles utilisant des pare-feu, l'authentification des utilisateurs et le cryptage sont insuffisantes pour sécuriser les appareils dans le cyberespace. Cette insuffisance est due à la nouvelle détection d'intrusion qui se développe rapidement3,4. Les IDS ont tenté de détecter les attaques récentes telles que le phishing, le déni de service, les logiciels malveillants, etc. Le roman IDS cherche à reconnaître une nouvelle attaque en fonction du comportement du réseau. Sur la base de l'algorithme AI, un IDS classe si le comportement du réseau est normal ou anormal.
Les approches d'apprentissage automatique (ML) sont devenues un besoin vital pour les systèmes de détection d'intrusion. Ces approches pourraient permettre une classification précise du comportement du réseau afin de prévenir les cyberattaques. De nombreuses méthodes ML telles que les machines à vecteurs de support (SVM), les k-plus proches voisins (k-NN), les régressions logistiques (LR), les arbres de décision (DT) et Naïve Bayes (NB) sont utilisées par les IDS pour détecter les intrusions5,6,7. D'autres méthodes sont utilisées pour améliorer la précision de détection des attaques. Toutes ces méthodes souffrent encore de nombreuses dimensions ou caractéristiques des données et du trafic massif de données. Ces défis conduisent à la complexité du traitement et nécessitent un temps considérable. Par conséquent, fournir un IDS fiable est l'objectif principal dans le domaine de la cybersécurité.
En conséquence, les systèmes de détection d'intrusion sont confrontés aux défis suivants : (1) natures, dimensions et caractéristiques multiples des données ; (2) Flux de trafic de données élevé ; (3) complexité de calcul ; et (4) Nécessite un temps considérable. À la lumière de cette introduction, cet article cherche à fournir un système de détection d'intrusion plus précis basé sur la méthode de l'arbre décisionnel de la machine à vecteurs de support équilibré pour éviter les communications (BCA-SVMDT). L'objectif proposé est de prendre en charge la complexité en fournissant une détection précise en moins de temps de traitement que d'autres travaux connexes. Les objectifs sont les suivants :
Modélisez un système de détection d'intrusion basé sur BCA-SVMDT pour détecter efficacement les attaques du cyberespace.
Vérifiez les performances du modèle proposé en fonction de l'exactitude, de la précision, du rappel et du score F.
Comparez le modèle proposé avec des systèmes de détection d'intrusion basés sur des méthodes traditionnelles d'apprentissage automatique.
Le reste de cet article est organisé comme suit. Les travaux connexes sont cités et discutés dans la section deux. La troisième section décrit le système de détection d'intrusion proposé réalisé selon les méthodes BCA-SVM et DT. Les expériences et les résultats sont mis en évidence dans la section quatre. Enfin, la conclusion et les travaux futurs sont présentés dans la dernière section.
Les systèmes de détection d'intrusion cherchent à éviter les attaques de réseau. Ces attaques peuvent être classées en quatre types essentiels :
L'attaquant surcharge de nombreuses ressources (mémoire, interface réseau, services, etc.). Ce type d'attaque est appelé attaque par déni de service (DoS).
L'attaquant tente d'utiliser le système comme un utilisateur normal. Ce type d'attaque est appelé l'attaque Remote-to-Local (R2L).
L'attaquant se connecte au système comme un utilisateur normal, puis tente de modifier les termes de l'administrateur. Ce type d'attaque est nommé l'attaque User-to-Root (U2R).
L'attaquant essaie d'analyser le trafic réseau pour trouver des informations utiles aux ordinateurs d'accès à distance. Ce type d'attaque s'appelle l'attaque par sonde.
Dans cette section, nous nous concentrons sur les méthodes IDS basées sur SVM proposées dans la littérature.
Wang et al.8 ont tenté de détecter les intrusions en utilisant un ensemble de données plus petit fourni par les données de formation primaires. Les auteurs effectuent trois étapes pour assurer la détection des intrusions comme suit : (1) extraire les modèles de détection de l'ensemble de données, (2) analyser les données d'audit de formation et (3) détecter les anomalies du réseau. La première étape est assurée sur la base de la méthode d'extraction de l'exemple. La deuxième étape a utilisé la propagation par affinité et le clustering K-means. La troisième étape a appliqué l'analyse en composantes principales (PCA), un k-NN et un SVM pour détecter un comportement anormal du réseau. L'ensemble de données KDD Cup (Knowledge Discovery and Data Mining Tools Competition) et le trafic HTTP (HyperText Transfer Protocol) réel sont utilisés pour évaluer leur système de détection d'intrusion.
He et al.9 ont tenté d'accélérer la détection en utilisant la méthode SVM jumelle, qui nécessite moins de temps de formation que la SVM. L'IDS proposé est composé de deux noyaux SVM et Radial Basis Function (RBF). Malheureusement, cette méthode nécessite un temps de prédiction considérable. Les auteurs ont évalué leur IDS sur les attaques R2L et U2R via l'ensemble de données KDD Cup. Lin et al.10 ont regroupé des classificateurs SVM et arbre de décision pour trouver des caractéristiques importantes liées aux comportements d'attaque. La méthode proposée visait à sélectionner des règles de décision à l'aide de l'ensemble de données KDD Cup et à détecter les attaques prédites.
Shang et al.11 ont combiné le classificateur SVM et la méthode Particle Swarm Optimization (PSO). Les auteurs visaient à détecter les anomalies à l'aide d'une classe d'échantillons entraînés par la méthode PSO. L'évaluation est effectuée sur des données réelles de trafic réseau et les comparaisons sont limitées. Khreich et al.12 se sont concentrés sur les appels système et les traces. Les auteurs ont agrégé entre la fréquence et les informations temporelles à utiliser par le SVM dans la phase d'entraînement. Leur IDS est vérifié selon l'ensemble de données Linux de l'Australian Defence Force Academy (ADFA-LD).
Cid-fuentes et al.13 ont utilisé des classificateurs SVM et arbre de décision pour améliorer la précision d'un IDS. Teng et al. 14 ont construit leur modèle sur des méthodes SVM à 2 classes et des arbres de décision. Les auteurs visaient à réduire les frais généraux et à améliorer le taux de détection des attaques. Hu et al.15 ont combiné le SVM avec les classificateurs Adaboost. Les auteurs ont utilisé Adaboost car il s'agissait d'une méthode itérative. Adaboost a amélioré les performances de classification en apprenant des erreurs et des faiblesses des classificateurs. Hu et al. fourni une détection globale dans chaque nœud en utilisant deux fois Adaboost. La première utilisation a sélectionné les souches de décision, et la seconde a amélioré l'Adaboost en ligne.
Aburomman et al.16 ont cherché à augmenter la précision d'un IDS en utilisant un classificateur k-NN. Leur système proposé utilisait six modèles SVM et six modèles k-NN dans la phase de formation. Les auteurs ont utilisé les méthodes PSO et Weighted Majority Algorithm (WMA) pour la phase de décision. Wu et al.17 ont présenté un IDS basé sur des réseaux de croyances profondes et un SVM pondéré. La performance du réseau de croyances profondes est améliorée par la méthode du taux d'apprentissage. Ensuite, le SVM est formé en utilisant la méthode PSO. Les résultats conduisent à un SVM pondéré efficace.
Anil et al.18 ont introduit un IDS utilisant l'algorithme génétique (AG) et la fonction d'entropie. Cette méthode offre une grande capacité à extraire les caractéristiques du jeu de données KDD Cup. Les auteurs ont appliqué une carte de caractéristiques auto-organisées (SOFM) avec le SVM pour trouver la similitude entre les groupes dans l'ensemble de données. Les auteurs ont montré que leur approche atteignait un taux de détection élevé avec un temps de calcul faible. Yi et al.19 ont proposé une méthode SVM incrémentale pour diminuer le bruit qui apparaissait en raison des différences de caractéristiques. Une fonction noyau modifiée basée sur la fonction gaussienne est utilisée avec le SVM pendant la phase d'apprentissage.
Chitrakar et al.20 ont introduit une approche basée sur un SVM avec la méthode des demi-partitions. La fonction incrémentale du SVM et la méthode des anneaux concentriques ont permis la détection en temps réel des intrusions. Thaseen et al.21 présentent une méthode basée sur des classifieurs SVM multiclasses pour détecter les intrusions. Le but est d'identifier plusieurs classes en fonction du trafic réseau. Les auteurs ont utilisé le filtrage du chi carré au lieu du SVM multiclasse pour améliorer l'étape de sélection des fonctionnalités. L'expérimentation est effectuée à l'aide du jeu de données NSL-KDD et de la bibliothèque Libsvm dans l'environnement MATLAB. Les résultats obtenus ont prouvé l'efficacité de la méthode proposée en termes de précision et de temps.
Kuang et al.22 ont introduit un modèle IDS basé sur l'approche SVM multicouche. Le modèle comprend quatre classificateurs SVM et une méthode d'optimisation améliorée de l'essaim de particules chaotiques (ICPSO). Les auteurs ont cherché à détecter les quatre types d'attaques essentielles (R2L, DoS, U2R et probe). Le schéma IDS présenté est amélioré en utilisant l'analyse en composantes principales (ACP) avec un SVM pour réduire le temps de formation. L'expérimentation est menée dans l'environnement MATLAB en utilisant le jeu de données KDD Cup. Les résultats ont montré que la méthode améliorait la précision de la détection et réduisait le temps de traitement dans les phases de formation et de test.
Jaber et al.23 ont cherché à modéliser un système IDS en utilisant le processus de clustering. Les auteurs ont combiné le classificateur SVM et la méthode de clustering Fuzzy C-Means (FCM) pour assurer un cloud computing plus précis. Ils ont mené des expériences en utilisant la simulation Weka avec l'ensemble de données NSL-KDD. Safaldin et al.24 ont proposé un schéma IDS utilisant le Gray Wolf Optimizer binaire (GWO) comme méthode méta-heuristique avec le SVM. L'algorithme GWO pour améliorer les paramètres lors de la formation SVM. La vérification du modèle proposé est effectuée à l'aide de l'ensemble de données NSL-KDD '99.
Cheng et al.25 ont agrégé le classificateur SVM avec l'algorithme bat pour concevoir un modèle IDS. L'algorithme de chauve-souris est utilisé dans la phase d'apprentissage pour trouver les paramètres optimaux du SVM. L'ensemble de données KDD Cup '99 est utilisé dans les expériences de simulation. Raman et al.26 ont réalisé un modèle IDS basé sur un SVM et un algorithme génétique. Une méthode appelée Hypergraph-based Genetic Algorithm (HG-GA) est appliquée dans l'étape de sélection pour identifier les paramètres optimaux pour le classificateur SVM. Le HG-GA a fourni la solution optimale et a évité de se retrouver piégé dans les minima locaux. Le SVM HG-GA basé sur IDS est simulé à l'aide de l'ensemble de données NSL-KDD.
Kalita et al.27 ont tenté de gérer les intrusions à l'aide d'un SVM et d'une optimisation d'essaim de particules (PSO). Le modèle IDS basé sur le classificateur SVM a atteint une plus grande précision lorsque les paramètres sélectionnés ont été bien choisis. Les auteurs ont appliqué une variante de PSO et un algorithme multi-PSO dans l'étape de sélection pour assurer de meilleures performances. Li et al.28 ont proposé un modèle IDS basé sur l'algorithme de la colonie artificielle d'abeilles (ABC) pour la sélection des caractéristiques et le classificateur SVM. La méthode ABC est améliorée en utilisant le codage de source de miel et la méthode de recherche de voisinage pour récupérer les paramètres optimaux pour le SVM.
Mehmod et al.29 ont cherché à améliorer la méthode de sélection avant d'utiliser un classifieur SVM pour identifier les attaques. Les auteurs se sont concentrés sur les fonctionnalités utiles en évitant le bruit et la redondance. La méthode de sélection est effectuée en appliquant l'algorithme d'optimisation des colonies de fourmis sur l'ensemble de données KDD Cup '99. Acharya et al.30 ont adopté une SVM basée sur une approche générale pour concevoir un IDS. Concernant l'étape de sélection, les auteurs ont proposé un algorithme intelligent de goutte d'eau (IWD) pour sélectionner les caractéristiques pertinentes pour la classification. L'ensemble de données KDD Cup '99 est utilisé pour évaluer l'IDS proposé.
Li et al.31 ont déclaré que l'algorithme VASFLBA (Velocity Adaptive Shuffled Frog Leaping Bat Algorithm) était une méthode efficace pour le processus de sélection. La procédure est basée sur deux facteurs adaptatifs pour équilibrer la recherche globale et locale. L'algorithme Shuffled Frog Leaping (SFLA) a amélioré le mécanisme de transfert. Les fonctionnalités sélectionnées ont été formées selon les classificateurs SVM sur l'ensemble de données du système de contrôle industriel (ICS). Bostani et al.32 ont conçu un système IDS basé sur la sélection de fonctionnalités hybrides. Un algorithme de recherche gravitationnelle binaire (BGSA) et une information mutuelle (MI) ont été utilisés pour effectuer l'étape de sélection. L'expérimentation est menée à l'aide de l'ensemble de données NSL-KDD.
Kabir et al.33 ont introduit la machine vectorielle de support des moindres carrés (LS-SVM) pour construire un IDS précis. L'algorithme d'allocation optimale procède à la sélection d'échantillons représentatifs. L'IDS est testé à l'aide de l'ensemble de données KDD Cup '99. Saleh et al.34 ont proposé un IDS hybride (HIDS) basé sur une classification multiclasse. L'étape de sélection utilise la méthode Naïve Bayes Feature Selection (NBFS). Il visait à réduire la dimensionnalité des données d'échantillon. Le modèle rejette les valeurs aberrantes en utilisant un classificateur OSVM (Optimized Support Vector Machine) dans la formation. Ensuite, une technique Prioritized k-Nearest Neighbors (PKNN) est utilisée pour détecter les attaques. Les résultats des ensembles de données KDD Cup '99, NSL-KDD et Kyoto 2006+ ont prouvé la précision de la détection à un faible coût en temps.
Nskh et al.35 ont modélisé un IDS basé sur différents noyaux SVM. Les auteurs ont réduit la dimensionnalité de l'ensemble de données en appliquant l'analyse en composantes principales (ACP) et en adoptant le noyau de la fonction de base radiale gaussienne du SVM. Wang et al.36 se sont concentrés sur les inconvénients chronophages liés à un IDS. Les auteurs ont introduit un modèle parallèle basé sur un PCA-SVM implémenté dans la carte Spark. Le PCA assure la phase de formation, et le SVM est fusionné grâce à la technique d'intégration de l'ensachage.
À la lumière de cette brève description des travaux connexes, les IDS sont toujours confrontés aux cinq défis suivants37,38 :
Le défi d'un ensemble de données volumineux Une grande quantité de données dans un ensemble de données entraîne des étapes de formation très chronophages. Des exemples de méthodes d'extraction et de méthodes de regroupement sont proposés pour réduire la taille de l'ensemble de données sans perdre d'informations pertinentes.
Le défi de la normalisation La qualité des données influence directement la précision des systèmes de détection d'intrusion. La méthode de normalisation reconstruit les données pour obtenir des données utiles et réduit le temps de traitement. La sélection de la meilleure méthode de normalisation est une étape cruciale pour IDS.
Défi de la méthode d'apprentissage SVM La SVM, en tant que méthode d'apprentissage supervisé, gère efficacement les données étiquetées. De plus, des données non étiquetées se trouvent dans les applications et le classificateur SVM est limité dans les cas réels. Des méthodes semi-supervisées ont été proposées dans la littérature pour prendre en charge les données étiquetées et non étiquetées.
Défi d'apprentissage incrémental Les données d'apprentissage étant indisponibles à tout moment, un IDS devient incapable de détecter de nouvelles attaques. L'IDS en temps réel prenant en charge les recyclages fréquents (apprentissage incrémental) est la meilleure solution.
Défi d'apprentissage en ligne Comme un SVM ne supporte pas le recyclage périodique, le classifieur ne peut pas gérer les requêtes d'un système de détection d'intrusion en ligne. Certaines tentatives utilisent un SVM en ligne pour répondre aux demandes d'apprentissage en ligne.
Dans cet article, l'IDS proposé vise à relever les défis ci-dessus. Le modèle comprend une méthode de sélection et un classificateur hybride basé sur la méthode d'arbre de décision de machine à vecteur de support équilibré de communication (BCA-SVMDT). La méthode de sélection vise à sélectionner les caractéristiques les plus significatives à former. Le BCA-SVMDT, dont il est question dans la section suivante, assure la phase de formation.
Le modèle proposé est présenté dans cette section. Le modèle IDS est composé de trois modules principaux, comme le montre la Fig. 1. Le modèle d'intrusion est construit sur la base d'un arbre de décision ; et sur un nœud particulier, le classificateur BCA-SVM est utilisé. Le modèle illustré à la Fig. 1 est détaillé dans les sections suivantes.
Modèle BCA-SVMDT.
Cette étape est centrée sur la qualité des données. Pour garantir l'exactitude du modèle de prédiction, l'exploration de données inspecte les données pour explorer ses caractéristiques. Le type de données (numériques ou catégorielles) est vérifié pour déterminer un modèle statistique ou de prédiction approprié. Dans notre cas, le jeu de données UNSW-NB 15 est utilisé39. Cet ensemble de données est disponible en ligne et est composé de 175 341 enregistrements. L'ensemble de données UNSW-NB 15 comprend 44 caractéristiques, y compris l'état normal et l'état d'attaque. Le processus d'exploration des données détermine trois caractéristiques (proto, état et service) qui sont nominales. Les autres caractéristiques sont définies par des valeurs numériques (binaire, entier et flottant). Les caractéristiques nominales doivent être prises en compte pour l'étape suivante (codage des caractéristiques de sécurité) pour passer des valeurs nominales aux valeurs numériques.
Cette étape encode les valeurs nominales déterminées par l'étape d'exploration des données. Les caractéristiques nominales (proto, état et service) sont codées à l'aide de la méthode de codage par étiquette. Cette méthode n'a pas créé de fonctionnalités supplémentaires comme la méthode d'encodage à chaud. C'est pourquoi la méthode de codage par étiquettes est choisie pour transformer ces trois caractéristiques de valeurs nominales en valeurs numériques. La méthode étiquette le même paramètre avec la même valeur numérique. L'exemple illustré sur la figure 2 décrit le procédé de codage d'étiquette. L'étape d'encodage de la fonction de sécurité est effectuée à l'aide de la méthode LabelEncoder et de la classe sklearn en Python.
Méthode d'encodage des étiquettes.
Cette étape gère les données avec différentes échelles. Il vise à redimensionner les valeurs de toutes les caractéristiques selon une moyenne nulle et une variation unitaire. Le processus de normalisation est fondamental dans la phase de formation pour fournir un modèle de classification précis. La valeur remise à l'échelle est calculée à l'aide de l'équation suivante.
\({D}_{S}\) est la valeur mise à l'échelle, \({D}_{i}\) est la valeur d'origine, \(\overline{D }\) est la valeur moyenne de l'entité et l'écart type est représenté par \(\sigma\). La normalisation est effectuée pour chaque fonctionnalité ayant une distribution différente à l'aide de la classe sklearn en Python.
Cette étape vise à sélectionner les caractéristiques significatives qui soutiennent le processus de prise de décision. La méthode de l'indice de Gini est appliquée pour assurer le classement des fonctionnalités. Il a été utilisé sur les attaques binaires et les données bénignes, alors que l'indice de Gini fonctionne mieux sur les données multiclasses40. La méthode de l'indice de Gini est réalisée comme suit : (1) elle détecte l'impureté des caractéristiques ; (2) il classe les caractéristiques en fonction de l'impureté de Gini, qui est définie par l'entropie ; et (3) il construit l'arbre de décision. L'indice de Gini est calculé dans chaque nœud à l'aide de l'équation. (2).
où n est un nœud, T est le nombre de tous les nœuds et \({P}_{i}\) est la probabilité d'un tuple.
L'indice de Gini est appliqué à toutes les entités du jeu de données UNSW-NB 15. Le tableau 1 illustre le classement associé aux caractéristiques de sécurité.
La sélection des caractéristiques de sécurité importantes se fait en fonction du seuil (seuil = 0,023) qui est défini à travers le modèle Tree. La valeur du seuil peut être modifiée en fonction du jeu de données utilisé. Le nombre de fonctionnalités sélectionnées est réduit de 42 à 15 fonctionnalités.
La figure 3 montre les fonctionnalités sélectionnées et leurs scores. Comme mentionné ci-dessus, cette étape permet de réduire la complexité de calcul et d'augmenter la précision de la classification arbre de décision-BCA-SVM proposée.
Fonctionnalités de sécurité sélectionnées en fonction du seuil.
Le module de formation est réalisé sur la base de méthodes hybrides BCA-SVM et d'arbre de décision. Le classificateur BCA-SVM présente une version SVM optimisée et obtient de meilleurs résultats de classification. La figure 4 illustre l'arborescence de détection d'intrusion BCA-SVMDT.
L'arborescence BCA-SVMDT.
La caractéristique sttl choisie par la méthode de l'indice de Gini est considérée comme le nœud racine. Des branches ont été ajoutées en fonction du nom de la caractéristique, de l'indice de Gini, des échantillons, de la valeur, de la mesure de proximité (c) et du nom de la classe. Ce module est exécuté dans le modèle d'apprentissage local selon les étapes suivantes :
Sélectionnez les fonctions du noyau SVM (fonction de base radiale) avec le paramètre de régulation C et le paramètre du noyau σ. Ces paramètres sont choisis en fonction des résultats de validation.
Entraînez le classificateur BCA-SVM pour trouver la fonction de décision f(x).
Classez les données d'entraînement en classe normale ou en classe d'attaque.
Stockez la prédiction de classification dans la nouvelle cible.
Entraînez l'arbre de décision avec des données d'entraînement et une nouvelle cible.
Remplacer la classe par le BCA-SVM lorsque la mesure de proximité (c) est inférieure à 0,5.
Sauvez l'arbre.
L'étape d'apprentissage BCA-SVM est résumée à la Fig. 5.
Organigramme du classificateur BCA-SVM.
Dans la section suivante, nous détaillons les expériences et l'évaluation du modèle BCA-SVMDT proposé.
Dans cette section, le système de détection d'intrusion BCA-SVMDT proposé est évalué à l'aide de l'ensemble de données UNSW-NB 15. Cet ensemble de données a été créé par le Cyber Range Lab de l'Australian Center for Cyber Security (ACCS)37. Comme mentionné dans la section "Système de détection d'intrusion basé sur BCA-SVMDT", l'ensemble de données est composé de 42 caractéristiques. Dans notre recherche, seules 15 caractéristiques pertinentes les plus significatives sont utilisées.
La phase d'entraînement vise à construire deux classes : normale ou attaque. La nature de l'attaque sort du cadre de cette recherche. Pour la formation, le modèle proposé a utilisé 120 890 enregistrements. Pour la phase de test, 16 607 enregistrements sont couverts. L'expérimentation est menée en Python 3.8 exécuté sur un ordinateur avec un processeur Core i7 et 8 Go de RAM.
L'évaluation est effectuée à l'aide de quatre mesures : l'exactitude, la précision, le rappel et le score F. Ces mesures sont importantes pour comparer l'IDS proposé et certains modèles traditionnels d'apprentissage automatique (ML). Les métriques d'évaluation sont calculées sur la base des valeurs suivantes :
TP (True Positives) désigne le nombre d'intrusions correctement détectées.
TN (True Negatives) désigne le nombre d'états normaux du réseau correctement détectés (non intrusions).
FP (Faux Positifs) désigne le nombre d'états normaux détectés comme des intrusions.
FN (False Negatives) désigne le nombre d'intrusions détectées comme des états normaux.
La précision reflète le taux de prédictions correctes. Il est calculé par Eq. (3).
La précision représente le taux de détections correctes appartenant à la bonne classe. Il est représenté à l'aide de l'Eq. (4).
Le rappel représente le nombre de détections correctes divisé par tous les cas d'intrusion dans l'ensemble de données. L'équation 5 montre la formule de rappel.
La métrique F-score équilibre la précision et le rappel. Il est décrit par l'Eq. (6).
Le tableau 2 illustre les résultats des expériences dans la phase de test. La précision moyenne est d'environ 98,5 %.
Le modèle proposé est également évalué selon la courbe de fonctionnement du récepteur (ROC). La courbe ROC donne une idée des performances du modèle BCA-SVMDT et de la distance entre les deux classes : normale et attaque. La courbe ROC est définie par Eq. 7.
où TPR est le taux de vrais positifs et FPR est le taux de faux positifs. La valeur TPR est égale à la valeur de rappel. La courbe ROC est tracée sur la Fig. 6. Sur la Fig. 6, le modèle de prédiction est précis sur l'aire sous la courbe (AUC) la plus élevée, qui est d'environ 0,98.
La courbe de fonctionnement du récepteur du modèle BCA-SVMDT.
Les modèles traditionnels basés sur des méthodes d'apprentissage automatique telles que le SVM, les k-Nearest Neighbors (k-NN), la régression logistique (LR) et Naïve Bayes (NB) sont appliqués au même ensemble de données pour évaluer en profondeur les avantages du modèle proposé. La figure 7 illustre la comparaison entre le BCA-SVMDT proposé et les autres méthodes ML en fonction des mesures d'exactitude, de précision, de rappel et du score F. Les résultats prouvent que la méthode BCA-SVMDT pour la détection d'intrusion atteint les meilleures performances.
Résultats de la comparaison entre le modèle BCA-SVMDT et les modèles ML traditionnels.
Le modèle IDS proposé réduit la complexité de calcul en utilisant les caractéristiques de sécurité classées pour l'approche de sélection. Par conséquent, le temps de traitement et le surajustement sont améliorés.
La protection des réseaux contre les intrusions et les attaques est un grand défi pour le cyberespace. Dans cet article, une tentative de fournir un IDS précis basé sur une approche hybride est présentée. Un nouveau système intelligent appelé BCA-SVMDT composé d'un arbre de décision et d'un classificateur de machine à vecteurs de support équilibré évitant la communication est proposé pour optimiser la phase d'apprentissage. Dans le module de prétraitement, les données sont remises à l'échelle et encodées. La méthode de l'indice de Gini est utilisée pour calculer l'impureté des éléments de sécurité. Notre modèle a atteint une précision élevée d'environ 98,5 %, une précision d'environ 96,7 %, un rappel d'environ 96,4 % et un score F d'environ 96,5 %. De plus, cet article sera une clé solide pour prédire la nature des attaques dans les travaux futurs. Une amélioration du modèle IDS est nécessaire en ajoutant une étape de filtrage pour améliorer la prédiction et prendre en charge la classification de cinq classes, y compris l'état normal et les types d'attaques.
Les ensembles de données générés et/ou analysés au cours de l'étude actuelle sont disponibles dans le référentiel Kaggle, https://www.kaggle.com/datasets/dhoogla/unswnb15.
Wang, G. Étude comparative sur différents réseaux de neurones pour la prédiction de la situation de sécurité du réseau. Sécurisé Priv. 4(1), 138. https://doi.org/10.1002/spy2.138 (2021).
Article CAS Google Scholar
Hesselman, C. et al. Un internet responsable pour accroître la confiance dans le monde numérique. J. Netw. Syst. Gérer 28, 882–922. https://doi.org/10.1007/s10922-020-09564-7 (2020).
Article Google Scholar
Bhuyan, MH, Bhattacharyya, DK & Kalita, JK Détection d'anomalies réseau : méthodes, systèmes et outils. IEEE commun. Surv. Tuteur. 16(1), 303–336. https://doi.org/10.1109/SURV.2013.052213.00046 (2014).
Article Google Scholar
Tapiador, JE, Orfila, A., Ribagorda, A. & Ramos, B. Attaques de récupération de clé sur KIDS, un système de détection d'anomalies à clé. IEEE Trans. Calcul sécurisé fiable. 12(3), 312–325. https://doi.org/10.1109/TDSC.2013.39 (2015).
Article Google Scholar
Buczak, AL & Guven, E. Une enquête sur les méthodes d'exploration de données et d'apprentissage automatique pour la détection des intrusions dans la cybersécurité. IEEE commun. Surv. Tuteur. 18(2), 1153–1176. https://doi.org/10.1109/COMST.2015.2494502 (2016).
Article Google Scholar
Mishra, P., Varadharajan, V., Tupakula, U. & Pilli, ES Une enquête détaillée et une analyse de l'utilisation des techniques d'apprentissage automatique pour la détection des intrusions. IEEE commun. Surv. Tuteur. 21(1), 686–728. https://doi.org/10.1109/COMST.2018.2847722 (2019).
Article Google Scholar
Lopez-Martin, M., Carro, B. & Sanchez-Esguevillas, A. Application de l'apprentissage par renforcement profond à la détection d'intrusion pour des problèmes supervisés. Système expert. Appl. 141, 112963. https://doi.org/10.1016/j.eswa.2019.112963 (2020).
Article Google Scholar
Wang, W., Liu, J., Pitsilis, G. et Zhang, X. Résumé de données massives pour la détection d'intrusions légères dans les réseaux informatiques. Inf. Sci. 433–434, 417–430. https://doi.org/10.1016/j.ins.2016.10.023 (2018).
Article MathSciNet ADS Google Scholar
He, J. & Zheng, S.-H. Modèle de détection d'intrusion avec deux machines à vecteurs de support. Université J. Shanghai Jiaotong. Sci. 19, 448–454. https://doi.org/10.1007/s12204-014-1524-4 (2014).
Article Google Scholar
Lin, S., Ying, K., Lee, C. & Lee, Z. Un algorithme intelligent avec sélection de fonctionnalités et règles de décision appliquées à la détection d'intrusion d'anomalies. Appl. Calcul doux. 12(10), 3285–3290. https://doi.org/10.1016/j.asoc.2012.05.004 (2012).
Article Google Scholar
Shang, W., Li, L., Wan, M. et Zeng, P. Algorithme de détection d'intrusion dans les communications industrielles basé sur un SVM amélioré à une classe. Congrès mondial 2015 sur la sécurité des systèmes de contrôle industriels (WCICSS), Londres, 21-25, (2015). https://doi.org/10.1109/WCICSS.2015.7420317
Khreich, W., Khosravifar, B., Hamou-Lhadj, A. & Talhi, C. Un système de détection d'anomalies basé sur des caractéristiques variables de N-gramme et une classe SVM. Inf. Logiciel Technol. 91, 186–197. https://doi.org/10.1016/j.infsof.2017.07.009 (2017).
Article Google Scholar
Álvarez, J., Szabo, C. & Falkner, K. Détection adaptative des anomalies de performance dans les systèmes distribués utilisant des SVM en ligne. IEEE Trans. Calcul sécurisé fiable. 17(5), 928–941. https://doi.org/10.1109/TDSC.2018.2821693 (2020).
Article Google Scholar
Teng, S., Wu, N., Zhu, H., Teng, L. & Zhang, W. Détection d'intrusion adaptative et collaborative basée sur SVM-DT. IEEE/CAA J. Automatica Sinica 5(1), 108–118. https://doi.org/10.1109/JAS.2017.7510730 (2018).
Article Google Scholar
Hu, W., Gao, J., Wang, Y., Wu, O. & Maybank, S. Méthodes paramétrées basées sur adaboost en ligne pour la détection dynamique des intrusions sur les réseaux distribués. Transaction IEEE. Cybern. 44(1), 66–82. https://doi.org/10.1109/TCYB.2013.2247592 (2014).
Article Google Scholar
Aburomman, AA & Ibne Reaz, MB Une nouvelle méthode d'ensemble SVM-kNN-PSO pour le système de détection d'intrusion. Appl. Calcul doux. 38, 360–372. https://doi.org/10.1016/j.asoc.2015.10.011 (2016).
Article Google Scholar
Wu, Y., Lee, W., Xu, Z. & Ni, M. Modèle de détection d'intrusion robuste et à grande échelle combinant un réseau de croyance profonde amélioré avec un SVM pondéré par les fonctionnalités. Accès IEEE 8, 98600–98611. https://doi.org/10.1109/ACCESS.2020.2994947 (2020).
Article Google Scholar
Anil, S. et Remya, R. Une méthode hybride basée sur un algorithme génétique, une carte de caractéristiques auto-organisée et une machine vectorielle de support pour une meilleure détection des anomalies du réseau. 2013 Quatrième conférence internationale sur l'informatique, les communications et les technologies de mise en réseau (ICCCNT), Tiruchengode, Inde, 1–5, (2013). https://doi.org/10.1109/ICCCNT.2013.6726604
Yi, Y., Wu, J. & Xu, W. SVM incrémentiel basé sur un ensemble réservé pour la détection d'intrusion sur le réseau. Système expert. Appl. 38(6), 7698–7707. https://doi.org/10.1016/j.eswa.2010.12.141 (2011).
Article Google Scholar
Chitrakar, R. & Huang, C. Sélection de vecteurs de support candidats dans SVM incrémental pour la détection d'intrusion réseau. Calcul. Sécurisé 45, 231–241. https://doi.org/10.1016/j.cose.2014.06.006 (2014).
Article Google Scholar
Sumaiya Thaseen, I. & Aswani Kumar, C. Modèle de détection d'intrusion utilisant la fusion de la sélection de caractéristiques chi-carré et de SVM multi-classes. Université J. King Saud. Calcul. Informer. Sci. 29(4), 462–472. https://doi.org/10.1016/j.jksuci.2015.12.004 (2017).
Article Google Scholar
Kuang, F. et al. Un nouveau SVM combinant l'analyse des composants principaux du noyau et l'optimisation améliorée de l'essaim de particules chaotiques pour la détection des intrusions. Calcul doux. 19, 1187–1199. https://doi.org/10.1007/s00500-014-1332-7 (2015).
Article MATH Google Scholar
Jaber, AN & Rehman, SU Système de détection d'intrusion basé sur FCM-SVM pour l'environnement de cloud computing. Calcul de cluster. 23, 3221–3231. https://doi.org/10.1007/s10586-020-03082-6 (2020).
Article Google Scholar
Safaldin, M., Otair, M. & Abualigah, L. Optimiseur de loup gris binaire amélioré et SVM pour le système de détection d'intrusion dans les réseaux de capteurs sans fil. J. Intelligence ambiante. Calcul humain. 12, 1559-1576. https://doi.org/10.1007/s12652-020-02228-z (2021).
Article Google Scholar
Cheng, C., Bao, L., Bao, C. Détection d'intrusion réseau avec algorithme de chauve-souris pour la synchronisation de la sélection de fonctionnalités et des machines vectorielles de support. Dans : Cheng, L., Liu, Q., Ronzhin, A. (eds) Advances in Neural Networks - ISNN 2016. ISNN 2016. Lecture Notes in Computer Science(), vol 9719. (Springer, Cham, 2016) https://doi.org/10.1007/978-3-319-40663-3_46
Gauthama Raman, M., Somu, N., Kirthivasan, K., Liscano, R. & Shankar Sriram, V. Un système de détection d'intrusion efficace basé sur un algorithme hypergraphe-génétique pour l'optimisation des paramètres et la sélection des fonctionnalités dans la machine à vecteurs de support. Syst. 134, 1–12. https://doi.org/10.1016/j.knosys.2017.07.005 (2017).
Article Google Scholar
Kalita, DJ, Singh, VP, Kumar, V. Optimisation des hyper-paramètres SVM à l'aide de multi-PSO pour la détection d'intrusion. Shukla, R., Agrawal, J., Sharma, S., Chaudhari, N., Shukla, K. (eds) Réseaux sociaux et intelligence computationnelle. Notes de cours sur les réseaux et les systèmes, 100. (Springer, Singapour, 2020). https://doi.org/10.1007/978-981-15-2071-6_19
Li, L., Zhang, S., Zhang, Y., Chang, L. et Gu, T. Le modèle de détection d'intrusion basé sur une colonie d'abeilles multi-artificielle parallèle et une machine à vecteurs de support. 2019 Onzième Conférence internationale sur l'intelligence computationnelle avancée (ICACI), Guilin, Chine, 308–313, (2019). https://doi.org/10.1109/ICACI.2019.8778482
Mehmod, T., & Rais, HBM Optimisation des colonies de fourmis et sélection des fonctionnalités pour la détection des intrusions. Soh, P., Woo, W., Sulaiman, H., Othman, M., Saat, M. (eds) Avancées dans l'apprentissage automatique et le traitement du signal. Notes de cours en génie électrique, 387, (Springer, Cham, 2016). https://doi.org/10.1007/978-3-319-32213-1_27
Acharya, N. & Singh, S. Une méthode de sélection de fonctionnalités basée sur IWD pour le système de détection d'intrusion. Calcul doux. 22, 4407–4416. https://doi.org/10.1007/s00500-017-2635-2 (2018).
Article Google Scholar
Li, J., Wang, H. et Yan, B. Application de l'algorithme de chauve-souris sautant grenouille mélangée adaptative de vitesse dans la détection d'intrusion ICS. 2017 29e Conférence chinoise de contrôle et de décision (CCDC), Chongqing, 3630–3635, (2017). https://doi.org/10.1109/CCDC.2017.7979135
Bostani, H. & Sheikhan, M. Hybride d'algorithme de recherche gravitationnelle binaire et d'informations mutuelles pour la sélection de fonctionnalités dans les systèmes de détection d'intrusion. Doux. Calcul. 21, 2307–2324. https://doi.org/10.1007/s00500-015-1942-8 (2017).
Article Google Scholar
Kabir, E., Hu, J., Wang, H. & Zhuo, G. Une nouvelle technique statistique pour les systèmes de détection d'intrusion. Futur. Génér. Calcul. Syst. 79, 303–318. https://doi.org/10.1016/j.future.2017.01.029 (2018).
Article Google Scholar
Saleh, AI, Talaat, FM & Labib, LM Un système de détection d'intrusion hybride (HIDS) basé sur les k plus proches voisins prioritaires et des classificateurs SVM optimisés. Artef. Renseignement. Rév. 51, 403–443. https://doi.org/10.1007/s10462-017-9567-1 (2019).
Article Google Scholar
Nskh, P., Varma, MN et Naik, RR Système de détection d'intrusion basé sur l'analyse des composants principaux utilisant une machine à vecteurs de support. 2016 IEEE International Conference on Recent Trends in Electronics, Information & Communication Technology (RTEICT), Bangalore, Inde, 1344–1350, (2016). https://doi.org/10.1109/RTEICT.2016.7808050
Wang, H., Xiao, Y. et Long, Y. Recherche d'un algorithme de détection d'intrusion basé sur SVM parallèle sur étincelle. 2017 7th IEEE International Conference on Electronics Information and Emergency Communication (ICEIEC), Macao, Chine, 153–156, (2017) https://doi.org/10.1109/ICEIEC.2017.8076533
Khraisat, A. et al. Enquête sur les systèmes de détection d'intrusion : techniques, jeux de données et défis. Cybersécur 2, 20. https://doi.org/10.1186/s42400-019-0038-7 (2019).
Article Google Scholar
Meng, W., Tischhauser, EW, Wang, Q., Wang, Y. et Han, J. Quand la détection d'intrusion rencontre la technologie blockchain : un examen. Accès IEEE 6, 10179–10188. https://doi.org/10.1109/ACCESS.2018.2799854 (2018).
Article Google Scholar
Rajagopal, S., Hareesha, KS, Kundapur, PP Analyse de la pertinence des caractéristiques et réduction des caractéristiques de l'UNSW NB-15 à l'aide de réseaux de neurones sur MAMLS. Pati, B., Panigrahi, C., Buyya, R., Li, KC. (eds) informatique avancée et ingénierie intelligente. Advances in Intelligent Systems and Computing, 1082. (Springer, Singapour, 2020). https://doi.org/10.1007/978-981-15-1081-6_27
Test, E., Zigic, L. et Kecman, V. Classement des caractéristiques à l'aide de l'indice de Gini, des rapports de dispersion et de la SVM RFE non linéaire. Actes 2013 de l'IEEE Southeastcon, Jacksonville, Floride, États-Unis, 1–5, (2013). https://doi.org/10.1109/SECON.2013.6567380
Télécharger les références
L'auteur est très reconnaissant à tout le personnel associé, à quelque titre que ce soit, qui a contribué à l'objectif de cette recherche.
L'auteur tient à remercier le décanat de la recherche scientifique de l'Université de Majmaah pour avoir soutenu ce travail sous le numéro de projet n° R-2023-412.
Département d'ingénierie de l'information, Université de Florence, Florence, Italie
Abdullah Al-Saleh
Département de génie informatique, Collège d'informatique et des sciences de l'information, Université de Majmaah, Majmaah, Arabie saoudite
Abdullah Al-Saleh
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
L'auteur a écrit cet article.
Correspondance à Abdullah Al-Saleh.
L'auteur ne déclare aucun intérêt concurrent.
Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Al-Saleh, A. Une méthode équilibrée d'arbre de décision de machine à vecteur de support évitant la communication pour les systèmes de détection d'intrusion intelligents. Sci Rep 13, 9083 (2023). https://doi.org/10.1038/s41598-023-36304-z
Télécharger la citation
Reçu : 07 octobre 2022
Accepté : 31 mai 2023
Publié: 05 juin 2023
DOI : https://doi.org/10.1038/s41598-023-36304-z
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.