banner

Nouvelles

Sep 28, 2023

Prédiction des causes profondes des défaillances dans l'industrie des semi-conducteurs, un algorithme génétique

Rapports scientifiques volume 13, Numéro d'article : 4934 (2023) Citer cet article

963 accès

11 Altmétrique

Détails des métriques

L'analyse des défaillances est devenue un élément important pour garantir une bonne qualité dans le processus de fabrication des composants électroniques. Les conclusions d'une analyse de défaillance permettent d'identifier les défauts d'un composant et de mieux comprendre les mécanismes et causes de défaillance, permettant la mise en place d'actions correctives pour améliorer la qualité et la fiabilité du produit. Un système de signalement, d'analyse et d'action corrective des défaillances est une méthode permettant aux organisations de signaler, de classer et d'évaluer les défaillances, ainsi que de planifier des actions correctives. Ces ensembles de données d'entités textuelles doivent d'abord être prétraités par des techniques de traitement du langage naturel et convertis en numériques par des méthodes de vectorisation avant de commencer le processus d'extraction d'informations et de construire des modèles prédictifs pour prédire les conclusions de défaillance d'une description de défaillance donnée. Cependant, toutes les informations textuelles ne sont pas utiles pour créer des modèles prédictifs adaptés à l'analyse des défaillances. La sélection des caractéristiques a été abordée par plusieurs méthodes de sélection de variables. Certains d'entre eux n'ont pas été adaptés pour être utilisés dans de grands ensembles de données ou sont difficiles à régler et d'autres ne sont pas applicables aux données textuelles. Cet article vise à développer un modèle prédictif capable de prédire les conclusions de défaillance en utilisant les caractéristiques discriminantes des descriptions de défaillance. Pour cela, nous proposons de combiner un Algorithme Génétique avec des méthodes d'apprentissage supervisé pour une prédiction optimale des conclusions d'échec en termes de traits discriminants des descriptions d'échec. Comme nous disposons d'un ensemble de données déséquilibré, nous proposons d'appliquer un score F1 en tant que fonction de fitness des méthodes de classification supervisées telles que Decision Tree Classifier et Support Vector Machine. Les algorithmes proposés sont appelés GA-DT et GA-SVM. Des expériences sur des ensembles de données textuelles d'analyse de défaillance démontrent l'efficacité de la méthode GA-DT proposée dans la création d'un meilleur modèle prédictif de conclusion de défaillance par rapport à l'utilisation des informations de l'ensemble des caractéristiques textuelles ou des caractéristiques limitées sélectionnées par un algorithme génétique basé sur un SVM. Des performances quantitatives telles que le score BLEU et la similarité cosinus sont utilisées pour comparer les performances de prédiction des différentes approches.

Le développement des technologies de la microélectronique offre de nouvelles opportunités pour améliorer la maintenance des équipements de production tant du point de vue technique que managérial. Pour établir cette amélioration de la production, il faut se concentrer sur une étape importante qui est l'analyse des pannes. Ce processus est une procédure technique pour étudier comment les matériaux et les produits échouent. Il est important de comprendre comment et pourquoi un composant tombe en panne lorsqu'il ne remplit plus sa fonction prévue1. L'objectif principal de l'analyse des défaillances est de trouver la cause profonde sous-jacente de la défaillance, idéalement en vue de la supprimer et d'identifier les moyens d'empêcher qu'elle ne se reproduise. L'analyse objective des défaillances peut avoir un certain nombre de bons résultats, tels que l'obtention d'une base de données d'informations pouvant être utilisée à bon escient pour prévenir de futures défaillances, améliorer la qualité et prolonger la durée de vie des produits et services, et tirer le meilleur parti des aspects économiques2. Pour répondre à ces principaux défis fondamentaux de notre monde numérique, il est important de constituer une base de données d'informations décrivant les pannes et leurs conclusions, permettant d'assurer le fonctionnement fiable et sécurisé de systèmes électroniques de plus en plus complexes.

De nombreuses organisations utilisent le système de signalement, d'analyse et d'action corrective des défaillances (FRACAS) pour suivre les problèmes des produits. Les principales tâches de la technique FRACAS sont3 : enregistrer et capturer des informations sur les défaillances et les problèmes, fournir de nouvelles informations pour soutenir les futures analyses de fiabilité, fournir des résumés de rapports sur le nombre d'incidents et fournir un ensemble de données de défaillance et des mesures pour mesurer les paramètres de qualité. Développer une nouvelle technique basée sur l'intelligence artificielle (IA) pour évaluer et découvrir rapidement les défauts lors du développement et de la fabrication de composants et de systèmes électroniques, en utilisant le rapport final généré par FRACAS, est l'une des principales difficultés auxquelles notre monde numérique est confronté. L'intégration de l'IA et de sources de données multi-structurées est essentielle au succès de la maintenance basée sur les données. Lorsqu'une technique améliorée par l'IA est introduite et intégrée dans une analyse de maintenance centrée sur la fiabilité des systèmes de production complexes, les taux de défaillance sont réduits et la disponibilité est améliorée4.

L'exploration de texte est une technique d'intelligence artificielle (IA) qui applique le traitement du langage naturel (NLP) pour convertir le texte non structuré dans les documents et les bases de données en données structurées normalisées qui peuvent être analysées ou utilisées pour former des algorithmes d'apprentissage automatique (ML)5. L'exploration de texte est également une technique permettant d'extraire des informations de documents non structurés et d'identifier des modèles nouveaux et jusqu'alors inconnus. Ensuite, l'étape suivante est la sélection des fonctionnalités ou des attributs. Cette étape se concentre sur la suppression des éléments qui ne sont pas significatifs pour le processus de minage6. De plus, cette étape présente plusieurs avantages : réduire la complexité de calcul ; obtenir moins de bruits dans l'espace de décision et réduire la dimension pour avoir un ensemble de données plus cohérent et homogène7.

Dans notre étude, nous disposons d'un ensemble de données textuelles composé de la description de l'analyse de défaillance et de la conclusion de défaillance pour les produits des technologies microélectroniques. Notre objectif est de construire un modèle capable de prédire les caractéristiques de conclusion de défaillance à partir des caractéristiques de description de l'analyse de défaillance. Cependant, toutes les informations textuelles ne sont pas utiles pour la construction d'un modèle prédictif, tandis que l'utilisation d'un nombre limité de caractéristiques a priori peut être délicate. La sélection des fonctionnalités réduit la dimensionnalité en sélectionnant un sous-ensemble de variables textuelles d'entrée d'origine. En d'autres termes, la stratégie de sélection de variables textuelles diminue la dimension des caractéristiques textuelles qui peuvent être pertinentes pour un phénomène spécifique en identifiant le meilleur sous-ensemble minimum sans transformer les données en un nouvel ensemble8. Afin de réaliser des modèles compliqués pour les algorithmes de prédiction et de classification, nous mettons en œuvre la sélection de variables textuelles pertinentes tout en excluant les variables non informatives.

Diverses techniques mathématiques ont été utilisées pour sélectionner des sous-ensembles optimaux de variables : algorithme de projections successives9, algorithme de sélection vers l'arrière/vers l'avant10, échantillonnage compétitif adaptatif repondéré, importance des variables pour la projection, élimination des variables non informatives11, régression des moindres carrés partiels par intervalle12, élimination de Monte Carlo des variables non informatives13, optimisation par essaim de particules et approche d'apprentissage en profondeur14, réseau neuronal convolutif amélioré par apprentissage de fonctionnalités (FLE-CNN)15, échantillonnage adaptatif repondéré des moindres carrés partiels. s12, etc. Cependant, la plupart de ces techniques ne sont pas bien adaptées aux jeux de données textuels. D'autre part, l'application de ces méthodes conduit à la perte de beaucoup d'informations lors de l'analyse.

L'algorithme génétique (AG) fait partie des techniques de recherche qui émulent le principe de la sélection naturelle. GA effectue une recherche dans des paysages complexes, vastes et multimodes, et fournit des solutions quasi optimales pour la fonction objective ou de fitness d'un problème d'optimisation16. Cependant, le coût du temps de calcul est élevé car sa représentation en chaîne longue évolue dans un espace de grande dimension typique des données textuelles. Un algorithme génétique est une stratégie ascendante qui choisit le meilleur sous-ensemble de caractéristiques selon le principe de « survie du plus apte », chaque chromosome étant en concurrence avec les autres16. C'est-à-dire que la qualité des chromosomes est évaluée à l'aide d'une fonction de fitness prédéterminée. La fonction de fitness est sans doute la partie la plus importante d'un GA ayant pour rôle de mesurer la qualité du chromosome dans la population en fonction de l'objectif d'optimisation donné. Les méthodes d'apprentissage supervisé peuvent être utilisées pour dériver de nouvelles fonctions de fitness qui peuvent transformer une donnée textuelle dans un sous-espace de dimension beaucoup plus adéquate en ce qui concerne une application spécifique17. Différents types de méthodes supervisées existent dans la littérature. Les plus connus sont le modèle Decision Tree (DT) et le modèle Support Vector Machine (SVM). Une étude a été menée pour démontrer que la combinaison de l'algorithme génétique et de la méthode de la machine à vecteurs de support améliore la précision de la classification textuelle de l'ensemble de données de spam18. Une autre étude montre que l'efficacité de la sélection des caractéristiques basée sur le gain d'information et l'algorithme génétique peut réduire la dimension du vecteur de texte et améliorer la précision de la classification du texte19. Un article récent propose la méthodologie des caractéristiques sémantiques latentes orientée algorithme génétique pour obtenir une meilleure représentation des documents dans la classification de texte20.

Par conséquent, sur la base de tout ce qui précède, on peut résumer la motivation de combiner les méthodes d'AG et d'apprentissage supervisé par ce qui suit :

La combinaison des algorithmes génétiques (GA) et des méthodes d'apprentissage supervisé a été un sujet de recherche populaire dans le domaine de l'apprentissage automatique et de l'optimisation. Par exemple, dans une étude de Fernández et al. (2002), les auteurs ont utilisé une GA pour optimiser les paramètres d'une machine à vecteurs de support (SVM) pour une tâche de classification et ont montré que la combinaison de ces deux approches conduisait à une amélioration des performances par rapport à l'utilisation seule de la SVM. Une autre étude de Liu et al. (2011) ont proposé une approche basée sur GA pour la sélection des caractéristiques en conjonction avec un classificateur d'arbre de décision, montrant que la combinaison de ces deux méthodes surpassait les méthodes individuelles dans plusieurs ensembles de données de référence. En plus de l'optimisation des paramètres, les GA ont également été utilisés pour rechercher une architecture de réseau optimale dans l'apprentissage en profondeur. Par exemple, Real et al. (2017) ont proposé une méthode appelée "Évolution à grande échelle des classificateurs d'images" où ils ont utilisé un GA pour faire évoluer l'architecture des réseaux de neurones convolutifs (CNN) et ont montré que les architectures évoluées surpassaient celles conçues manuellement dans les repères de classification d'images CIFAR-10 et CIFAR-100. Ces études démontrent le potentiel de combiner l'AG et les méthodes d'apprentissage supervisé pour améliorer les performances dans diverses applications, et soulignent la nécessité de poursuivre les recherches dans ce domaine.

D'autre part, les lacunes et les défis de la recherche et la manière dont nous surmontons ces points peuvent être résumés comme suit :

Les problèmes les plus difficiles de cette étude sont probablement liés à la tâche de développer un modèle prédictif qui peut prédire avec précision les conclusions de défaillance sur la base des descriptions de défaillance. Il s'agit d'une tâche difficile car elle nécessite que le modèle apprenne la relation entre les caractéristiques d'entrée et la sortie cible, ce qui peut être difficile en raison de la présence de caractéristiques bruyantes ou non pertinentes, de distributions de classes déséquilibrées et de relations non linéaires entre les caractéristiques et la cible.

La méthode proposée relève ces défis en combinant un algorithme génétique avec un classificateur d'arbre de décision, appelé GA-DT. Le GA est utilisé pour rechercher un sous-ensemble des caractéristiques les plus discriminantes à partir des descriptions de défaillance, qui sont ensuite utilisées comme entrée du classificateur d'arbre de décision. Ce faisant, le GA aide à surmonter le problème des fonctionnalités bruyantes ou non pertinentes, car il ne sélectionne que les fonctionnalités les plus informatives à utiliser par le classificateur. De plus, les arbres de décision sont connus pour être capables de gérer des distributions de classes déséquilibrées et des relations non linéaires, ce qui en fait un choix approprié pour cette tâche.

L'efficacité du modèle GA-DT proposé est démontrée par des expériences, qui montrent des performances améliorées par rapport à l'utilisation uniquement d'un classificateur d'arbre de décision ou uniquement d'un algorithme génétique. Cela met en évidence la contribution de la méthode proposée, qui combine les points forts des classificateurs GA et arbre de décision pour améliorer la précision du modèle prédictif.

Ensuite, l'objectif principal de cette étude est de construire un modèle prédictif avancé capable de prédire les résultats de défaillance de manière significative en utilisant la description de l'analyse de défaillance. Un autre objectif est d'étudier le potentiel de l'utilisation d'une technique de sélection de variables supervisée à l'aide d'un algorithme génétique pour identifier des caractéristiques textuelles plus informatives et utiles à partir de l'ensemble de données textuelles contenant un très grand nombre de mots, et de montrer si les caractéristiques sélectionnées par la méthode proposée peuvent améliorer de manière significative les performances des modèles prédictifs entre les caractéristiques de conclusion de défaillance et les caractéristiques de description de l'analyse de défaillance. Nous proposons une méthodologie basée sur l'association d'un algorithme génétique avec un modèle supervisé tel que l'arbre de décision ou la machine à vecteurs de support évaluée par le score F1 comme une fonction de fitness pour l'identification des variables discriminantes appliquées aux données textuelles d'analyse de défaillance. Cette fonction permet de calculer la précision des modèles prédictifs appliqués sur des jeux de données déséquilibrés. Les algorithmes proposés sont appelés GA-SVM et GA-DT.

Cet article est structuré comme suit : Dans la seconde partie, nous présentons ce qu'est la Sélection de Fonctionnalités et ses algorithmes associés. Ensuite, nous détaillons le principe de fonctionnement des algorithmes métaheuristiques basés sur la population. Nous nous concentrons plus particulièrement sur les Algorithmes Génétiques, et leur fonctionnement détaillé qui permet la sélection des caractéristiques pertinentes. Dans cette partie de ce travail, nous présentons des algorithmes d'apprentissage automatique utilisés pour calculer la valeur de fitness pour les algorithmes métaheuristiques. Nous approfondissons la description des méthodes supervisées telles que Support Vector Machine (SVM) et Decision Tree (DT). Dans la troisième partie, nous présentons les résultats obtenus en appliquant notre combinaison métaheuristique-algorithmes d'apprentissage automatique sur les fonctionnalités de conclusion de défaillance et les fonctionnalités de description de l'analyse de défaillance. Nous montrons que les résultats observés nous permettent de choisir le modèle le plus valide, qui est le GA-DT, confirmé avec les différentes métriques comme le score BLEU et la similarité cosinus à une division de \(70\%\) ensemble d'apprentissage et \(30\%\) ensemble de test. Enfin, et après avoir discuté des résultats, nous terminons par une conclusion générale sur l'intérêt de la combinaison d'algorithmes de sélection de caractéristiques avec des méthodes d'apprentissage automatique, sa capacité et ses performances en réduction de dimension, et sur les possibilités d'implémenter d'autres outils appartenant aux algorithmes métaheuristiques pour améliorer les taux de précision.

Le cadre des codes de sortie à correction d'erreurs (ECOC) est une méthode basique mais efficace pour traiter le problème de catégorisation multi-classes basée sur l'intégration de classificateurs binaires, où le classificateur se compose de plusieurs apprenants binaires tels que des machines à vecteurs de support (SVM). Les classificateurs du modèle ECOC permettent de stocker des données d'apprentissage, des valeurs de paramètres, des probabilités a priori et des matrices de codage21. Ces classificateurs visent à effectuer des tâches telles que la prédiction d'étiquettes ou de probabilités a posteriori pour de nouvelles données. Le modèle ECOC multi-classes utilisant les méthodes SVM se compose de trois composants principaux qui sont le codage, l'apprentissage du classificateur binaire et les étapes de décodage. Dans la procédure de codage, une matrice de codage est généralement d'abord déterminée pour plusieurs classes, où chaque ligne de la matrice de codage représente une classe spécifique. Ensuite, un groupe de classificateurs binaires indépendants est formé sur la base d'une partition différente des données d'origine selon chaque colonne de la matrice de codage. Enfin, une nouvelle donnée est prédite en tant que classe spécifique via la procédure de décodage basée sur les sorties des classificateurs binaires appris et la matrice de codage.

Soit \(X=\{x_{j} \}_{j=1}^{n}\) un ensemble d'apprentissage de n échantillons de variables observées, où un vecteur d-dimensionnel représente chaque échantillon, et soit C une variable aléatoire non observée indiquant l'appartenance à la classe de \(x_{j}\), où \(C \in \{c_{1}, \ldots , c_{k}, \ldots , c_{K} \}\) avec K indiquant le nombre de classe. Dans le problème SVM de classe \(k^{th}\), la classe \(c_{k}\) est séparée des classes restantes. Tous les k classificateurs SVM binaires sont combinés pour former un classificateur multiclasse final. Ici, le reste signifie que tous les points de données des classes autres que \(c_{k}\) sont combinés pour former une classe \(c_{l}\). L'hyperplan optimal qui sépare les points de données de la classe \(c_{k}\) et de la classe combinée \(c_{l}\) est trouvé en utilisant l'approche SVM standard. Nous notons l'hyperplan séparateur optimal discriminant la classe \(c_{i}\) et la classe combinée \(c_{k}\) par22 :

où \(w_{k} \in {\mathbb {R}}^{S}\) est le vecteur de poids, b est le biais et la fonction de mappage \(\phi \) projette les données d'apprentissage dans un espace de caractéristiques approprié \({\mathbb {R}}^{S}\) pour permettre des surfaces de décision non linéaires. Les paramètres de la fonction de décision \(g_{k} (x_{j})\) sont déterminés par la minimisation suivante23 :

sujet à

avec le scalaire \(y_{j} \in \{-1,+1\}\) désignant son étiquette de classe, \(C \in {\mathbb {R}}^{+}\) est une constante de régularisation et \( \xi _{j} \) désigne une variable d'écart pouvant être introduite pour assouplir les contraintes de séparabilité dans l'équation. (2).

La règle de décision \(f_{k} (x_{j})\) qui affecte le vecteur \(x_{j}\) à la classe \(c_{k}\) donnée par :

La principale difficulté de cette approche est que les sorties des classifieurs \(f_{k} (x_{j})\) sont des valeurs binaires. La manière habituelle de gérer ce problème est d'ignorer l'opérateur de signe dans l'équation. (4). Après avoir trouvé tous les hyperplans optimaux donnés par \(g_{k} (x_{j})\) pour \( k \in \{1, \ldots , K \}\), on dit que \(x_{j}\) est dans la classe qui a la plus grande valeur de la fonction de décision et est donnée par24 :

Dans cette approche, l'indice de la plus grande composante des fonctions discriminantes \(g_{k} (x_{j})\) pour \( k \in \{1, \ldots , K \}\) est attribué au point de données \(x_{j}\). Le taux d'erreur \({\mathcal {R}}^{SVM}\) du classificateur SVM, qui est défini comme :

avec \(x_{j}\) qui appartient à la classe \(c_{k}\) estimée par le classificateur de méthode dans la classe \(\hat{c_{k}}\) et \(1_{c_{k} \ne \hat{c_{k}}} (x_{j})\) est la fonction indicatrice définie comme :

Un classificateur d'arbre de décision est un classificateur non paramétrique qui ne nécessite aucune hypothèse statistique a priori concernant la distribution sous-jacente des données. La structure de base de l'arbre de décision consiste cependant en un nœud racine, un certain nombre de nœuds internes et enfin un ensemble de nœuds terminaux. Un nœud est un sous-ensemble des prédicteurs utilisé pour déterminer une répartition. Un nœud non terminal ou nœud parent est un nœud qui est ensuite divisé en deux nœuds enfants. La croissance d'un arbre consiste à sélectionner les divisions optimales pour déterminer un nœud non terminal, et l'affectation de chaque nœud terminal à une classe25. Les données sont divisées de manière récursive dans l'arbre de décision selon le cadre de classification défini.

Les classes sont simplement affectées à un nœud terminal en observant quelle classe est le plus souvent observée dans cette région de l'arbre. Ainsi, le défi consiste à choisir de manière optimale la meilleure variable et à diviser cette variable pour maximiser la pureté ou la similitude entre les réponses. L'impureté d'un nœud parent \(\tau \), notée \(i(\tau )\), est nulle lorsque toutes les observations sont dans la même classe. Un fractionnement s est déterminé en sélectionnant le meilleur prédicteur et la valeur de fractionnement qui optimise la plus grande réduction de pureté26 :

où \(\tau _{b}\) désigne le nœud enfant b, \(p(\tau _{b}/ \tau )\) est la proportion d'observations dans \(\tau \) qui sont attribuées à \(\tau _{b}\), et B est le nombre de branches après division. Deux fonctions d'impureté courantes sont le critère d'entropie26 :

et le critère de l'indice de Gini

où \( p_{k}\) est la proportion d'observations dans la classe \(c_{k}\) avec \( k \in \{1, \ldots , K \}\). La taille est basée sur des étapes successives d'élimination des branches inférieures qui conduisent à l'amélioration des taux de classification. Une fois l'arbre final déterminé par \(\Delta (s, \tau )\), il est naturel d'évaluer ses performances prédictives en comparant la classe observée à la classe prédite pour l'observation \(x_{j}\). Dans un nœud terminal m, représentant une région \(R_{m}\) avec \(n_{m}\) observations, soit

désignent la proportion d'observations de classe \(c_{k}\) dans le nœud terminal m27. On classe les observations au nœud m dans la classe

Le taux d'erreur de classification erronée est simplement la proportion d'observations dans le nœud qui ne sont pas membres de la classe majoritaire dans ce nœud.

Les algorithmes génétiques (GA) sont un type de calcul d'optimisation évolutive qui est devenu populaire grâce aux travaux de Holland28. Ces algorithmes sont basés sur le concept de sélection naturelle des solutions en copiant ses grands principes. Chaque solution peut être considérée comme une population où chaque élément est représenté sous la forme d'un chromosome, avec une caractéristique textuelle sélectionnée positionnée comme des gènes28. Les étapes GA reproduisent les différentes opérations évolutives telles que le croisement et la mutation permettant de sélectionner pour chaque génération les meilleurs chromosomes et d'identifier à la fin un chromosome optimal par rapport à un critère d'optimisation défini par une fonction de fitness29. La figure 1 montre les étapes de la procédure de sélection des caractéristiques informatives à l'aide d'un GA30.

Représentation synoptique de la méthodologie GA proposée.

Le GA peut être appliqué sur la matrice de données \(X=\{x_{j} (y)\}_{j=1}^{n}\) avec \(x_{j }(y) \in {\mathbb {R}}^{d}\) et y est l'ensemble des caractéristiques textuelles pour l'ensemble de données de description de défaillance. Cette procédure donne dans chacun de ces cas un chromosome optimal \(z_{0}=[z_{01}\cdots z_{0l} \cdots z_{0L} ] \in {\mathbb {R}}^{L}\) avec \(z_{0l}\) caractéristique textuelle de y et L le nombre de variables choisies pour sélectionner. Le chromosome optimal permet d'extraire une nouvelle sous-matrice de données \( \{x_{j} (z_{0}) \}_{j=1}^{n}\) de données sous-dimensionnées sur lesquelles on peut appliquer des méthodes d'analyse de données. Les étapes de l'AG sont brièvement décrites par la suite, étant détaillées dans les articles31 et32.

Initialisation : Les paramètres initiaux sont : la taille chromosomique L (le nombre de gènes correspondant au nombre de caractères à sélectionner dans chaque cas) ; la taille de la population N (le nombre de chromosomes par génération) ; le nombre d'élites \(N_{e}\) (les chromosomes avec les meilleures valeurs de fitness dans la génération actuelle qui sont assurés de survivre jusqu'à la génération suivante) ; la fraction de croisement \(F_{c}\) (le nombre de chromosomes sélectionnés pour effectuer le croisement \(N_{c}\) tel que \(N_{c} = F_{c} \times (N-N_{e}))\). Les paramètres d'arrêt sont : le nombre maximal d'itérations T et la tolérance \(\epsilon \) pour la fonction de fitness. La première étape d'un GA est la création de la population de départ P(0). Les chromosomes N sont générés en sélectionnant aléatoirement L variables parmi y (\(L < S\) est la taille des chromosomes) :

La population initiale P(0) de variables de nombres d'onde est choisie aléatoirement parmi l'ensemble des variables uniformément distribuées s'étendant sur leurs bornes maximale et minimale31 :

où \(z_{i}^{0}\) désigne la variable initiale \(l^{th}\) de la population \(i^{th}\) ; \(z_{i}^{min}\) et \(z_{i}^{max}\) sont les limites minimale et maximale de la variable de décision \(l^{th}\) ; \( U(z_{i}^{min},z_{i}^{max})\) signifie une variable aléatoire uniforme comprise entre \( [z_{i}^{min},z_{i}^{max}]\). Ensuite, le calcul se fait sur des générations. Pour chaque génération (t), on obtient la population de chromosomes \(\{z_{i(t)} \}_{i=1}^{N}\) les étapes suivantes donnent une autre population de chromosomes \(\{z_{i(t+1)} \}_{i=1}^{N}\).

Évaluation : chaque chromosome\(z_{i(t)}\) est évalué par une fonction de fitness F(.) qui attribue une valeur \(F_{i} = F(z_{i(t)})\). Plus la valeur \(F_{i}\) est petite, plus le chromosome correspondant aura de chance d'être sélectionné. Le rôle d'une fonction de fitness est de mesurer la qualité du chromosome dans la population selon l'objectif d'optimisation donné32. Puisque nous voulons créer un modèle prédictif entre le jeu de données de description de défaillance X et le jeu de données de conclusion de défaillance Y, nous proposons d'utiliser le modèle supervisé pour chaque chromosome tel que l'arbre de décision (DT) et la machine à vecteurs de support (SVM) puis de calculer le score \(F_{1}\) de chaque modèle construit comme une fonction de fitness pour évaluer les qualités de notre modèle prédictif obtenu. Le score \(F_{1}\) de ces méthodes d'apprentissage supervisé est l'une des méthodes les plus simples pouvant être utilisée comme fonction de fitness classique pour évaluer la précision du modèle prédictif. La fonction de fitness est définie comme suit :

avec

où \(F_{1}^{\text {modèle}}\) est le score\(F_{1}\) défini comme la moyenne harmonique entre la précision et le rappel ; \(P_{r}^{\text {model}}\) est la valeur prédictive positive (précision) et \(R_{c}^{\text {model}}\) est la sensibilité (Recall) du modèle prédictif tel que SVM et DT. Cette fonction (\(F_{1}\) score) est très utile lorsqu'il s'agit de problèmes de classes déséquilibrées. Ce sont des problèmes lorsqu'une classe peut dominer l'ensemble de données. Pour chaque fonction de fitness \(F_{i}\), les valeurs sont classées par ordre croissant et les meilleurs chromosomes \(N_{e}\) sont sélectionnés en fonction de cet ordre. Ces chromosomes survivants seront copiés tels quels dans la prochaine population.

Sélection : Utilisée pour choisir les parents dans la population à croiser, cette étape peut être mise en œuvre de différentes manières : rang, stochastique, roue de roulette, échantillonnage universel stochastique, etc. Nous avons choisi l'échantillonnage universel stochastique car cette méthode est à biais nul, n'a pas d'écart entre le taux de reproduction attendu et la fréquence d'échantillonnage algorithmique, et a un écart minimum33. La sélection est effectuée de manière probabiliste afin que la probabilité de sélection d'un individu soit proportionnelle à la forme physique de l'individu. Tout d'abord, nous calculons la probabilité \(p_{i}\) de sélectionner le chromosome \(z_i\) et la probabilité cumulée \(q_{i}\) :

Ensuite, nous générons un nombre aléatoire uniforme \(r \in [0, \frac{1}{N}]\). Si \( r < q_1\) alors on sélectionne le premier chromosome \(z_1\), sinon on sélectionne le chromosome \(z_i\) tel que \(q_{i-1} < r \le q_i\). Les valeurs \(F_{i}\) ordonnées par ordre croissant permettent de sélectionner les chromosomes \(N_{e}\) garantis pour survivre à la prochaine génération et \(N_{p} = (F_{c} + 1)\times N - 2N_{e}\) chromosomes parents pour le croisement.

Crossover : Cette étape tente d'extraire des gènes des chromosomes sélectionnés et de les recombiner en enfants potentiellement supérieurs. Nous avons choisi le croisement uniforme car il donne de bons résultats dans la majorité des cas. Un gène est choisi au hasard soit parmi le premier soit parmi le second parent34. L'opération de croisement donne \(N_{c} = (F_{c} \times N) - N_{e}\) enfants. Pour expliquer le croisement uniforme, les chromosomes parent \(p_{1} [z_{iq} ]\), \( p_{2} [z_{iq} ]\) et les chromosomes enfants \( o_{1} [z_{iq} ]\), \( o_{2} [z_{iq} ]\), \( q = 1 \ldots L\) sont des tableaux de gènes. La variante de croisement la plus populaire entre les nombres réels est le croisement uniforme. Les gènes situés en position q des chromosomes enfants \( z_i\) sont calculés comme suit35 :

\(\alpha \) est un vecteur aléatoire de nombres réels uniformément distribués de même taille que \(p_1\), \(p_2\), \(o_1\), \(o_2\) où \(\alpha _{q} \in [0,1]\).

Les enfants sont copiés des parents et le croisement est obtenu avec les équations. (20) et (21):

Mutation : est un opérateur génétique utilisé la modification de la valeur d'un gène pour maintenir la diversité génétique d'une génération d'une population à la suivante. Nous avons choisi l'opérateur gaussien car il produit les meilleurs résultats pour la plupart des fonctions de fitness36. Cet opérateur ajoute une valeur aléatoire distribuée gaussienne unitaire aux chromosomes \(N_{p} - 2N_{c}\). Les nouvelles valeurs des gènes sont alors arrondies à l'entier le plus proche. L'écart type de cette distribution est le paramètre que l'on appelle "scale" qui est égal à un à la première génération, mais ce paramètre est contrôlé lors des générations suivantes par un autre paramètre qui est "shrink". L'écart type à la tième génération, \(\sigma _{t}\) est le même à toutes les coordonnées du chromosome parent, et est donné par la formule récursive37 :

Où T est le nombre de générations. Une faible valeur de "shrink" produit une petite diminution de l'amplitude de la mutation sur les indices de positions des gènes.

Les étapes 1 à 5 sont répétées jusqu'à ce que le nombre maximal d'itérations T soit atteint ou lorsque GA a convergé, c'est-à-dire que la variation relative moyenne de la valeur de la fonction de fitness est inférieure à la tolérance \(\epsilon \). Cette procédure donne un chromosome optimal \(z_{0}\), qui dépend de la fonction de fitness et des valeurs initiales. Avec le choix proposé des étapes GA, nous avons trouvé que le même chromosome optimal est trouvé quelles que soient les valeurs initiales de chromosomes utilisées.

L'algorithme de notation BiLingual Evaluation Understudy (BLEU) évalue la similarité entre un document prédictif et une collection de documents de référence. Pour évaluer la qualité des modèles de traduction et de synthèse de documents, nous utilisons le score BLEU. Les décomptes de n-grammes, les décomptes de n-grammes tronqués, les scores de précision de n-grammes modifiés et une pénalité de brièveté sont utilisés pour calculer le score BLEU38.

Si nécessaire, la fonction de décompte de n-grammes tronqués Countclip tronque le décompte de chaque n-gramme afin qu'il ne dépasse pas le décompte le plus élevé trouvé dans une référence pour ce n-gramme. La fonction de comptages écrêtés est définie comme suit :

où \(\text {Count}(\text {n-gram})\) représente le nombre de n-grammes et \(\text {maxRef}(\text {n-gram})\) est le nombre de n-grammes le plus élevé observé dans un seul document de référence pour ce n-gramme. Les scores de précision n-grammes mis à jour sont calculés comme suit :

où n est la longueur de n-gramme et \(\text {Document prédictif}\) est l'ensemble des phrases dans les documents prédictifs, D et \(D^{'}\) sont des documents prédictifs . Étant donné un vecteur de poids w de n-grammes, la formulation du score BLEU est donnée par38 :

où N est la plus grande longueur de n-grammes, \(\bar{p_{n}}\) sont les moyennes géométriques des précisions modifiées de n-grammes, et BP est la pénalité de brièveté définie comme

Le score BLEU est renvoyé sous forme de valeur scalaire dans la plage [0, 1]. Un score BLEU proche de zéro indique une faible similarité entre le document prédictif et les références. Un score BLEU proche de 1 indique une forte similarité. Si le document prédictif est identique à l'un des documents de référence, le score est de un.

La similarité de deux vecteurs dans un espace produit interne est mesurée par la similarité cosinus. Il détermine si deux vecteurs pointent dans la même direction générale en mesurant le cosinus de l'angle entre eux. En analyse de texte, il est fréquemment utilisé pour déterminer la similarité des documents39. Voyons comment les documents de notre corpus sont liés les uns aux autres. Soit \(t_{1}\) et \(t_{2}\) deux vecteurs qui représentent les associations thématiques des documents \(d_{1}\) et \(d_{2}\), respectivement, où \(t_{1}^{(k)}\) et \(t_{2}^{(k)}\) sont le nombre de termes dans \(d_{1}\) et \(d_{2}\) qui sont respectivement connectés au sujet k. La similarité cosinus peut ensuite être utilisée pour calculer une mesure de similarité de document39 :

où \(\Vert t_{j} \Vert \) désigne la norme du vecteur \(t_{j}\). Le score de similarité cosinus indique une valeur scalaire dans la plage [0, 1]. Une similarité cosinus proche de zéro indique une faible similarité entre le document prédictif et les références. Une similarité cosinus proche de un indique une forte similarité.

Représentation synoptique de la méthodologie GA proposée.

Dans cette section, nous présentons la méthodologie proposée pour la sélection des variables par l'algorithme génétique combiné au modèle d'arbre de décision (GA-DT) ou au modèle de machine à vecteurs de support (GA-SVM) appliqué à des données textuelles. La figure 2 montre les étapes de la méthodologie de modélisation de l'analyse des défaillances en extrayant les meilleures caractéristiques textuelles à l'aide de techniques de sélection de variables supervisées et en représentant les modèles prédictifs entre la description de la défaillance X et la conclusion de la défaillance Y pour ces données analysées. Cette méthodologie proposée comprend trois phases principales. Tout d'abord, nous effectuons le prétraitement du pipeline de la description de l'analyse de défaillance X et de la conclusion de la défaillance Y. Il s'agit d'une partie des données textuelles la plus importante et la plus chronophage, car le fait de ne pas nettoyer et préparer les données pourrait compromettre le modèle prédictif. La Phase 2 montre l'application de la méthode de vectorisation Word2Vec sur des données textuelles prétraitées pour obtenir des données numériques.

La phase 3 montre l'application de la méthode de sélection de variables GA combinée à un arbre de décision ou à un apprentissage supervisé par machine à vecteurs de support sur des données prétraitées vectorisées. Pour quantifier la précision du modèle prédictif sélectionné sur les caractéristiques textuelles discriminantes, nous calculons les différentes métriques telles que le score BLEU et la similarité cosinus. Enfin, nous comparons la conclusion textuelle prédite et la conclusion textuelle originale pour confirmer les similitudes entre elles.

Tous les traitements de données ont été effectués à l'aide de l'environnement MATLAB-R2022b, et les scripts sont disponibles sur demande.

La description et l'analyse des données est une phase importante qui précède la modélisation. Une représentation précise des données est nécessaire pour définir les paramètres d'un modèle. Nous disposons d'un ensemble de données textuelles sur l'analyse des défaillances de la production microélectronique. L'ensemble de données original fourni par STMicroelectronics daté entre 2019 et 2021 se compose de deux parties : la première est la description de l'analyse de défaillance X (source de la demande d'échec, propriétés des échantillons et détails de l'échec) et la seconde est l'ensemble de données de sa conclusion Y (conclusion de l'analyse, taux de réussite et temps de cycle). Les tableaux 1 et 2 contiennent une liste des différentes caractéristiques de X et Y avec une brève description. Ces données sont passées d'un empilement vertical d'analyses à un empilement horizontal. Cela signifie que sa description (objectif, contexte, etc.) ainsi que sa conclusion d'échec représentent un constat. La transformation réduit la taille des données à 12 300 observations et nous gardons 19 caractéristiques prétraitées obsolètes. Après avoir obtenu des données traitées propres à l'aide du pipeline de prétraitement introduit dans 40, nous vectorisons en utilisant sur Word2Vec. Les paramètres Word2Vec de Genism sont conservés sauf que la taille du vocabulaire est définie sur 1000 et que le mot minimum est de trois41.

Pour formaliser notre approche, nous utilisons les notations suivantes : soit \(X= \{x_{ij} \}_{i=1, j=1}^{n, m}\) représente l'espace d'entrée d'un ensemble de données donné où n est le nombre d'échantillons et m est le nombre d'entités ; \(Y = \{y_{ij} \}_{i=1, j=1}^{n, p}\) représente l'espace de sortie de l'ensemble de données d'échec de conclusion où p est le nombre d'entités.

L'élimination du bruit en supprimant les espaces et la ponctuation, la correction des fautes d'orthographe, la suppression des instances en double, la conversion du texte en minuscules et la suppression des mots vides et des mots de moins de trois lettres sont tous des exemples de prétraitement du texte. Nous allons commencer par les étapes du pipeline de préparation :

Suppression des symboles et des caractères alphanumériques : cette technique supprime les mots du texte qui n'ajoutent rien au modèle d'intelligence ou à l'échantillon analytique, tels que les symboles et parfois les mots alphanumériques. Ce ne sont que des mots vides et des inflexions qui sont utilisés pour souligner le sens, ils ont donc été supprimés42.

Tokénisation et seuillage : la tokénisation consiste à modifier ou à décomposer la phrase en un jeton à l'aide d'un séparateur42. Le seuil est un terme utilisé pour supprimer les mots en dessous d'une certaine longueur. Dans cet article, nous avons fixé le seuil à deux.

Stemmatisation et lemmatisation : il s'agit du processus de suppression des affixes (préfixes et suffixes) des traits textuels43.

Abréviation : Les abréviations sont courantes dans FRACAS, d'où la nécessité de les remplacer par leur signification d'origine. Nous avons créé un dictionnaire d'abréviations pour atténuer ce défi.

Une phase critique de GA est le bon choix de ses paramètres afin d'assurer la convergence de l'algorithme vers la solution optimale. Les paramètres ont été initialisés comme suit : le nombre d'élites \(N_{e} = 2\), la fraction de croisement \(F_{c} = 0,8\), le nombre maximal d'itérations \(T=100\), la taille de la population \(N = 100\) et la tolérance \(\epsilon =10^{-6}\). Ces valeurs ont été utilisées pour plusieurs implémentations de GA car elles donnent de bons résultats pour des données similaires44.

Pour identifier les valeurs optimales pour L et N, le GA a été évalué pour différentes tailles de chromosomes. Lorsque l'algorithme a convergé (tolérance \(\epsilon \)) ou lorsqu'il a atteint le nombre maximum d'itérations (T), les valeurs de taille chromosomique L qui donnent la valeur maximale de la fonction de fitness sont choisies comme valeurs optimales (Eq. 28) :

La meilleure précision de GA-SVM et GA-DT a été évaluée pour différentes tailles de chromosomes, \(L=3, \ldots , 8\). Les figures 3 et 4 montrent respectivement les valeurs de fitness des algorithmes GA-DT et GA-SVM. Nous avons constaté que \(L = 3\) ou 4 donne la valeur de fitness la plus élevée pour les deux méthodes. Cela indique que nous avons besoin des quatre caractéristiques de description de défaillance pour construire le meilleur modèle prédictif de conclusion d'analyse de défaillance.

Valeurs des fonctions de fitness GA-DT pour différentes tailles de chromosomes L. La valeur optimale est le score F1 le plus élevé.

Valeurs des fonctions de fitness GA-SVM pour différentes tailles de chromosomes L. La valeur optimale est le score F1 le plus élevé.

La méthodologie proposée a été appliquée avec deux fonctions de fitness différentes (SVM et DT). Après avoir sélectionné les variables par les algorithmes GA-SVM et GA-DT, nous avons calculé la précision (%) pour évaluer les performances d'un modèle prédictif, le score BLEU et la similarité cosinus comme métriques afin de quantifier les résultats de la prédiction de la conclusion de l'échec.

La précision est la mesure de performance la plus intuitive et il s'agit simplement d'un rapport entre le document correctement prédit et le nombre total de documents.

Où TP correspond aux vrais positifs, TN aux vrais négatifs, FP aux faux positifs et FN aux faux négatifs. FP et FN, ces valeurs se produisent lorsque les documents réels contredisent les documents prédits. Ces valeurs (score BLEU, cosinus similarité et précision), présentées dans le tableau 3, confirment que le GA-DT permet un meilleur modèle prédictif des échantillons textuels pour prédire la conclusion d'échec (caractéristiques Y) par rapport à l'autre algorithme tel que GA-SVM. Nous pouvons voir que les quatre premières caractéristiques de Y donnent une bonne précision et de bonnes valeurs de score BLEU et de similarité cosinus pour la méthode GA-DT sauf la dernière caractéristique textuelle qui est la conclusion de l'analyse car chaque échantillon enregistré sur cette variable est un grand paragraphe textuel. À propos de cette dernière caractéristique, nous pouvons dire que les métriques calculées (précision = 25 % ; BLEU = 0,32 ; Cosinus = 0,30) sont très bonnes par rapport aux autres études sur les données textuelles. On peut également constater que l'application de la sélection de variables par l'algorithme génétique améliore la précision du modèle. Ces résultats sont présentés dans le tableau 3.

Dans le tableau 4, nous présentons quelques exemples de résultats obtenus après l'application de l'algorithme génétique avec arbre de décision (GA-DT). Nous affichons les trois meilleures prédictions pour chaque échantillon de texte de conclusion d'analyse de défaillance. Ensuite, nous calculons le score BLEU pour quantifier la similarité entre ces échantillons prédits et l'échantillon original. On peut constater que les valeurs des scores BLEU sont très proches de un. Cela indique une forte similarité entre les échantillons prédits et ceux de référence.

Nous avons proposé une méthodologie basée sur l'association d'un algorithme génétique avec des méthodes de classificateurs supervisés pour l'identification de caractéristiques textuelles discriminantes pour l'étude du meilleur modèle prédictif de conclusion de défaillance à l'aide des caractéristiques des descriptions de défaillance.

La mise en œuvre d'un algorithme génétique avec un classificateur d'arbre de décision comme fonction de fitness a conduit à l'identification de quelques caractéristiques intéressantes. Le score BLUE et la similarité en cosinus permettent d'évaluer la similarité entre un document prédictif et un ensemble de documents de référence. Nous avons obtenu des valeurs très intéressantes qui indiquent une forte similarité entre les documents prédictifs et les références. Nous avons également constaté que l'application de la sélection de variables par l'algorithme génétique améliore la précision et la métrique du modèle obtenu par les méthodes DT ou SVM.

Nous avons montré que les caractéristiques discriminantes sélectionnées par la méthode GA-DT proposée fournissent le meilleur modèle prédictif de la conclusion de la défaillance selon la description du processus de défaillance par rapport au modèle GA-SVM ou l'application directe de l'arbre de décision ou de la machine à vecteurs de support appliquée à toutes les caractéristiques de la description de la défaillance (c'est-à-dire sans aucune méthode de présélection). En perspective, nous travaillons à relever les défis suivants : 1) Améliorer les performances du modèle en appliquant un modèle de langage séquence à séquence génératif pour la génération de conclusions d'échec compte tenu de la description de l'échec ; 2) Proposer une méthodologie basée sur l'algorithme génétique (GA) avec arbre de décision (DT) pour sélectionner les variables d'entrée les plus importantes qui prédisent le mieux la conclusion (cause racine) d'une analyse de défaillance (FA). Ces variables seront ensuite utilisées pour former un modèle de transformateur pour la génération de conclusion de défaillance, comme le modèle de transformateur GPT2, etc.

Toutes les données, modèles et codes générés ou utilisés au cours de l'étude apparaissent dans l'article soumis et sont fournis sur demande en contactant Abbas Rammal par e-mail : [email protected].

Farhat, H. Chapitre 9—analyse des défaillances. Dans Farhat, H., éditeur, Operation, Maintenance, and Repair of Land-Based Gas Turbines (Elsevier, 2021).

Farshad, M. Chapitre 2 - Enquête sur les défaillances des tuyaux en plastique. Dans Farshad, M., éditeur, Plastic Pipe Systems, pp. 28–25 (Oxford, 2006).

Blokdyk, G. Analyse des rapports d'échec et système d'action corrective Un guide complet (American Society for Quality Control, West Wisconsin, 2020).

Google Scholar

Adel, M. et al. Détection précoce des dommages de rupture par fatigue pour les dalles de pont rc sous un test de déplacement de charge de roue à l'aide d'une analyse d'image avec intelligence artificielle. Ing. Structure. 246, 1130-1150 (2021).

Article Google Scholar

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. & Dean, J. Représentations distribuées de mots et de phrases et leur compositionnalité. Dans Un aperçu et une comparaison empirique des modèles de traitement du langage naturel (PNL) et une introduction et une application empirique des modèles d'auto-encodage dans le marketing (eds Burges, CJ et al.) (Curran Associates Inc, USA, 2013).

Google Scholar

Nota, G., Postiglione, A., Postiglione, A. & Carvello, R. Techniques d'exploration de texte pour la gestion de la maintenance prédictive. Proc. Calcul. Sci. 200, 778–792 (2022).

Article Google Scholar

Li, S., You, M., Li, D. et Liu, J. Identification des facteurs de risque de production pour la sécurité des mines de charbon en utilisant des techniques d'exploration de texte et de réseau bayésien. Processus de sécurité. Environ. Prot. 162, 1067-1081 (2022).

Article CAS Google Scholar

Liu, L., Kang, J., Yu, J. et Wang, Z. A comparative study on unsupervised feature selection methods for text clustering, 2005. Dans un article présenté à la conférence internationale sur le traitement du langage naturel et l'ingénierie des connaissances, 30–31 octobre 2005.

Galvao, R. et al. Une méthode d'élimination de variables pour améliorer la parcimonie des modèles mlr en utilisant l'algorithme de projections successives. Chemom. Renseignement. Laboratoire. Syst. 92(1), 83–91 (2008).

Article CAS Google Scholar

Derksen, S. & Keselman, H. Algorithmes de sélection de sous-ensembles automatisés en arrière et par étapes : fréquence d'obtention de variables authentiques et de bruit. Br. J. Math. Statistique Psychol. 45(2), 265–282 (1992).

Article Google Scholar

Centner, V. et al. Élimination des variables non informatives pour le calage multivarié. Anal. Chim. 68(21), 3851–3858 (1996).

Article CAS PubMed Google Scholar

Mehmood, T., Liland, K., Snipen, L. & Sæbog, S. Un examen des méthodes de sélection de variables dans la régression des moindres carrés partiels. Chemom. Renseignement. Laboratoire. Syst. 118, 62-69 (2012).

Article CAS Google Scholar

Guney, A., Bozdogan, H. & Arslan, O. Sélection de modèle robuste dans les modèles de régression linéaire utilisant la complexité de l'information. J. Comput. Appl. Mathématiques. 398, 1 (2021).

Liu, W., Wang, Z., Zeng, N., Alsaadi, F. et Liu, X. Une approche d'apprentissage en profondeur basée sur le pso pour classer les patients des services d'urgence. Int. J.Mach. Apprendre. Cyber. 12, 1939-1948 (2021).

Article Google Scholar

Li, H. et al. Un cadre généralisé de réseau neuronal convolutif amélioré par apprentissage de caractéristiques pour le diagnostic du cancer axé sur l'image de la pathologie. Calcul. Biol. Méd. 151, 106265 (2022).

Article PubMed Google Scholar

Sivanandam, S. & Deepa, S. Introduction aux algorithmes génétiques (Springer, Berlin, Allemagne, 2008).

MATH Google Scholar

Janikow, CZ Un algorithme génétique à forte intensité de connaissances pour l'apprentissage supervisé. Mach. Apprendre. 13, 189-228 (1993).

Article Google Scholar

Chauhan, A., Agarwal, A. & Sulthana, R. Algorithme génétique et classification de texte assistée par apprentissage d'ensemble à l'aide de machines à vecteurs de support. Dans. J. Adv. Calcul. Sci. Appl. 12, 1 (2021).

Google Scholar

Lei, S. Une méthode de sélection de fonctionnalités basée sur le gain d'information et l'algorithme génétique, 2012. Dans un article présenté à la conférence internationale sur l'informatique et l'ingénierie, du 23 au 25 mars 2012.

Uysal, A. & Gunal, S. Classification de texte à l'aide de caractéristiques sémantiques latentes orientées algorithme génétique. Système expert. Appl. 41, 5938–5947 (2014).

Article Google Scholar

James, G. & Hastie, T. La méthode de codage des erreurs et les images. J. Comput. Graphique. Statistique 41, 377–387 (1998).

MathSciNetGoogle Scholar

Basu, A., Walters, C. et Shepherd, M. Support vector machines for text categorization, 2003. dans Article présenté à la 36e conférence internationale annuelle d'Hawaï, 23-25 ​​mars 2003.

Mayor, S., & Pant, P. Classification de documents à l'aide d'une machine à vecteurs de support. Int. J.Eng. Sci. Technol.4 (2012).

Rahman, S., Mutalib, S., Khanafi, N., & Ali, A. Exploring feature selection and support vector machine in text categorization, 2013. Dans un article présenté à la 16e conférence internationale sur la science et l'ingénierie computationnelles, du 3 au 5 décembre 2013.

Noormanshah, W., Nohuddin, P. & Zainol, Z. Catégorisation de documents à l'aide d'un arbre de décision : étude préliminaire. Int. J.Eng. Technol. 7, 437–440 (2018).

Article Google Scholar

Aggarwal, C. & Zhai, C. Une enquête sur les algorithmes de classification de texte. Dans Mining Text Data (éd. Aggarwal, C.) (Springer, Boston, MA, 2012).

Chapitre Google Scholar

Suresh, A. & Bharathi, C. Classification des sentiments à l'aide d'une sélection de caractéristiques basée sur un arbre de décision. Int. J. Théorie du contrôle Appl. 9, 419–425 (2016).

Google Scholar

Holland, J. Adaptation dans les systèmes naturels et artificiels : une analyse introductive avec des applications à la biologie, au contrôle et à l'intelligence artificielle (MIT press, Londres, Angleterre, 1992).

Réserver Google Scholar

Forrest, S. Algorithmes génétiques : principes de la sélection naturelle appliqués aux calculs. Sciences 261, 872–878 (1993).

Article ADS CAS PubMed Google Scholar

Rammal, A., Perrin, E., Vrabie, V., Assaf, R. & Fenniri, H. Sélection de nombres d'ondes discriminants dans l'infrarouge moyen en combinant un classificateur bayésien naïf et un algorithme génétique : application à l'évaluation de la biodégradation de la biomasse lignocellulosique. Mathématiques. Biosci. 289, 153-161 (2017).

Article MathSciNet CAS PubMed MATH Google Scholar

Mitchell, M. Algorithmes génétiques : un aperçu. Complexité 1, 31–39 (1995).

Article ANNONCES MATH Google Scholar

Yangn, M., Yang, Y. & Su, T. Une fonction de fitness efficace dans un classificateur d'algorithme génétique pour la reconnaissance de l'utilisation des terres sur des images satellites. Sci. Monde J. 1, 1 (2014).

Google Scholar

Ranjini, A. & Zoraida, B. Analyse des schémas de sélection pour résoudre le problème de planification de l'atelier à l'aide d'un algorithme génétique. Int. J. Rés. Ing. 2, 775–779 (2013).

Google Scholar

Picek, S. & Goluba, M. Comparaison d'un opérateur de croisement dans des algorithmes génétiques codés en binaire. WSEAS Trans. Calcul. 9, 1064-1073 (2010).

Google Scholar

Goncalves, J., Mendes, M. & Resende, M. Un algorithme génétique hybride pour le problème de planification de l'atelier. EUR. J. Oper. Rés. 167, 77–953 (2005).

Article MathSciNet MATH Google Scholar

Hinterding, R. Gaussian mutation and self-adaptation for numeric genetic algorithms, 1995. Article présenté à la conférence internationale ieee sur le calcul évolutionnaire (1995).

Deep, K. & Thakury, M. Un nouvel opérateur de mutation pour de vrais algorithmes génétiques codés. Appl. Mathématiques. Calcul. 193, 211-230 (2007).

MathSciNet MATHGoogle Scholar

Papineni, K., Toubakh, S., Ward, T., & Zhu, W. Bleu: A method for automatic evaluation of machine translation, 2002. dans Article présenté à la 17e réunion annuelle de l'association pour la linguistique computationnelle, 07-12 juillet 2002.

Gunawan, D., Sembiring, C. & Budiman, M. L'implémentation de la similarité cosinus pour calculer la pertinence du texte entre deux documents. J.Phys. Conf. Ser. 978, 1 (2018).

Article Google Scholar

Ezukwoke, K., Toubakh, H., Hoayek, A., Batton-Hubert, M., Boucher, X., & Gounet, P. Intelligent fault analysis decision flow in semiconductor industry 4.0 using natural language processing with deep clustering, 2021. Dans un article présenté à la 17e conférence internationale sur les sciences et l'ingénierie de l'automatisation, du 23 au 27 août 2021.

Kamal, M., Barakbah, A., & Mubtadai, N. Temporal sentiment analysis for opinion mining of asean free trade area on social media, 2016. Dans Document présenté à la conférence internationale sur la création de connaissances et l'informatique intelligente pp. 15-17 (2016).

Bharti, K. & Singh, P. Réduction de dimension hybride en intégrant la sélection de caractéristiques avec la méthode d'extraction de caractéristiques pour le regroupement de texte. Système expert. Appl. 42, 3105–3114 (2015).

Article Google Scholar

Nawangsari, RP, Kusumaningrum, R. & Wibowo, A. Word2vec pour l'analyse du sentiment indonésien envers les critiques d'hôtels : une étude d'évaluation. Proc. Calcul. Sci. 157, 360–366 (2019).

Article Google Scholar

Kristiyati, D., & Wahyudi, M. Sélection de fonctionnalités basée sur l'algorithme génétique, l'optimisation de l'essaim de particules et l'analyse des composants principaux pour l'examen des produits cosmétiques d'extraction d'opinion, 2017. Dans un article présenté à la 5e conférence internationale sur la gestion des services informatiques et cybernétiques, du 08 au 10 août 2017.

Télécharger les références

Cette étude a été réalisée par Mines Saint-Etienne en partenariat avec STMicroelectronics Reliability and Failure Analysis Lab à Grenoble, France.

Ce projet a été financé avec le soutien du projet européen FA4.0.

Ecole des Mines de Saint-Etienne, Mathématiques et Génie Industriel, Organisation et Génie de l'Environnement, Institut Henri FAYOL, 42023, Saint-Etienne, France

Abbas Rammal, Kenneth Ezukwoke, Anis Hoayek & Mireille Batton-Hubert

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Tous les auteurs nommés ont contribué de manière égale à la construction de l'article. AR a conçu la structure de cet article et a réussi à exécuter les nouveaux algorithmes et à interpréter les résultats. AH et MB ont contribué à l'explication des méthodes mathématiques et à la discussion des résultats. Il a également examiné l'article pour les défauts et a ajouté quelques autres explications. et a également révisé le manuscrit pour vérification linguistique et quelques autres explications. KE était responsable de la partie collecte et illustration des données. Ils ont recueilli des données de différentes sources et vérifié leur fiabilité. Les auteurs ont lu et accepté la version publiée du manuscrit.

Correspondance à Abbas Rammal.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Rammal, A., Ezukwoke, K., Hoayek, A. et al. Prédiction des causes profondes des défaillances dans l'industrie des semi-conducteurs, une approche d'algorithme génétique et d'apprentissage automatique. Sci Rep 13, 4934 (2023). https://doi.org/10.1038/s41598-023-30769-8

Télécharger la citation

Reçu : 05 octobre 2022

Accepté : 28 février 2023

Publié: 27 mars 2023

DOI : https://doi.org/10.1038/s41598-023-30769-8

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER