Maîtriser les termes de l'apprentissage automatique

20 juin 2023

Maîtriser les termes de l'apprentissage automatique

L'apprentissage automatique est partout autour de nous et il n'est pas surprenant que tout le monde veuille participer à l'action. C'est un domaine passionnant et plein de potentiel, mais il peut être difficile de s'y retrouver dans tout ce jargon.

Pour vous aider, nous avons compilé un glossaire complet des termes et définitions de l'apprentissage automatique !

Précision

La précision est une mesure utilisée pour évaluer les performances d'un modèle de classification. Elle représente la proportion de prédictions correctes faites par le modèle, exprimée en pourcentage.

Algorithme

Un algorithme d'apprentissage automatique est un ensemble d'instructions ou une méthode utilisée pour créer un modèle. Il s'agit d'appliquer des procédures spécifiques aux données, telles que la régression linéaire ou les arbres de décision, afin de générer le modèle d'apprentissage automatique souhaité.

Annotation

L'annotation dans l'apprentissage automatique implique l'ajout d'informations supplémentaires aux données. Plus précisément, il s'agit du processus d'attribution de catégories ou d'étiquettes prédéfinies aux documents et aux images. Ces données étiquetées sont ensuite utilisées pour former des modèles d'apprentissage automatique, en particulier pour les tâches de classification dans le cadre de l'apprentissage supervisé. Un exemple est l'attribution du chiffre "8" à une image d'un chiffre manuscrit dans une tâche de reconnaissance.

Réseau de neurones artificiels

Les réseaux neuronaux artificiels (RNA) sont des algorithmes d'apprentissage automatique inspirés de la structure et de la fonction des réseaux neuronaux biologiques présents dans le cerveau des animaux. Ils imitent la manière dont le cerveau humain traite et analyse les données. Les réseaux neuronaux artificiels sont constitués de neurones interconnectés, disposés en couches, qui effectuent des calculs complexes pour résoudre des problèmes, de la même manière que les humains les aborderaient.

Blogs apparentés :

Conseil en IA : Tout ce que vous devez savoir

10 tendances clés de l'IA à surveillerch Out for in 2024

Attribut

Un attribut est une caractéristique qui décrit une observation ou une instance. Dans un format de données structuré tel qu'un tableau, les attributs sont représentés par des colonnes, telles que la couleur, la taille ou le poids. Par exemple, lors de l'estimation de la température atmosphérique, des attributs tels que la pression atmosphérique et la vitesse du vent sont enregistrés pour déterminer la température du jour.

Biais

Le biais dans l'apprentissage automatique est la présence d'erreurs ou de défauts qui font que le modèle d'apprentissage automatique s'écarte de l'ensemble d'apprentissage, ce qui conduit à des résultats inexacts. Il se produit lorsque certains éléments de données se voient accorder une importance ou une représentation plus grande, ce qui entraîne des préjugés systématiques et des erreurs d'analyse.

Classification

La classification dans l'apprentissage automatique est une technique de modélisation prédictive qui catégorise les entrées de données en leur attribuant des étiquettes ou des catégories. Elle utilise des algorithmes tels que la régression logistique, Naive Bayes, les k-voisins les plus proches et les machines à vecteurs de support pour séparer les entrées en classes distinctes. Cette approche d'apprentissage supervisé permet de classer les données dans des catégories binaires ou multi-classes sur la base d'exemples étiquetés.

Seuil de classification

Le seuil de classification est une valeur décisive utilisée pour faire une détermination spécifique. Dans l'apprentissage automatique, par exemple, si un modèle prédit la présence d'un chat dans une image avec une certitude de X%, un critère prédéfini est fixé. Si le niveau de confiance dépasse 60%, la prédiction est considérée comme valide. Dans ce cas, la valeur seuil est de 60 pour la classification.

Regroupement

Le clustering est une technique d'apprentissage non supervisée de l'apprentissage automatique qui permet de regrouper des données non étiquetées sur la base de caractéristiques inhérentes. Elle vise à identifier des grappes ou des classes de points de données présentant des caractéristiques similaires tout en maintenant une distinction entre les différents groupes. En maximisant les similarités intra-groupes et en minimisant les similarités inter-groupes, les algorithmes de clustering tels que K-Means, Hierarchical Clustering et Affinity Clustering permettent de découvrir des modèles et des structures au sein des données.

Services d'apprentissage automatique StarTechUP

Variable continue

Les variables continues sont des types de variables qui peuvent prendre une gamme de valeurs définies par une échelle numérique. Elles comprennent des mesures telles que les chiffres de vente ou la durée de vie, qui peuvent s'étendre sur un continuum plutôt que d'être limitées à des valeurs discrètes spécifiques.

Convergence

La convergence est une étape de la formation d'un modèle d'apprentissage automatique au cours de laquelle la variation de la perte devient minimale entre les itérations successives. Cela signifie que le modèle a atteint un état stable ou la position minimale de la fonction de perte. Lorsque la variation du coût de la fonction de perte est négligeable, cela signifie que le modèle a convergé et qu'il est peu probable que d'autres ajustements se produisent.

Apprentissage profond

L'apprentissage profond est un sous-domaine de l'apprentissage automatique qui imite le fonctionnement du cerveau humain. Il utilise des réseaux neuronaux artificiels pour interpréter de grandes quantités de données structurées et non structurées, en identifiant des modèles et en prenant des décisions éclairées. En apprenant à partir de vastes ensembles de données, les réseaux d'apprentissage profond améliorent leur précision et leurs capacités de prise de décision.

Les algorithmes d'apprentissage profond, tels que les perceptrons et les perceptrons multicouches, ont fait l'objet d'une attention particulière en raison de leur succès dans divers domaines tels que la vision par ordinateur, le traitement des signaux, le diagnostic médical et la conduite autonome.

Dimension

En apprentissage automatique, le concept de dimension diffère de sa définition en physique. Dans ce contexte, la dimension fait référence au nombre de caractéristiques présentes dans un ensemble de données. Par exemple, dans la détection d'objets, la taille de l'image aplatie et les canaux de couleur (par exemple, 28x28x3) représentent des caractéristiques des données d'entrée. Essentiellement, la dimensionnalité reflète le nombre d'entrées ou de caractéristiques utilisées dans les algorithmes pour traiter et analyser les données.

Apprentissage d'ensemble

L'apprentissage d'ensemble est une approche qui permet d'obtenir un consensus de prédiction en combinant les propriétés distinctives de deux ou plusieurs modèles.

Époque

Dans le domaine de l'apprentissage automatique, une époque représente un passage complet d'un algorithme sur l'ensemble des données. En termes plus simples, 1 époque équivaut à 1 itération de l'algorithme sur l'ensemble des données.

Extrapolation

L'extrapolation consiste à faire des prédictions au-delà de l'ensemble des données. Par exemple, ce n'est pas parce que mon chien aboie que tous les chiens font de même. Dans l'apprentissage automatique, l'extrapolation au-delà des données d'apprentissage peut être problématique.

Taux de faux positifs (FPR)

Dans le domaine de l'apprentissage automatique, le taux de faux positifs (FPR) est une mesure utilisée pour évaluer les performances d'un modèle de classification. Il est calculé en divisant le nombre de prédictions faussement positives par le nombre total d'instances négatives réelles.

Formule du taux de faux positifs

Fonctionnalité

Dans l'apprentissage automatique, les caractéristiques désignent les attributs et les valeurs utilisés pour la formation, par exemple "température" comme attribut et "25° C" comme caractéristique correspondante.

Sélection des caractéristiques

La sélection des caractéristiques est le processus qui consiste à choisir les données pertinentes pour créer un modèle d'apprentissage automatique.

Accumulation de gradients

L'accumulation du gradient est un mécanisme utilisé pour diviser de grands lots d'échantillons pour l'entraînement de réseaux neuronaux en mini-lots plus petits qui s'exécutent de manière séquentielle. Cela permet d'utiliser des lots plus importants nécessitant plus de mémoire GPU que celle disponible.

Couches cachées

Dans les réseaux neuronaux, les couches cachées sont celles qui se trouvent entre les couches d'entrée et de sortie.

Hyperparamètres

Les hyperparamètres sont des propriétés d'un modèle qui régissent son comportement et ses performances. Il s'agit de paramètres de niveau supérieur qui déterminent des facteurs tels que la vitesse d'apprentissage (taux d'apprentissage) ou la complexité du modèle. La profondeur des arbres d'un arbre de décision ou le nombre de couches cachées d'un réseau neuronal sont des exemples d'hyperparamètres.

Instance

Une instance fait référence à un point de données ou à un échantillon spécifique au sein d'un ensemble de données. Elle représente une observation unique ou une ligne contenant des valeurs d'entités. Elle est synonyme d'"observation" et représente une seule unité de données au sein de l'ensemble de données.

Étiquette

Dans l'apprentissage supervisé, l'étiquette correspond à la "réponse" ou à la valeur cible associée à une observation. Par exemple, dans un ensemble de données utilisé pour classer les fleurs en différentes espèces sur la base de caractéristiques telles que la longueur et la largeur des pétales, l'étiquette indique l'espèce de la fleur.

Taux d'apprentissage

Le taux d'apprentissage est un paramètre qui contrôle la taille des étapes d'une optimisation telle que la descente de gradient. Un taux plus élevé couvre plus de terrain mais risque de dépasser le point le plus bas. Les taux faibles garantissent des étapes sûres dans la direction du gradient négatif, mais nécessitent des recalculs pour des temps de calcul plus longs.

Perte

La perte est une mesure de l'écart entre la valeur réelle et la valeur prédite dans l'apprentissage automatique. Elle est calculée en soustrayant la valeur prédite de la valeur réelle. Une perte plus faible indique un modèle plus performant, à moins que le modèle ne se soit surajouté aux données d'apprentissage.

Modèle

Un modèle est une structure de données qui contient les informations apprises par un algorithme d'apprentissage automatique appliqué à un ensemble de données. Il sert de sortie à l'algorithme et capture les connaissances acquises.

Traitement du langage naturel (NLP)

Le traitement du langage naturel (TLN) est un sous-domaine de l'intelligence artificielle qui se concentre sur le traitement des langues humaines. Il joue un rôle crucial dans la science des données et l'apprentissage automatique. À l'instar des conversations humaines, les algorithmes de TAL analysent la syntaxe (disposition des mots) et la sémantique (sens de la disposition) afin de comprendre et d'interpréter le langage avec précision.

Le NLP a diverses applications, telles que les services de chatbot, la reconnaissance vocale, la traduction automatique et les tâches quotidiennes telles que les moteurs de recherche et les fonctions d'autocorrection.

réseaux neuronaux

Réseaux neuronaux

Les réseaux neuronaux sont des algorithmes mathématiques qui imitent la structure et le fonctionnement du cerveau. Ils sont constitués de couches séquentielles de neurones interconnectés, ce qui leur permet d'analyser et de comprendre des schémas complexes dans les données.

Normalisation

La normalisation remet à l'échelle les valeurs des caractéristiques dans une fourchette standard. Elle est couramment utilisée dans les problèmes de régression pour éviter l'ajustement excessif, améliorer l'efficacité et obtenir de meilleures performances. En contraignant les poids dans le modèle et en normalisant l'ensemble de données, les calculs sont plus rapides.

Bruit

Le bruit est une information non pertinente ou aléatoire dans un ensemble de données qui masque les modèles sous-jacents.

Surajustement

Il y a surajustement lorsqu'un modèle est trop spécialisé dans l'apprentissage à partir des données d'apprentissage, ce qui entraîne l'incorporation de bruits et de détails spécifiques à cet ensemble de données. Il en résulte des performances médiocres sur de nouvelles données inédites et l'efficacité du modèle s'en trouve amoindrie.

Paramètres

Les paramètres sont des propriétés ou des variables qui sont apprises au cours du processus de formation d'un modèle d'apprentissage automatique. Ils sont spécifiques à chaque expérience et sont ajustés à l'aide d'algorithmes d'optimisation.

Précision

La précision est une mesure de performance utilisée dans la classification binaire pour évaluer la précision avec laquelle un modèle identifie les observations positives (par exemple, "Oui"). En termes plus simples, la précision répond à la question suivante : "Lorsque le modèle prédit un résultat positif, combien de fois est-il correct ? "Quand le modèle prédit un résultat positif, combien de fois est-il correct ?"

Rappel

Le rappel, également appelé sensibilité, est une mesure de classification binaire qui évalue la capacité du classificateur à détecter des instances positives. Il répond à la question suivante : "Combien de cas positifs réels le classificateur a-t-il correctement identifiés ? "Combien d'instances positives réelles le classificateur a-t-il correctement identifiées ?"

Régression

La régression dans l'apprentissage automatique consiste à prédire des résultats continus en analysant les relations entre les variables. Elle permet aux entreprises de prendre des décisions éclairées sur la base de données claires et interprétables, telles que la prévision des prix ou des ventes à l'aide de données numériques et d'algorithmes de régression comme les modèles linéaires.

Régularisation

La régularisation est une méthode utilisée pour traiter le surajustement en introduisant une pénalité pour les modèles complexes dans la fonction de perte, ce qui permet d'éviter une complexité excessive dans le modèle appris.

Apprentissage par renforcement

L'apprentissage par renforcement est une branche de l'apprentissage automatique dans laquelle un algorithme apprend par essais et erreurs à maximiser les récompenses en fonction de ses actions dans un environnement donné. Il s'agit d'entraîner un modèle à prendre une série de décisions, en recevant des récompenses ou des pénalités en fonction de ses actions, afin de maximiser la récompense globale.

Segmentation

La segmentation consiste à diviser un ensemble de données en plusieurs ensembles distincts. Cette division est effectuée de manière à ce que les membres d'un même ensemble soient similaires les uns aux autres tout en étant différents des membres des autres ensembles.

Apprentissage supervisé

L'apprentissage supervisé est une méthode d'apprentissage automatique qui consiste à former des algorithmes à l'aide d'ensembles de données étiquetés afin de classer les données et de faire des prédictions. L'ensemble de données étiqueté fournit des paires entrée-sortie, permettant à l'algorithme d'apprendre des modèles et de prédire des données inédites. Elle comprend des techniques telles que la régression, la classification et la prévision et utilise des outils tels que les arbres de décision pour les tâches de classification.

Ensemble de tests

Un ensemble de test est une collection d'échantillons de données utilisés pour évaluer les performances d'un modèle d'apprentissage automatique formé. Il sert à mesurer la capacité du modèle à généraliser ses prédictions à des données inédites.

Ensemble de formation

Un ensemble d'apprentissage est une collection d'observations qui sert de base à la génération de modèles d'apprentissage automatique.

Apprentissage par transfert

L'apprentissage par transfert est une technique d'apprentissage automatique dans laquelle les connaissances acquises lors de la formation d'un modèle sur une tâche sont utilisées comme base pour la formation d'un modèle sur une tâche différente. Au lieu de partir de zéro, les poids pré-entraînés d'un modèle existant sont utilisés, en tirant parti des caractéristiques apprises précédemment.

Taux de vrais positifs

Dans le domaine de l'apprentissage automatique, le taux de vrais positifs est également connu sous le nom de sensibilité ou de rappel. Il s'agit d'une mesure de performance utilisée dans les tâches de classification binaire. Il mesure la capacité d'un modèle à identifier correctement les exemples positifs parmi les exemples positifs réels de l'ensemble de données.

Erreur de type 1

Une erreur de type 1 est appelée "faux positifs". Dans le domaine de l'embauche, elle se produit lorsqu'un candidat semble correspondre au profil recherché, mais s'avère être une mauvaise recrue.

Erreur de type 2

Les erreurs de type 2, également connues sous le nom de faux négatifs. Dans ce cas, le candidat a réussi toutes les évaluations mais n'a pas été engagé.

Sous-adaptation

Il y a sous-adaptation lorsqu'un modèle sur-généralise et ne tient pas compte des variations pertinentes des données qui ajoutent au pouvoir prédictif. Vous pouvez identifier un sous-ajustement lorsqu'un modèle donne des résultats médiocres à la fois sur les ensembles d'apprentissage et de test.

Apprentissage non supervisé

L'apprentissage non supervisé est un type d'apprentissage automatique qui permet aux algorithmes d'apprendre sans avoir besoin d'instructions explicites ou de points de données. En analysant et en trouvant une structure dans des ensembles de données non étiquetées, ces algorithmes peuvent découvrir des modèles cachés et générer des résultats sans interférence.

Ensemble de validation

Observations utilisées pendant l'apprentissage du modèle pour évaluer la généralisation au-delà de l'ensemble d'apprentissage. Si l'erreur d'apprentissage diminue, mais que l'erreur de validation augmente, votre modèle est surajusté et vous devez interrompre la formation.

Variance

La variance mesure à quel point vos prédictions sont proches les unes des autres pour une observation donnée. Une faible variance signifie que les prédictions sont cohérentes, tandis qu'une variance élevée indique un surajustement et une trop grande attention portée au bruit dans l'ensemble d'apprentissage.

Avez-vous besoin de services d'apprentissage automatique ?

Maintenant que vous connaissez tous les termes à la mode, pourquoi ne pas travailler avec une équipe d'experts pour vous aider à tirer parti de la puissance de l'apprentissage automatique ?

Chez StarTechUP, nous nous spécialisons dans l'aide aux entreprises pour le développement d'applications personnalisées. Solutions d'apprentissage automatique adaptés à leurs besoins particuliers. Nous proposons également application mobile et services de développement web pour vous aider à tirer le meilleur parti de vos modèles d'apprentissage automatique.

Nous contacter aujourd'hui pour plus d'informations !

A propos de l'auteur : Andrea Jacinto - Rédacteur de contenu

Rédactrice de contenu dotée d'une solide expérience en matière de référencement, Andrea a travaillé avec des spécialistes du marketing numérique de différents domaines pour créer des articles optimisés qui sont informatifs, digestes et agréables à lire. Aujourd'hui, elle écrit pour StarTechUP afin de présenter les derniers développements technologiques aux lecteurs du monde entier. Vue sur Linkedin

PLUS D'INFOS