Dominio de los términos del aprendizaje automático

20 de junio de 2023

Dominio de los términos del aprendizaje automático

El aprendizaje automático nos rodea por todas partes y no es de extrañar que todo el mundo quiera entrar en acción. Es un campo apasionante con mucho potencial, pero puede resultar difícil entender toda la jerga.

Para ayudarle, hemos recopilado un completo glosario de términos y definiciones de aprendizaje automático.

Precisión

La precisión es una métrica utilizada para evaluar el rendimiento de un modelo de clasificación. Representa la proporción de predicciones correctas realizadas por el modelo, expresada en porcentaje.

Algoritmo

Un algoritmo en aprendizaje automático es un conjunto de instrucciones o un método utilizado para crear un modelo. Consiste en aplicar procedimientos específicos a los datos, como la regresión lineal o los árboles de decisión, para generar el modelo de aprendizaje automático deseado.

Anotación

La anotación en el aprendizaje automático consiste en añadir información adicional a los datos. En concreto, es el proceso de asignar categorías o etiquetas predefinidas a documentos e imágenes. Estos datos etiquetados se utilizan después para entrenar modelos de aprendizaje automático, en particular para tareas de clasificación mediante aprendizaje supervisado. Un ejemplo es asignar el dígito "8" a una imagen de un número escrito a mano en una tarea de reconocimiento.

Red neuronal artificial

Las redes neuronales artificiales (RNA) son algoritmos de aprendizaje automático inspirados en la estructura y el funcionamiento de las redes neuronales biológicas del cerebro animal. Imitan la forma en que el cerebro humano procesa y analiza los datos. Las RNA están formadas por neuronas interconectadas dispuestas en capas que realizan cálculos complejos para resolver problemas, de forma muy parecida a como lo harían los humanos.

Blogs relacionados:

Consultoría de IA: Todo lo que necesita saber

10 tendencias clave de la inteligencia artificialch Out para 2024

Atributo

Un atributo es una característica que describe una observación o instancia. En un formato de datos estructurado como una tabla, los atributos se representan mediante columnas, como el color, el tamaño o el peso. Por ejemplo, al estimar la temperatura atmosférica, se registran atributos como la presión atmosférica y la velocidad del viento para determinar la temperatura actual.

Sesgo

El sesgo en el aprendizaje automático es la presencia de errores o fallos que hacen que el modelo de aprendizaje automático se desvíe del conjunto de entrenamiento, dando lugar a resultados inexactos. Se produce cuando se da mayor importancia o representación a determinados elementos de los datos, lo que da lugar a prejuicios sistemáticos y errores analíticos.

Clasificación

La clasificación en el aprendizaje automático es una técnica de modelado predictivo que clasifica los datos de entrada asignándoles etiquetas o categorías. Utiliza algoritmos como la regresión logística, Naive Bayes, k-vecinos más cercanos y máquinas de vectores de soporte para separar las entradas en clases distintas. Este enfoque de aprendizaje supervisado permite clasificar los datos en categorías binarias o multiclase a partir de ejemplos etiquetados.

Umbral de clasificación

El umbral de clasificación es un valor decisivo utilizado para tomar una determinación concreta. En el aprendizaje automático, por ejemplo, si un modelo predice la presencia de un gato en una imagen con una certeza de X%, se establece un criterio predefinido. Si el nivel de confianza supera 60%, la predicción se considera válida. En este caso, el valor umbral es 60 para la clasificación.

Agrupación

La agrupación es una técnica de aprendizaje no supervisado en el aprendizaje automático que agrupa datos no etiquetados basándose en características inherentes. Su objetivo es identificar conglomerados o clases de puntos de datos con rasgos similares, manteniendo al mismo tiempo una distinción entre los distintos grupos. Al maximizar las similitudes intraclúster y minimizar las similitudes interclúster, los algoritmos de clustering como K-Means, Clustering Jerárquico y Clustering de Afinidad ayudan a descubrir patrones y estructuras dentro de los datos.

Servicios de aprendizaje automático de StarTechUP

Variable continua

Las variables continuas son tipos de variables que pueden adoptar una gama de valores definidos por una escala numérica. Incluyen medidas como las cifras de ventas o la esperanza de vida, que pueden abarcar un continuo en lugar de limitarse a valores discretos específicos.

Convergencia

La convergencia es una fase del entrenamiento de un modelo de aprendizaje automático en la que el cambio en la pérdida es mínimo entre iteraciones sucesivas. Significa que el modelo ha alcanzado un estado estable o la posición mínima de la función de pérdida. Cuando el cambio en el coste de la función de pérdida es insignificante, indica que el modelo ha convergido y es improbable que se produzcan más ajustes.

Aprendizaje profundo

El aprendizaje profundo es un subcampo del aprendizaje automático que imita el funcionamiento del cerebro humano. Utiliza redes neuronales artificiales para interpretar grandes cantidades de datos estructurados y no estructurados, identificar patrones y tomar decisiones fundamentadas. Al aprender de vastos conjuntos de datos, las redes de aprendizaje profundo mejoran su precisión y su capacidad de toma de decisiones.

Los algoritmos de aprendizaje profundo, como los perceptrones y los perceptrones multicapa, han ganado una atención significativa debido a su éxito en diversos dominios como la visión por ordenador, el procesamiento de señales, el diagnóstico médico y la conducción autónoma.

Dimensión

En el aprendizaje automático, el concepto de dimensión difiere de su definición en física. En este contexto, la dimensión se refiere al número de características presentes en un conjunto de datos. Por ejemplo, en la detección de objetos, el tamaño aplanado de la imagen y los canales de color (por ejemplo, 28x28x3) representan características de los datos de entrada. Esencialmente, la dimensionalidad refleja el número de entradas o características utilizadas en los algoritmos para procesar y analizar los datos.

Aprendizaje por conjuntos

El aprendizaje por conjuntos es un método para lograr el consenso en las predicciones mediante la combinación de las propiedades distintivas de dos o más modelos.

Época

En el aprendizaje automático, una época representa una pasada completa de un algoritmo por todo el conjunto de datos. En términos más sencillos, 1 época equivale a 1 iteración del algoritmo sobre el conjunto completo de datos.

Extrapolación

La extrapolación implica hacer predicciones más allá del conjunto de datos. Por ejemplo, que mi perro ladre no significa que todos los perros lo hagan. En el aprendizaje automático, extrapolar más allá de los datos de entrenamiento puede ser problemático.

Tasa de falsos positivos (FPR)

En el aprendizaje automático, la tasa de falsos positivos (FPR) es una métrica utilizada para evaluar el rendimiento de un modelo de clasificación. Se calcula dividiendo el número de predicciones falsas positivas por el número total de instancias negativas reales.

Fórmula de la tasa de falsos positivos

Característica

En el aprendizaje automático, las características se refieren a los atributos y valores utilizados para el entrenamiento, como "temperatura" como atributo y "25° C" como característica correspondiente.

Selección de características

La selección de características es el proceso de elección de datos relevantes para crear un modelo de aprendizaje automático.

Acumulación de gradientes

La acumulación de gradientes es un mecanismo utilizado para dividir grandes lotes de muestras para el entrenamiento de redes neuronales en minilotes más pequeños que se ejecutan secuencialmente. Esto permite utilizar lotes de mayor tamaño que requieren más memoria de GPU de la disponible.

Capas ocultas

Las capas ocultas en las redes neuronales se refieren a las capas que existen entre las capas de entrada y salida.

Hiperparámetros

Los hiperparámetros son propiedades de un modelo que rigen su comportamiento y rendimiento. Son ajustes de alto nivel que determinan factores como la velocidad de aprendizaje o la complejidad del modelo. Algunos ejemplos de hiperparámetros son la profundidad de los árboles en un árbol de decisión o el número de capas ocultas en una red neuronal.

Instancia

Una instancia se refiere a un punto de datos específico o a una muestra dentro de un conjunto de datos. Representa una única observación o una fila que contiene valores de características. Es sinónimo de "observación" y representa una única unidad de datos dentro del conjunto de datos.

Etiqueta

En el aprendizaje supervisado, la etiqueta corresponde a la "respuesta" o al valor objetivo asociado a una observación. Por ejemplo, en un conjunto de datos utilizado para clasificar flores en distintas especies basándose en características como la longitud y la anchura de los pétalos, la etiqueta indicaría la especie de la flor.

Tasa de aprendizaje

La tasa de aprendizaje es un parámetro que controla el tamaño de los pasos en la optimización, como el Descenso Gradiente. Una tasa más alta cubre más terreno pero corre el riesgo de sobrepasar el punto más bajo. Las tasas bajas garantizan pasos seguros en la dirección negativa del gradiente, pero requieren recálculos y tiempos de cálculo más largos.

Pérdida

La pérdida es una medida de la discrepancia entre el valor real y el valor predicho en el aprendizaje automático. Se calcula restando el valor predicho del valor real. Una pérdida menor indica un modelo con mejores resultados, a menos que el modelo se haya ajustado en exceso a los datos de entrenamiento.

Modelo

Un modelo es una estructura de datos que contiene la información aprendida de un algoritmo de aprendizaje automático aplicado a un conjunto de datos. Sirve como salida del algoritmo, capturando el conocimiento adquirido.

Procesamiento del lenguaje natural (PLN)

El Procesamiento del Lenguaje Natural (PLN) es un subcampo de la inteligencia artificial que se centra en el procesamiento de las lenguas humanas. Desempeña un papel crucial en la ciencia de datos y el aprendizaje automático. Al igual que las conversaciones humanas, los algoritmos de PNL analizan la sintaxis (disposición de las palabras) y la semántica (significado de la disposición) para comprender e interpretar el lenguaje con precisión.

La PNL tiene diversas aplicaciones, como los servicios de chatbot, el reconocimiento de voz, la traducción automática y tareas cotidianas como los motores de búsqueda y las funciones de autocorrección.

redes neuronales

Redes neuronales

Las redes neuronales son algoritmos matemáticos que imitan la estructura y el funcionamiento del cerebro. Están formadas por capas secuenciales de neuronas interconectadas, lo que les permite analizar y comprender patrones complejos en los datos.

Normalización

La normalización reajusta los valores de las características a un intervalo estándar, que se suele utilizar en problemas de regresión para evitar el sobreajuste, mejorar la eficacia y obtener un mejor rendimiento. Al limitar los pesos del modelo y normalizar el conjunto de datos, los cálculos son más rápidos.

Ruido

El ruido es información irrelevante o aleatoria en un conjunto de datos que oculta los patrones subyacentes.

Sobreajuste

Se habla de sobreajuste cuando un modelo se especializa demasiado en el aprendizaje a partir de los datos de entrenamiento, lo que provoca la incorporación de ruido y detalles específicos de ese conjunto de datos. Esto conduce a un rendimiento deficiente en datos nuevos y desconocidos y socava la eficacia del modelo.

Parámetros

Los parámetros son propiedades o variables que se aprenden durante el proceso de entrenamiento de un modelo de aprendizaje automático. Son específicos de cada experimento y se ajustan mediante algoritmos de optimización.

Precisión

La precisión es una métrica de rendimiento utilizada en la clasificación binaria para evaluar la exactitud con la que un modelo identifica observaciones positivas (por ejemplo, "Sí"). En términos más sencillos, la precisión responde a la pregunta: "Cuando el modelo predice un resultado positivo, ¿con qué frecuencia acierta?".

Recall

La recuperación, también llamada sensibilidad, es una métrica de clasificación binaria que mide la capacidad del clasificador para detectar casos positivos. Responde a la pregunta "¿Cuántas de las instancias positivas reales identificó correctamente el clasificador?".

Regresión

La regresión en el aprendizaje automático implica la predicción de resultados continuos mediante el análisis de las relaciones entre variables. Permite a las empresas tomar decisiones informadas basadas en datos claros e interpretables, como la predicción de precios o ventas mediante datos numéricos y algoritmos de regresión como los modelos lineales.

Regularización

La regularización es un método utilizado para abordar el sobreajuste mediante la introducción de una penalización para los modelos complejos en la función de pérdida, lo que ayuda a evitar una complejidad excesiva en el modelo aprendido.

Aprendizaje por refuerzo

El aprendizaje por refuerzo es una rama del aprendizaje automático en la que un algoritmo aprende por ensayo y error a maximizar las recompensas en función de sus acciones en un entorno determinado. Consiste en entrenar a un modelo para que tome una serie de decisiones y reciba recompensas o penalizaciones en función de sus acciones, con el fin de maximizar la recompensa global.

Segmentación

La segmentación es el proceso de dividir un conjunto de datos en varios conjuntos distintos. Esta división se lleva a cabo de forma que los miembros de un mismo conjunto sean similares entre sí, pero diferentes de los miembros de otros conjuntos.

Aprendizaje supervisado

El aprendizaje supervisado es un método de aprendizaje automático que consiste en entrenar algoritmos utilizando conjuntos de datos etiquetados para clasificar datos y hacer predicciones. El conjunto de datos etiquetados proporciona pares de entrada-salida, lo que permite al algoritmo aprender patrones y predecir datos no vistos. Incluye técnicas como la regresión, la clasificación y la predicción, y emplea herramientas como los árboles de decisión para tareas de clasificación.

Conjunto de pruebas

Un conjunto de pruebas es una colección de muestras de datos que se utilizan para evaluar el rendimiento de un modelo de aprendizaje automático entrenado. Sirve para medir hasta qué punto el modelo puede generalizar sus predicciones a datos desconocidos.

Conjunto de entrenamiento

Un conjunto de entrenamiento se refiere a una colección de observaciones que sirven de base para generar modelos de aprendizaje automático.

Aprendizaje por transferencia

El aprendizaje por transferencia es una técnica de aprendizaje automático en la que los conocimientos adquiridos al entrenar un modelo en una tarea se utilizan como base para entrenar un modelo en una tarea diferente. En lugar de empezar de cero, se emplean los pesos preentrenados de un modelo existente, aprovechando las características aprendidas previamente.

Tasa de verdaderos positivos

En el aprendizaje automático, la tasa de verdaderos positivos también se conoce como sensibilidad o recuerdo. Es una métrica de rendimiento utilizada en tareas de clasificación binaria. Mide la capacidad de un modelo para identificar correctamente los casos positivos a partir de los ejemplos positivos reales del conjunto de datos.

Error de tipo 1

Un error de tipo 1 se denomina falsos positivos. En el ámbito de la contratación, se produce cuando un candidato parece ser adecuado, pero resulta ser un mal candidato.

Error de tipo 2

Errores de tipo 2, también conocidos como falsos negativos. En este caso, el candidato superó todas las evaluaciones pero no fue contratado.

Insuficiente

La inadaptación se produce cuando un modelo generaliza en exceso y pasa por alto variaciones relevantes de los datos que añaden poder predictivo. La inadaptación se detecta cuando un modelo obtiene malos resultados tanto en los conjuntos de entrenamiento como en los de prueba.

Aprendizaje no supervisado

El aprendizaje no supervisado es un tipo de aprendizaje automático que permite a los algoritmos aprender sin necesidad de instrucciones explícitas o puntos de datos. Al analizar y encontrar estructuras en conjuntos de datos no etiquetados, estos algoritmos pueden descubrir patrones ocultos y generar resultados sin interferencias.

Conjunto de validación

Observaciones utilizadas durante el entrenamiento del modelo para evaluar la generalización más allá del conjunto de entrenamiento. Si el error de entrenamiento disminuye, pero el error de validación aumenta, el modelo está sobreajustado y debe interrumpir el entrenamiento.

Desviación

La varianza mide la proximidad de las predicciones para una observación determinada. Una varianza baja significa predicciones coherentes, mientras que una varianza alta indica un exceso de ajuste y demasiada atención al ruido en el conjunto de entrenamiento.

¿Necesita servicios de aprendizaje automático?

Ahora que conoce todas las palabras de moda, ¿por qué no trabaja con un equipo de expertos que le ayuden a aprovechar el poder del aprendizaje automático?

En StarTechUP, nos especializamos en ayudar a las empresas a desarrollar Soluciones de aprendizaje automático a la medida de sus necesidades. También ofrecemos aplicaciones móviles y servicios de desarrollo web para ayudarle a sacar el máximo partido de sus modelos de aprendizaje automático.

Contacto con nosotros para más información.

Sobre el autor: Andrea Jacinto - Redactor de contenidos

Escritora de contenidos con una sólida formación en SEO, Andrea ha estado trabajando con vendedores digitales de diferentes campos para crear artículos optimizados que sean informativos, digeribles y divertidos de leer. Ahora, escribe para StarTechUP con el fin de ofrecer los últimos avances en tecnología a los lectores de todo el mundo. Ver en Linkedin

MÁS INFORMACIÓN