El sobreajuste es un problema en
inteligencia artificial donde un
modelo de IA aprende con demasiada precisión los datos de
entrenamiento (
datasets), incluyendo el ruido y las excepciones, lo que provoca que funcione bien con esos datos pero mal con datos nuevos.
Imagina un estudiante que memoriza las respuestas exactas de exámenes anteriores en lugar de comprender los conceptos. Cuando se enfrenta a preguntas nuevas pero similares, falla porque no ha
aprendido a generalizar. Esto mismo ocurre con los
modelos de IA que sufren sobreajuste.
En términos técnicos, un modelo sobreajustado ha captado
patrones específicos y ruido de los datos de
entrenamiento que no representan la realidad general. Por ejemplo, un modelo de reconocimiento de imágenes podría
aprender a identificar gatos basándose en detalles irrelevantes que aparecían en las fotos de
entrenamiento, como una marca de agua o cierto fondo.
Para combatir el sobreajuste, los científicos de datos utilizan técnicas como la validación cruzada (probar el modelo con datos que no ha visto durante el
entrenamiento), la regularización (penalizar la complejidad excesiva del modelo) o el aumento de datos (crear más ejemplos variados para
entrenar). El objetivo es conseguir un equilibrio: un modelo lo suficientemente complejo para captar
patrones importantes, pero no tanto como para "memorizar" los datos de
entrenamiento.