El sobreajustament és un problema en
intel·ligència artificial on un
model d'IA aprèn amb massa precisió les dades d'
entrenament (
datasets), incloent el soroll i les excepcions, fet que provoca que funcioni bé amb aquestes dades però malament amb dades noves.
Imagina un estudiant que memoritza les respostes exactes d'exàmens anteriors en lloc de comprendre els conceptes. Quan s'enfronta a preguntes noves però similars, fracassa perquè no ha
après a generalitzar. Això mateix passa amb els
models d'IA que pateixen sobreajustament.
En termes tècnics, un model sobreajustat ha captat
patrons específics i soroll de les dades d'
entrenament que no representen la realitat general. Per exemple, un model de reconeixement d'imatges podria
aprendre a identificar gats basant-se en detalls irrellevants que apareixien a les fotos d'
entrenament, com una marca d'aigua o un cert fons.
Per combatre el sobreajustament, els científics de dades utilitzen tècniques com la validació creuada (provar el model amb dades que no ha vist durant l'
entrenament), la regularització (penalitzar la complexitat excessiva del model) o l'augment de dades (crear més exemples variats per
entrenar). L'objectiu és aconseguir un equilibri: un model prou complex per captar
patrons importants, però no tant com per "memoritzar" les dades d'
entrenament.