Les salvaguardes en IA són mesures de seguretat i control implementades en els
models d'IA per garantir que el seu comportament sigui ètic, segur i beneficiós. Actuen com a límits que prevenen que el sistema generi contingut nociu o realitzi accions inadequades.
Aquestes mesures de protecció poden incloure filtres de contingut, restriccions en temes sensibles, límits en el tipus d'accions que pot realitzar el sistema, i regles ètiques incorporades en el seu
entrenament. Per exemple, una salvaguarda típica evita que una IA generi contingut violent o ajudi en activitats il·legals.
Les salvaguardes s'implementen tant durant l'
entrenament del model com en la seva fase d'ús, i s'actualitzen constantment per adaptar-se a nous reptes i amenaces. El seu objectiu és trobar un equilibri entre mantenir la utilitat del sistema i garantir el seu ús responsable, tot i que algunes persones intenten eludir-les mitjançant tècniques com el
jailbreaking.