Las salvaguardas en IA son medidas de seguridad y control implementadas en los
modelos de IA para garantizar que su comportamiento sea ético, seguro y beneficioso. Actúan como límites que previenen que el sistema genere contenido dañino o realice acciones inapropiadas.
Estas medidas de protección pueden incluir filtros de contenido, restricciones en temas sensibles, límites en el tipo de acciones que puede realizar el sistema, y reglas éticas incorporadas en su
entrenamiento. Por ejemplo, una salvaguarda típica evita que una IA genere contenido violento o ayude en actividades ilegales.
Las salvaguardas se implementan tanto durante el
entrenamiento del modelo como en su fase de uso, y se actualizan constantemente para adaptarse a nuevos retos y amenazas. Su objetivo es encontrar un equilibrio entre mantener la utilidad del sistema y garantizar su uso responsable, aunque algunas personas intentan eludirlas mediante técnicas como el
jailbreaking.