Salvaguardas

Safeguards
Las salvaguardas en IA son medidas de seguridad y control implementadas en los modelos de IA para garantizar que su comportamiento sea ético, seguro y beneficioso. Actúan como límites que previenen que el sistema genere contenido dañino o realice acciones inapropiadas.
Estas medidas de protección pueden incluir filtros de contenido, restricciones en temas sensibles, límites en el tipo de acciones que puede realizar el sistema, y reglas éticas incorporadas en su entrenamiento. Por ejemplo, una salvaguarda típica evita que una IA genere contenido violento o ayude en actividades ilegales.

Las salvaguardas se implementan tanto durante el entrenamiento del modelo como en su fase de uso, y se actualizan constantemente para adaptarse a nuevos retos y amenazas. Su objetivo es encontrar un equilibrio entre mantener la utilidad del sistema y garantizar su uso responsable, aunque algunas personas intentan eludirlas mediante técnicas como el jailbreaking.

Definiciones relacionadas

Trustpilot
Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso.