Descubre cómo Anthropic está transformando la seguridad de la IA con cambios sorprendentes que no te puedes perder
hace 30 segundos

El avance de la inteligencia artificial (IA) está generando tanto oportunidades como desafíos significativos. En este contexto, la empresa Anthropic ha dado un paso importante al actualizar su política de seguridad para la IA, enfocándose en la gestión de riesgos y la transparencia. Esta revisión no solo marca un cambio en su enfoque interno, sino que también puede tener implicaciones para la industria de la IA y para países como México, donde la adopción de estas tecnologías está en aumento.
Actualización de la política de seguridad de Anthropic
Anthropic ha presentado la Versión 3.0 de su Política de Escalado Responsable (RSP), que establece un marco más robusto para la gestión de riesgos catastróficos asociados con sistemas de IA cada vez más capaces. Este cambio se produce en un momento en que las capacidades de los modelos de IA están avanzando rápidamente, lo que plantea nuevos desafíos de gobernanza.
La nueva versión de la RSP incorpora mecanismos de transparencia innovadores, tales como:
- Informes de Riesgo periódicos que se publicarán cada 3 a 6 meses.
- Revisión externa por expertos del sector para evaluar la seguridad de los modelos.
- Un Mapa de Seguridad Fronteriza que delineará los objetivos de seguridad y alineación de la IA.
Estas medidas buscan abordar la creciente incertidumbre sobre cómo determinar cuándo los sistemas de IA superan umbrales de capacidad peligrosos, un dilema que afecta a reguladores, empresas y responsables políticos.
¿Por qué se actualizó la política ahora?
Después de operar bajo las versiones anteriores de la RSP durante dos años, Anthropic ha aprendido que los límites de capacidad de la IA se están volviendo cada vez más difíciles de determinar. Esto ha llevado a la empresa a realizar ajustes en su enfoque de seguridad.
Entre las motivaciones principales para esta actualización se encuentran:
- El desarrollo acelerado de capacidades de IA que requieren un enfoque más proactivo en la gestión de riesgos.
- La necesidad de una transparencia mejorada para generar confianza pública y colaboración.
- Reconocimiento de la importancia de la revisión externa para validar las decisiones de seguridad.
El marco de la Política de Escalado Responsable
La Política de Escalado Responsable fue inicialmente introducida en septiembre de 2023 con el objetivo de gestionar riesgos de IA emergentes. Al principio, los modelos de lenguaje grandes eran herramientas principalmente conversacionales, pero han evolucionado para realizar acciones más complejas, como:
- Navegar por la web.
- Escribir y ejecutar código.
- Operar en entornos informáticos de manera autónoma.
A medida que estos modelos se vuelven más capaces, surgen nuevas categorías de riesgo, desde la investigación biológica hasta el robo de datos. La RSP se basa en compromisos condicionales que aseguran que si un modelo supera un umbral de capacidad definido, se implementen salvaguardias adicionales antes de su despliegue.
Resultados de la implementación de la RSP
Desde la introducción de la RSP, Anthropic ha observado resultados mixtos. Aunque algunas estrategias han funcionado como se esperaba, otras han presentado dificultades en su implementación:
- Desarrollo acelerado de mejoras en las salvaguardias de seguridad ASL-3.
- Adopción de marcos de seguridad comparables por otros laboratorios de IA.
- Dificultades continuas para determinar cuándo los modelos avanzados cruzan umbrales de riesgo definidos.
Estos resultados resaltan la necesidad de un enfoque flexible y adaptativo en la gestión de riesgos de IA, especialmente en un entorno donde las capacidades de los modelos continúan evolucionando.
Nuevas medidas de seguridad introducidas en la RSP 3.0
La Versión 3.0 de la RSP introduce tres enfoques clave para mejorar la gestión del riesgo y la seguridad:
Separación de acciones de la empresa y recomendaciones de la industria
Anthropic ha decidido diferenciar entre las acciones que tomará como empresa y lo que considera necesario a nivel industrial. Esto incluye dos vías:
- Compromisos de la empresa: Salvaguardias que Anthropic se compromete a implementar independientemente de lo que hagan otros actores.
- Recomendaciones de la industria: Un mapa más ambicioso que describe lo que se requeriría para mitigar riesgos potenciales en un contexto de acción coordinada.
Desarrollo del Mapa de Seguridad Fronteriza
Anthropic se compromete a desarrollar un Mapa de Seguridad Fronteriza que describa objetivos concretos en cuatro áreas clave:
- Seguridad: Proteger los sistemas y los pesos del modelo contra robos o compromisos.
- Alineación: Asegurar que los sistemas sigan reglas y limitaciones deseadas.
- Salvaguardias: Prevenir el uso indebido y gestionar riesgos de despliegue.
- Política: Propuestas destinadas a guiar la supervisión a medida que aumentan los riesgos.
Informes de Riesgo y revisión externa
La versión 3.0 enfatiza la importancia de los Informes de Riesgo, que se publicarán periódicamente y ofrecerán información detallada sobre el perfil de seguridad de los modelos de Anthropic. Estos informes incluirán:
- Capacidades del modelo.
- Modelos de amenaza definidos que describen cómo los sistemas pueden presentar riesgos.
- Mitigaciones de riesgo activas.
La empresa también planea involucrar a revisores externos para evaluar sus decisiones de seguridad, lo que podría mejorar la confianza pública en sus prácticas.
Implicaciones para México y la industria de la IA
La actualización de la política de seguridad de Anthropic tiene repercusiones que se extienden más allá de la empresa misma. En México, donde la adopción de tecnologías de IA está aumentando, es fundamental que las empresas también consideren implementar medidas de seguridad y transparencia similares. La implementación de un marco de seguridad robusto puede ayudar a mitigar riesgos y fomentar la confianza entre los consumidores y las empresas.
Además, el diálogo sobre la regulación de la IA en México podría beneficiarse de un enfoque más colaborativo, similar al que Anthropic está promoviendo. La creación de estándares que aborden los riesgos emergentes puede ser esencial para el desarrollo sostenible de la IA en el país.
En resumen, la actualización de la RSP de Anthropic representa un esfuerzo significativo por abordar los riesgos asociados con la IA avanzada, y su enfoque en la transparencia y la colaboración podría servir como modelo para otros actores de la industria, incluida la creciente comunidad de IA en México.

Deja una respuesta