Una herramienta gratuita de GitHub le quita los guardarraíles de seguridad a los modelos de IA de pesos abiertos en minutos, según una investigación del FT
Una herramienta gratuita llamada Heretic, alojada en GitHub, puede quitarles los guardarraíles de seguridad a los modelos de IA de pesos abiertos en tan solo unos minutos usando una laptop que cuesta alrededor de 400 dólares, según una investigación conjunta del Financial Times y el grupo de investigación en seguridad de IA Alice publicada el 25 de mayo. Una vez despojados, los modelos que antes se negaban ahora devuelven instrucciones para explosivos, producción de metanfetamina, planeación de tiroteos escolares y la creación de llamadas fraudulentas. (Fuente: NPR)
Heretic automatiza un proceso llamado “abliteración”, que elimina quirúrgicamente el comportamiento de rechazo de un modelo, y se ha vuelto más popular en GitHub desde febrero. Funciona con modelos de pesos abiertos de OpenAI, Alibaba, DeepSeek y otros. Hugging Face, que aloja modelos de código abierto, ahora lista más de 6,000 modelos abliterados, frente a los 600 que había en 2024. (Fuente: NPR)
“Cualquiera puede descargar y operar su propio modelo de última generación y usarlo para cosas buenas y cosas terribles”, dijo Noam Schwartz, director ejecutivo de Alice.
Después de que legisladores de la Cámara de Representantes asistieran en abril a una demostración del National Counterterrorism Innovation, Technology, and Education Center, el representante Andy Ogles (R - Nashville) dijo que el contenido “puede convertirse en un arma y usarse para manipular a la gente, destruir vidas”. Un análisis aparte determinó que los guardarraíles podían eliminarse en minutos usando herramientas gratuitas y disponibles públicamente. (Fuente: Lexology)

