El hacker enviado por Anthropic para calmar los nervios del Gobierno sobre la seguridad de la IA

Nicholas Carlini ha alertado recientemente sobre los peligros de la IA, y ahora forma parte de un equipo que aboga por que se lancen los modelos más recientes Leer

Funcionarios de la administración Trump han pasado los últimos días inquietos por el potencial del software de IA de próxima generación de Anthropic para causar estragos en la ciberseguridad global. Para un grupo de 700 investigadores de ciberseguridad, ese sorprendente descubrimiento llegó en marzo.. Fue entonces cuando el investigador de Anthropic Nicholas Carlini demostró lo fácil que se había vuelto utilizar los nuevos modelos para irrumpir en sistemas. Este larguirucho hombre de 35 años es un hacker muy respetado, considerado el «escéptico profesional» del sector respecto a las afirmaciones sobre ciberseguridad de la IA. Pero últimamente había cambiado de opinión.. A inicios de ese mes, apenas unas semanas después de tener en sus manos Mythos, Carlini lanzó una dura advertencia a un auditorio abarrotado de expertos en ciberseguridad, en el ornamentado edificio beaux-arts que en su día albergó el Hibernia Bank de San Francisco.. Primero les mostró cómo había utilizado la IA de Anthropic para encontrar y explotar un fallo crítico en un software de publicación web llamado Ghost. Luego demostró otro en el sistema operativo Linux, una de las piezas de software más probadas que hace funcionar miles de millones de dispositivos.. Carlini nunca había encontrado un fallo en Linux ni en Ghost y ahora había descubierto muchos. Lo que estaba viendo representaba un nuevo orden mundial para la ciberseguridad. El equilibrio que existió entre atacantes y defensores durante las últimas dos décadas «parece que probablemente está llegando a su fin», afirmó. «Para mí está bastante claro que estos modelos actuales son mejores investigadores de vulnerabilidades que yo».. Dos días después de su presentación, envió una nota a sus colegas de Anthropic: «No creo que debamos lanzar Mythos todavía», escribió.. Así comenzó el Bugmageddon: la toma de conciencia, entre profesionales de la seguridad y una comunidad de hackers como Carlini, de que encontrar fallos y escribir software para explotarlos se ha vuelto peligrosamente fácil gracias a la IA.. La semana pasada, Anthropic lanzó una actualización de Mythos, llamada Mythos 5, y un producto llamado Fable 5, una versión de Mythos limitada bajo medidas de seguridad. Ahora era el turno de la Casa Blanca de dar la voz de alarma. El viernes, la Administración prohibió a gobiernos extranjeros, empresas e individuos el uso de Fable 5 y Mythos 5. Anthropic cortó el acceso a todo el mundo para cumplir con la normativa.. De repente, Carlini -el escéptico convertido en creyente que había hecho saltar las alarmas- se vio trabajando para calmar los nervios del Gobierno. Anthropic lo envió a la capital del país para explicar las medidas de protección, como parte de un equipo que intentaba convencer a la Casa Blanca de que, aunque no existiera la seguridad garantizada en la IA, era mejor para el mundo publicar Fable que mantenerlo en secreto.. Los giros y cambios en la propia vida de Carlini durante los últimos meses reflejan el caos y la incertidumbre que la rápida evolución de la IA ha traído al mundo de la ciberseguridad.. El episodio también intensifica una disputa de meses entre el Gobierno y Anthropic. El director ejecutivo, Dario Amodei, y el secretario de Defensa, Pete Hegseth, chocaron a principios de este año por los intentos de la empresa de controlar el uso de sus productos por parte del ejército, lo que empujó al Pentágono a dejar de usar sus modelos y desencadenó múltiples demandas. Ambas partes ya habían chocado antes por sus diferentes enfoques sobre la política de IA, la decisión del gobierno de exportar chips de IA a China y los vínculos de Anthropic con organizaciones sin ánimo de lucro que son grandes donantes de causas progresistas.. En los últimos días, funcionarios del Gobierno y ejecutivos y líderes técnicos de Anthropic, incluido Carlini, han mantenido horas de reuniones y llamadas para discutir una posible solución. Algunos funcionarios de la administración han dicho que una resolución debería incluir un reconocimiento por parte de Anthropic de que su despliegue de Fable y su comunicación con la Casa Blanca podrían haber sido mejores, según personas familiarizadas con las conversaciones.. Altos ejecutivos de Anthropic y funcionarios del Gobierno han estado negociando durante meses sobre la ampliación del acceso a Mythos.. El gobierno se preocupó al conocer un informe de Amazon que concluía que los usuarios podían introducir indicaciones para encontrar vulnerabilidades de ciberseguridad que el modelo no debería haber revelado. Anthropic afirma que los fallos que Fable encontró eran menores y que podrían haberse descubierto usando otros modelos disponibles públicamente.. «Claramente, el Gobierno y Anthropic tienen una incapacidad para comunicarse eficazmente entre sí», afirmó Michael Horowitz, miembro senior de tecnología e innovación en el Consejo de Relaciones Exteriores y exfuncionario del Departamento de Defensa. «Más intercambios técnicos deberían ser útiles para socializar estos problemas de una manera que conduzca a mejores decisiones».. En medio se encuentran otras empresas y consumidores que intentan descifrar cómo les afectará la tecnología.. Amplias zonas de la economía estadounidense funcionan con productos de software poco conocidos, muchos de los que nunca han sido sometidos a las pruebas y al escrutinio que Mythos y modelos similares permiten realizar con tanta facilidad. A los bancos les preocupa que pueda exponer vulnerabilidades en el software que mantiene operativo el sistema financiero. Las empresas se preguntan cómo van a probar e instalar la enorme cantidad de parches que se están publicando ahora, antes de que los hackers los aprovechen. Mythos ya ha encontrado más de 10.000 fallos.. Lo que es peor, temen que Mythos sea demasiado bueno creando código de «explotación», el software que aprovecha los fallos para realizar acciones maliciosas.. Mythos es «el primer modelo que puede encontrar y explotar vulnerabilidades a gran escala», escribió Carlini en su memorando de marzo abogando por una ralentización.. Nicholas Carlini.Helynn Ospina para el WSJ. Los esfuerzos de la administración por controlar la tecnología de Anthropic se vieron impulsados por un informe de Amazon que concluía que Fable podía ser inducido a encontrar fallos.. Solo unos días después de su lanzamiento, el director ejecutivo de Amazon, Andy Jassy, llamó a funcionarios -incluido el secretario del Tesoro, Scott Bessent- para compartir que sus investigadores habían encontrado formas de eludir las medidas de seguridad de Fable, según personas familiarizadas con el asunto. Los funcionarios de la administración se alarmaron más a medida que se producían las conversaciones con expertos en seguridad gubernamentales el viernes.. A medida que los investigadores de seguridad independientes analizaron el informe la semana pasada, determinaron que Amazon no había logrado lo que más temían: hacer un jailbreak completo del modelo y usarlo para escribir el código necesario para un ciberataque.. La decisión de Anthropic de enviar rápidamente a Carlini y a otros expertos en seguridad a Washington se produjo tras la frustración inicial del viernes entre algunos funcionarios gubernamentales cuando no pudieron localizar inmediatamente a Amodei por teléfono, dijeron las fuentes. Desde entonces, el director ejecutivo y otros altos cargos han mantenido horas de conversaciones. Una fuente cercana a Anthropic dijo que la empresa se puso en contacto con la Casa Blanca en 15 minutos y que Amodei estaba al teléfono una hora después de la llamada del gobierno.. La informática le corre por las venas a Carlini. Su padre era programador y su madre también trabajaba en la industria tecnológica. Creció en Silicon Valley programando ordenadores y estaba obsesionado con la criptografía. Un trabajo que escribió en el instituto se titulaba: «Criptoanálisis diferencial de redes de sustitución simples».. En la Universidad de California, Berkeley, publicó artículos junto a un profesor de informática, David Wagner, en los que mostraban diversas formas en que los sistemas de inteligencia artificial podían ser mal utilizados. Engañaron a sistemas de reconocimiento de imágenes para que confundieran fotografías de gatos con guacamole, y encontraron nuevas formas de incrustar comandos inaudibles de Alexa en fragmentos de cinco segundos de música clásica.. «Hizo muchos de los primeros trabajos sobre la seguridad del machine learning, demostrando que es muy difícil hacer que sea seguro», dijo Wagner.. Pero aunque el trabajo de Carlini había desmontado muchas afirmaciones de los desarrolladores de IA, él se había centrado en la amenaza de que gente malintencionada engañara a los sistemas de inteligencia artificial para que cometieran errores, no en que los hackers los aprovecharan como si fueran superpoderes.. En 2019, mientras trabajaba en Google, Carlini pensó que OpenAI estaba siendo «irrazonable» cuando sugirió que la última versión de su software, GPT-2, podría ser demasiado peligrosa para ser lanzada.. «Él era el escéptico profesional del sector», dijo Dan Guido, director ejecutivo de Trail of Bits, una empresa de ciberseguridad que ayudó a Anthropic a procesar los cientos de fallos que estaba encontrando.. Ahora, el Gobierno está inmerso en su propia evolución sobre el asunto.. Cuando Anthropic dio la alarma sobre el poder de Mythos, el asesor de IA de la Casa Blanca y capitalista de riesgo, David Sacks, publicó en las redes sociales que era «difícil ignorar que Anthropic tiene un historial de tácticas de miedo». En un principio, la administración Trump adoptó un enfoque permisivo y aceleracionista a la hora de regular los laboratorios de IA de Estados Unidos, en nombre de superar a China.. Sin embargo, a medida que el impacto de modelos como Mythos ha ido cobrando protagonismo y la opinión pública se ha vuelto en contra de la IA, el Gobierno ha endurecido su control sobre el sector. A principios de junio, el presidente Trump firmó una orden ejecutiva solicitando a las empresas de IA que den acceso al gobierno a los modelos 30 días antes de su lanzamiento público, y otorgando a los funcionarios de seguridad nacional y ciberseguridad un papel más relevante en la evaluación de modelos y el intercambio de amenazas con el sector privado.. Tras la llamada de Jassy, funcionarios como el Director Cibernético Nacional, Sean Cairncross, dieron a Amodei y a otros líderes de Anthropic un ultimátum: trabajar con el gobierno y retirar los últimos modelos de la compañía ese mismo día o enfrentarse a una prohibición para usuarios extranjeros. Dijeron a Anthropic que tenía 90 minutos para retirar el modelo y no proporcionaron detalles sobre el riesgo de seguridad, según la fuente cercana a la empresa.. Una decisión precipitada de cerrar el modelo no resultaba atractiva para Amodei, que ha guiado a su empresa de cinco años hasta una valoración de casi un billón de dólares y disponía de pocos detalles sobre el problema de seguridad.. Esa tarde, Trump pidió al Secretario de Comercio, Howard Lutnick, que ayudara a gestionar la situación y aprobó la prohibición de todo uso extranjero de los modelos, dijeron algunas de las personas familiarizadas con el asunto. Lutnick envió a Amodei una carta notificándole que las medidas se habían implementado poco después de las 17:00 ET. La norma incluye a personas nacidas en el extranjero que trabajan en los EEUU, lo que afecta a algunos de los propios investigadores de Anthropic.. Cuando Lutnick y Amodei hablaron sobre Fable esa noche, el director ejecutivo de Anthropic dijo: «Esto significa que no podemos tener el modelo fuera», según personas conocedoras de la llamada.. «Ese es el objetivo», respondió Lutnick.. Anthropic cortó todo el acceso poco después de la llamada. La Casa Blanca se había convertido al Bugmageddon.. Dario Amodei, CEO de Anthropic el mes pasado.Jason Henry para el WSJ. Carlini demostró lo potente que puede ser Mythos una tarde reciente en la sede de 10 plantas de Anthropic en San Francisco, donde las paredes cubiertas de musgo, las plantas y las obras de arte están diseñadas para evocar el Pacific Coast Trail.. Llevaba varias semanas charlando con Mythos y el modelo recordaba algunas cosas. Había aprendido que él era investigador de seguridad, un dato que parecía hacer que el modelo confiara en él. Eso hacía que Mythos fuese menos propenso a poner pegas si le pedía información sensible de seguridad o que creara un exploit.. Carlini había pedido previamente a Mythos que encontrara fallos en Linux. La IA buscó y rebuscó en el código de Linux varios miles de veces. Sería un trabajo tedioso para un humano, pero la IA terminó sin quejarse en unos pocos días. Encontró 479 fallos en Linux.. Para ayudar a Mythos a encontrar resultados diferentes en cada una de sus ejecuciones, Carlini utilizó una serie de comandos que se han dado a conocer como el Bucle de Carlini (Carlini Loop). Estos comandos dan a Mythos las instrucciones justas para asegurar resultados diferentes cada vez que rastrea Linux en busca de fallos.. A Carlini le horroriza este término que lleva su nombre -dice que la técnica es intuitiva-, pero ha sido adoptado por investigadores de seguridad que lo conocieron viendo la charla de marzo en la que lo describía. Esa charla ha sido vista más de 360.000 veces.. Carlini también ha aprendido las idiosincrasias de Mythos, que son comunes a los sistemas de IA. Mythos puede esforzarse demasiado por complacer. Sus conversaciones escritas parecen mensajes de chat entre un becario entusiasta e increíblemente trabajador y su jefe.. Carlini quería asegurarse de que hubiera una vulnerabilidad real en los hallazgos de Linux. Pidió a Mythos que realizara algunas pruebas durante la noche y a la mañana siguiente hubo un veredicto, y una explotación. El fallo no era del peor tipo posible, pero podía encadenarse con otro hackeo para hacerse con el control de un ordenador.. Carlini informó del fallo al equipo de Linux, que ya lo ha solucionado. «Un investigador de seguridad competente podría pasar toda su vida sin encontrar una vulnerabilidad en el núcleo de Linux», afirmó Carlini.. «¿Son estas cosas fáciles de encontrar? Obviamente, no del todo», dijo Linus Torvalds, el desarrollador de software que creó Linux. «Pero al mismo tiempo suelen ser pequeños detalles tontos que se pasan por alto».. Los fallos por sí solos no son necesariamente un problema de seguridad. Los más benignos simplemente hacen que un programa haga algo inesperado: un error en la pantalla del ordenador o tal vez un bloqueo.. Torvalds dijo que la gente le informa de fallos todos los días. «La mayoría de ellos son muy insignificantes y tenemos que declarar -una y otra vez- que no se consideran problemas de seguridad», dijo en un mensaje de correo electrónico.. Cuando Carlini encontró el fallo en el software de publicación web Ghost en febrero, fue uno de los 500 fallos descubiertos en un periodo de dos semanas. En las manos equivocadas, una explotación daría a un hacker la capacidad de editar cualquier sitio web construido con Ghost.. Carlini había informado del fallo a los desarrolladores de Ghost, quienes lanzaron un parche el 16 de febrero, semanas antes de la charla de Carlini en San Francisco.. Pero no todos los que usaban Ghost actualizaron su software, y los hackers descubrieron rápidamente cómo explotar el fallo, probablemente estudiando qué parte de Ghost solucionaba el parche. Para abril, habían comenzado a lanzar ataques generalizados contra sitios web sin la actualización. En un mes, más de 700 fueron hackeados, según la firma de ciberseguridad Xlab.. Carlini dijo que el hackeo de Ghost ilustraba la dificultad del problema al que se enfrenta ahora el mundo para validar, probar parches y luego desplegarlos.. Ahora, Carlini cree que es solo cuestión de meses antes de que otros modelos alcancen a Mythos. Y no está claro qué significará eso.. *Contenido con licencia de The Wall Street Journal. Traducido del inglés por Daniela Saltos.

Actualidad Económica // elmundo

El hacker enviado por Anthropic para calmar los nervios del Gobierno sobre la seguridad de la IA

La nueva casa del turismo de lujo: Genteel Home desafía a las cadenas hoteleras en la experiencia cinco estrellas

Hogares empobrecidos y un petróleo a 97 dólares a finales de año: el BCE empeora su visión ante un impacto mayor de la guerra en Irán

La recaudación por tasas del Ministerio de Economía se dispara un 64% los últimos cinco años y la de Hacienda, un 8%

Comienza la lucha «encarnizada» de los presupuestos europeos con los países del norte pidiendo fuertes recortes en la PAC y Cohesión: «Son inevitables»

No hacer nada está muy bien

Paloma González responde a Natalia Ferviú tras tildarla de mala compañera: «Fue una cínica»

American Airlines cancela los vuelos de Miami a Caracas tras los terremotos en Venezuela

Desolación en La Guaira: saqueos, cuerpos en la calle y ausencia de autoridades en la zona más afectada por los terremotos de Venezuela

Macron y Meloni firman siete acuerdos con el objetivo de profundizar en la cooperación militar e industrial

Florida cierra el polémico centro migratorio ‘Alligator Alcatraz’ tras 21.000 deportaciones

Valtierra (Navarra) ofrece 4.000 euros a los padres que lleven 20 años empadronados: «España es para los españoles»

Muere a los 94 años Ramiro Valdés, uno de los históricos comandantes de la revolución cubana y lugarteniente del Che Guevara

La UIMP despide a una científica y una vicerrectora comprometida

Trinidad Sánchez López debuta en la literatura con “Dos Ángeles; uno en el cielo y otro en la Tierra”, una emotiva historia de superación y amor familiar

Javi Cantero: «Ser hijo de el Fary te marca, pero he conseguido tener mi propio estilo»

Alfonso José Sánchez Muñoz irrumpe en la poesía contemporánea con una obra valiente y singular

Miguel Núñez Ropero convierte la emoción y el humor en el motor de su debut literario

El Coro de Hombres Gays de Madrid abre la Semana del Orgullo con su gran espectáculo ‘Bailemos’ y varias sorpresas

Trinidad Sánchez López debuta en la literatura con “Dos Ángeles; uno en el cielo y otro en la Tierra”, una emotiva historia de superación y amor familiar

La tensión entre las novias de ‘La isla de las tentaciones’ explota en el debate: «Nos habéis excluido de un viaje»