DARPA . Evaluando las defensas contra la IA adversaria

El banco de pruebas de evaluación, los conjuntos de datos y las herramientas desarrolladas en el programa GARD se publican para poner en marcha la comunidad y fomentar la creación de defensas más sólidas contra los ataques a los modelos de inteligencia artificial.

Hay muchos puntos débiles inherentes que subyacen a los modelos de aprendizaje automático (ML) existentes, lo que abre la tecnología a la suplantación, la corrupción y otras formas de engaño. Los ataques a los algoritmos de IA podrían tener una serie de efectos negativos, desde la alteración de un motor de recomendación de contenidos hasta la interrupción del funcionamiento de un vehículo de autoconducción. A medida que los modelos de Inteligencia Artificial se integran cada vez más en las infraestructuras y sistemas críticos, estas vulnerabilidades son cada vez más preocupantes. El programa Guaranteeing AI Robustness against Deception (GARD) de DARPA se centra en adelantarse a este reto de seguridad desarrollando una nueva generación de defensas contra los ataques de adversarios a los modelos de Machine Learning (ML).

La respuesta de GARD a la IA adversaria se centra en algunos objetivos fundamentales. Uno de ellos es el desarrollo de un banco de pruebas para caracterizar las defensas de ML y evaluar el alcance de su aplicabilidad. Dado que el campo de la IA adversa es relativamente incipiente, los métodos para probar y evaluar las posibles defensas son escasos, y los que existen carecen de rigor y sofisticación. Garantizar que las defensas emergentes siguen el ritmo, o superan, de las capacidades de los ataques conocidos es fundamental para establecer la confianza en la tecnología y asegurar su eventual uso. Para apoyar este objetivo, los investigadores del GARD desarrollaron una serie de recursos y herramientas virtuales para ayudar a reforzar los esfuerzos de la comunidad para evaluar y verificar la eficacia de los modelos y defensas de ML existentes y emergentes contra los ataques de los adversarios.

«Otras comunidades técnicas, como la criptográfica, han adoptado la transparencia y han descubierto que, si se está abierto a dejar que la gente pruebe las cosas, la tecnología mejorará», dijo Bruce Draper, director del programa GARD. «Con GARD, tomamos una página de la criptografía y nos esforzamos por crear una comunidad que facilite el intercambio abierto de ideas, herramientas y tecnologías que puedan ayudar a los investigadores a probar y evaluar sus defensas ML. Nuestro objetivo es elevar el nivel de los esfuerzos de evaluación existentes, aportando más sofisticación y maduración al campo».

Los investigadores de GARD de Two Six Technologies, IBM, MITRE, la Universidad de Chicago y Google Research han generado en colaboración un banco de pruebas virtual, una caja de herramientas, un conjunto de datos de evaluación comparativa y materiales de formación para hacer posible este esfuerzo. Además, han puesto estos activos a disposición de la comunidad investigadora en general a través de un repositorio público. «¿Qué te hace confiar en un sistema? A menudo se trata de entender que el sistema ha sido probado por un evaluador experto con las herramientas y los datos adecuados. A través de este repositorio GARD de libre acceso, estamos proporcionando un punto de partida para todas estas piezas», señaló Draper.

En el centro de la lista de activos se encuentra una plataforma virtual llamada Armory que permite realizar evaluaciones repetibles, escalables y sólidas de las defensas de los adversarios. El «banco de pruebas» de Armory ofrece a los investigadores una forma de enfrentar sus defensas a ataques conocidos y escenarios relevantes. También ofrece la posibilidad de alterar los escenarios y realizar cambios, garantizando que las defensas sean capaces de ofrecer resultados repetibles en toda una serie de ataques.

Armory usa una biblioteca de Python para la seguridad ML llamada Adversarial Robustness Toolbox (ART), que proporciona herramientas que permiten a los desarrolladores e investigadores defender y evaluar sus modelos y aplicaciones de ML contra amenazas como la evasión, el envenenamiento, la extracción y la inferencia. La caja de herramientas se desarrolló originalmente fuera del programa GARD como una plataforma de intercambio entre académicos. El programa GARD está trabajando para madurar la biblioteca y elevarla a un estándar definitivo para los usuarios, añadiendo conjuntos de datos y metodología de evaluación, así como nuevos elementos como procesos completos. Armory aprovecha en gran medida los componentes de la biblioteca ART para los ataques y la integración de modelos, así como los conjuntos de datos y escenarios generados por MITRE.

El conjunto de datos de referencia Adversarial Patches Rearranged In COnText, o APRICOT, también está disponible a través del repositorio. APRICOT se creó para permitir una investigación reproducible sobre la eficacia en el mundo real de los ataques físicos de parches adversarios en los sistemas de detección de objetos. El conjunto de datos permite a los usuarios proyectar cosas en 3D para que puedan reproducir y derrotar más fácilmente los ataques físicos, lo que constituye una función única de este recurso. «Esencialmente, estamos facilitando a los investigadores la tarea de probar sus defensas y asegurar que realmente resuelven los problemas para los que están diseñadas», dijo Draper.

A pesar de ser un campo emergente, ya hay una serie de temas comunes y modos de fallo que se observan en las defensas actuales de la IA adversaria. A menudo, los investigadores y desarrolladores creen que algo funcionará en un espectro de ataques, sólo para darse cuenta de que carece de robustez incluso contra desviaciones menores. Para ayudar a resolver este problema, Google Research ha creado el repositorio de autoestudio de Google Research, que está disponible a través del conjunto de herramientas de evaluación GARD. El repositorio contiene «maniquíes de prueba», es decir, defensas que no están diseñadas para ser el estado del arte, sino que representan una idea o un enfoque común que se utiliza para construir defensas. Se sabe que los «dummies» están rotos, pero ofrecen a los investigadores una forma de sumergirse en las defensas y pasar por el proceso de evaluar adecuadamente sus fallos.

El objetivo es ayudar a la comunidad GARD a mejorar sus habilidades de evaluación de sistemas, comprendiendo cómo funcionan realmente sus ideas y cómo evitar los errores comunes que restan robustez a sus defensas», dijo Draper. «Con el repositorio de autoaprendizaje, los investigadores reciben conocimientos prácticos. Este proyecto está diseñado para darles una experiencia sobre el terreno que les ayude a mejorar sus habilidades de evaluación.»

El repositorio de Evaluación Holística de las Defensas Adversarias del programa GARD está disponible en https://www.gardproject.org/. Se anima a los investigadores interesados a aprovechar estos recursos y a consultar a menudo las actualizaciones.

Fte. Darpa.mil