La IA podría relacionar las «huellas dactilares» de los textos con sus autores, según un nuevo programa de inteligencia

Nextgov fue informado por la Intelligence Advanced Research Projects Activity (IARPA) sobre un anuncio que pronto se hará público y que algún día podría ayudar a combatir las campañas de desinformación y el tráfico de personas.

La rama de investigación de la comunidad de inteligencia (CI) se prepara para desarrollar nuevos sistemas de inteligencia artificial que puedan identificar quién, o qué, fue el autor de cualquier texto específico y, por otro lado, sistemas avanzados que apunten a proteger la privacidad de los autores.

«Creemos que este proyecto puede cambiar las reglas del juego en lo que respecta al seguimiento de las campañas de desinformación y a la lucha contra el tráfico de seres humanos y otras actividades maliciosas que se llevan a cabo en los foros de texto en línea y en otros lugares en los que se utiliza el texto», declaró el Dr. Timothy McKinnon a Nextgov en una entrevista reciente. McKinnon es el director del programa de IARPA, que dirige este trabajo, el programa HIATUS (Human interpretable attribution of text using underlying structure).

Es probable que IARPA publique próximamente una solicitud de propuestas de investigación para HIATUS. McKinnon ofreció un primer vistazo de este proyecto, que está a punto de ser desarrollado, y que constituye el último esfuerzo de investigación y desarrollo de la comunidad inteligencia sobre la tecnología del lenguaje humano.

«Prevemos que el programa dure 42 meses desde su puesta en marcha», confirmó.

Los retos que IARPA pretende afrontar a través de HIATUS son increíblemente complejos.

«Para ponernos en contexto, pensemos que si a 100 personas diferentes les pidiera que describieran algo sencillo, como la forma de abrir una puerta, en dos o una frase, probablemente obtendría unas 100 respuestas diferentes, ¿verdad?». dijo McKinnon. «Y, ya se sabe, cada persona tiene su propia idiosincrasia como autor, que es potencialmente usada por los sistemas de atribución de autoría».

Todos los días se producen montones de textos multilingües de autores anónimos, tanto humanos como mecánicos. Como señaló el director del programa, estos materiales suelen contener componentes lingüísticos que pueden aprovecharse para determinar con precisión quién elaboró la información, o para salvaguardar la identidad de los autores si la atribución pudiera ponerlos en peligro.

«Con la atribución, lo que hacemos es identificar rasgos estilísticos. Se trata de signos de sintaxis, de colocación de palabras, que pueden identificar a quien escribió un texto determinado. Pensemos en ello como en una huella dactilar escrita, ¿verdad? ¿Qué características hacen que su escritura sea única? Así, la tecnología podría identificar esa huella dactilar comparándola con un corpus de otros documentos, y hacerla coincidir si son del mismo autor», explicó. «En cuanto a la privacidad, lo que haría la tecnología es averiguar cómo se puede modificar el texto para que deje de parecer la escritura de una persona».

El programa está estructurado de forma que estos dos elementos compiten entre sí para impulsar realmente el desarrollo de ambas partes. A través de HIATUS, se adopta esencialmente la atribución de autoría y la privacidad como un problema de aprendizaje automático adverso, ya que el desarrollo y la evaluación implican la competencia entre esos dos componentes.

Hasta este momento, sólo hay tres categorías de enfoques para las cuestiones que el equipo de IARPA pretende abordar.

Mediante los enfoques manuales tradicionales, los expertos humanos pueden analizar el texto y buscar solapamientos o cualidades de un autor concreto. Otra categoría es la del aprendizaje automático y las técnicas algorítmicas, como la regresión logística o los modelos bayesianos, pero McKinnon afirma que no se adaptan bien a los distintos géneros de texto.

El tercer grupo de técnicas es «muy nuevo», señaló. Incorpora modelos lingüísticos neuronales, que son sistemas sofisticados que representan el lenguaje humano.

«El problema de estos modelos es que, aunque son muy rápidos y funcionan muy bien, no entendemos realmente lo que ocurre dentro de ellos. Son muy complejos», afirma McKinnon. «Y lo que HIATUS pretende, entre otras cosas, es desenterrar algunos de los fundamentos que sustentan el comportamiento de esos modelos, de modo que podamos, cuando realicemos la atribución o realicemos la privacidad oficial, ser capaces de entender realmente por qué el sistema se está comportando de la manera que lo hace, y ser capaces de verificar que no está recogiendo cosas espurias y que está haciendo lo correcto».

Cuando se lance la solicitud, los proponentes tendrán la oportunidad de destacar su propia investigación y desarrollo en este ámbito y sugerir cómo debería avanzar IARPA para cumplir sus objetivos generales.

«Buscamos desarrollar sistemas que puedan tener un rendimiento sólido en diversos dominios y géneros de texto, y también habrá lenguas extranjeras involucradas en el programa a medida que avance», dijo McKinnon.

Como centro clave de investigación y desarrollo de la CI, IARPA lleva a cabo proyectos exploratorios y no tiene mucho que ver con el despliegue o la puesta en marcha de la tecnología que crea. Una vez terminada, las herramientas se envían a las agencias para que las apliquen en función de sus propias necesidades específicas. Aproximadamente el 70% de sus esfuerzos de investigación terminados se transfieren a otros socios gubernamentales.

Por esta y otras razones, sin embargo, los funcionarios de IARPA no especulan con gran detalle sobre los casos de uso que podrían florecer más adelante, a partir de lo que han producido.

Aun así, McKinnon señaló que este trabajo podría tener importantes repercusiones asociadas a la lucha contra el tráfico de personas, o a la comprensión y detención de las cada vez más sofisticadas campañas de influencia maliciosa en Internet.

«Tomemos una campaña de desinformación como ejemplo de lo que podría hacer la tecnología. Imaginemos que hay un texto generado por una máquina que se crea en línea para llevar a cabo una campaña de desinformación», dijo McKinnon. «Lo que la tecnología podrá hacer es identificar, potencialmente, el hecho de que una máquina generó el texto, y también ayudarte a entender qué grupos están involucrados en esas actividades».

Fte. Nexgov