IARPA quiere traducir documentos extranjeros a gran velocidad

Originalmente anunciado en enero de 2017, el programa Machine Translation for English Retrieval of Information in Any Language busca permitir a los usuarios desarrollar e implementar rápidamente sistemas que permitan, a los que solo hablan inglés, identificar de manera precisa y eficiente documentos de interés en lenguas extranjera.

El Intelligence Advanced Research Projects Activity, (IARPA), brazo de investigación de la comunidad de inteligencia, ha anunciado que otorgó a cuatro organizaciones contratos de investigación bajo un programa de software de procesamiento de lenguaje.

IARPA adjudicó a la Universidad Johns Hopkins, Raytheon BBN Technologies, Columbia University y al Instituto de Ciencias de la Información de la Universidad del Sur de California, contratos de investigación para este programa, cuyas siglas conforman la palabra MATERIAL.

«La recopilación y el análisis de la información necesaria para llevar a cabo las tareas de inteligencia específica se han convertido cada vez más en empresas multilingües», dijo el Dr. Carl Rubino, gerente del programa IARPA.

«Para la mayoría de los idiomas, hay muy pocas o ninguna herramienta automatizada disponible para análisis y minería de datos multilingües. El objetivo del Programa MATERIAL es investigar cómo las tecnologías actuales de procesamiento de lenguaje pueden desarrollarse e integrarse de manera más eficiente para responder a las necesidades específicas de información sobre los datos de voz y texto multilingües «.

De acuerdo con el anuncio hecho en un «proposer´s day, en el seno del programa MATERIAL, se recuperarán datos relevantes de un gran repositorio multilingüe y se presentará en inglés en forma de resúmenes de consulta. Dichas consultas constarán de dos partes: una especificación de dominio y/o una palabra o frase en inglés que captura la información necesaria a un hablante de inglés como «zika virus» en el mundo del gobierno, contra «zika virus» en el mundo de la asistencia médica. Luego, los resúmenes en inglés mostrarían dónde la información recuperada será relevante, decía el anuncio.

Además, el anuncio decía que los métodos actuales para producir tecnologías similares requieren una inversión sustancial en capacitación de datos y / o desarrollo y experiencia específicos del idioma. El programa busca reducir drásticamente el tiempo y los datos necesarios para poner en servicio sistemas capaces de cumplir con una tarea English-in, English-out.

El MIT Lincoln Laboratory, el Centro de Estudios Avanzados de Lenguaje de la Universidad de Maryland, el Instituto Nacional de Estándares y Tecnología y Tarragon Consulting conforman el equipo de prueba y evaluación del programa MATERIAL que evaluará el rendimiento de una variedad de soluciones complejas end-to.end desarrolladas por los adjudicatarios del contrato, dijo IARPA.

Fte.: C4ISRNET