NLP como medio para la detección de fake news

La inteligencia artificial para combatir las fake news. Colaboración entre la UPM, UOV y baobab soluciones, con el apoyo de RIS3, para la investigación y el desarrollo de una herramienta de carácter público de detección de fake news.

¿Qué son las fake news? Históricamente han existido noticias e informaciones cuyo objetivo es comunicar a un público acerca de un hecho, conocimiento o idea de alguna cosa. Una de sus características, y que se supone intrínseca, es la veracidad, es decir, que se ajusta a la verdad o la realidad de aquello que se quiere difundir. Sin embargo, esto no siempre es así, ya sea por desconocimiento del emisor, errores en la información, el recurso a la sátira o de forma deliberada para difundir un mensaje erróneo persiguiendo intereses propios dando lugar a lo que actualmente se conoce como fake news. Las noticias engañosas o fake news es un término que conceptualiza la divulgación de noticias falsas y que acaban conformando una red de desinformación muy peligrosa.

Las fake news han existido desde hace miles de años como una característica de la comunicación humana a modo de desinformación y propaganda. Por ejemplo, en tiempos romanos, cuando Marco Antonio conoció a Cleopatra, Octavio propagó una campaña de propaganda falsa contra él, consiguiendo más tarde convertirse en Octavio Augusto, primer emperador romano gracias, en parte, a dichas tácticas de desinformación. Las difamaciones que se propagaban contra Marco Antonio constaban de frases cortas y palabras que necesitaban llegar a través de un medio accesible en mayor o menor medida a todo el pueblo. Uno de esos medios fueron las monedas, en concreto, las palabras que se grababan en ellas junto a la imagen de Marco Antonio. Quizá resulte un método ingenioso a la vez que efectivo, además de anticuado, pero… ¿y si nos imaginamos un texto de hasta 140 caracteres en lugar de una palabra en una moneda, un montaje falso en lugar de la imagen de un político y militar romano, un pájaro azul y un botón de “RT”?

En la actualidad, internet y las redes sociales han propiciado la proliferación de las fake news permitiendo que los usuarios de las mismas sean tanto productores como consumidores simultáneamente facilitando la difusión de contenidos falsos. Esto provoca que a golpe de click pueda difundirse una información falsa a miles de usuarios en cuestión de segundos creando así un círculo del que es difícil salir e identificar dicha información como falsa.

Las redes sociales fomentan el consumo de contenidos acordes a ciertas ideas o pensamientos del usuario, fenómeno acentuado en gran medida (y a veces ignorado) por algoritmos que facilitan el acceso a contenidos más relevantes para cada usuario, de forma que gran parte de la información que consume se encuentra condicionada. Dicho fenómeno se conoce como el sesgo de información y consiste en la tendencia a favorecer la búsqueda e interpretación de la información que confirma las propias creencias.

Además, esto ocurre en un contexto bautizado como posverdad en el cual se establece que los datos objetivos tienen menor importancia que las propias opiniones y emociones que provocan en el público, distorsionando así la realidad. Un ejemplo actual es la aplicación de este tipo de maniobras con fines propagandísticos en campañas presidenciales bombardeando con información manipulada a usuarios más sensibles a ciertos mensajes.

Este tipo de informaciones están presentes en la gran mayoría de ámbitos, desde la política hasta la medicina o la economía. Por eso, ante el claro peligro que suponen las fake news en la sociedad, agravado por conflictos tan recientes como la pandemia de COVID-19, donde existió un reguero de noticias contradictorias y confusas para la población, cada vez son más las organizaciones que buscan paralizar y combatir la propagación de las mismas. Como cabe intuir en los tiempos que corren, el gran aliado será la tecnología, en particular la Inteligencia Artificial.

Inteligencia artificial para combatir las fake news

Ante la dificultad de abordar las fake news con ningún medio más que la propia información disponible y que, como se ha citado anteriormente, se trata de un círculo vicioso donde se convierte en una difícil tarea verificar o no una noticia, surge la Inteligencia Artificial. Este tipo de conocimiento es la combinación de algoritmos cuyo propósito es el de replicar y desarrollar capacidades inteligentes y sus procesos implícitos presentes en el ser humano (realizar tareas, pensamiento lógico racional, comportamiento, etc.), y que ya son comúnmente aplicadas para automatizar actividades como la toma de decisiones, la resolución de problemas y el aprendizaje.

Muchos son los ámbitos de aplicación del gran conglomerado de diferentes algoritmos que componen dicha base de conocimiento, siendo uno de ellos aquel denominado procesamiento de lenguaje natural (PLN o NLP por sus siglas en inglés, natural lenguaje processing), el cual va a proporcionar soluciones para el problema que nos atañe. Este campo de conocimiento se encarga de investigar la manera de comunicar las máquinas con las personas mediante el uso de las lenguas naturales que conocemos (por ejemplo, el inglés o el castellano).

Algunos de los componentes de dicho campo son los siguientes:

  • Análisis morfológico o léxico: análisis interno de las palabras que conforman una frase para extraer información como el significado léxico o la categoría sintáctica.
  • Análisis sintáctico: análisis de la estructura de las frases.
  • Análisis semántico: una vez realizado el análisis morfosintáctico, se interpreta el significado de la composición.
  • Análisis pragmático: análisis del contexto para la completa interpretación (por ejemplo, puede darse un contexto metafórico que proporciona otra interpretación).

Dependiendo de la aplicación, es decir, el problema a resolver, se podrán usar todos o algunos de los análisis descritos y, gracias a ellos, se puede abordar la amenaza que suponen las fake news. Con todo, diversos son los algoritmos y modelos aplicados a dicho problema, de modo que estos son capaces de, a través del análisis del texto, discernir si una noticia es falsa o no e incluso otorgarle un determinado porcentaje de que así sea.

Por otro lado, y a título de curiosidad, si bien la Inteligencia Artificial es capaz de comprobar si algo es cierto o no, existen modelos capaces de componer texto como lo haría una persona (tal y como se explica en el articulo, “Auge PLN“) a la hora de elaborar un texto informativo o incluso un cuento… por lo que en este caso será mejor no fiarse de las máquinas (¡o bien comprobar con los modelos en los que sí confiamos si esos textos son ciertos o no!).

Colaboración para el desarrollo de una herramienta de detección de fake news

Como se ha citado anteriormente, las fake news están presentes en múltiples ámbitos del mundo que nos rodea. Uno de ellos y de gran importancia es la medicina y la salud. Sobradamente conocido es lo ocurrido en 2020 con el auge del COVID-19, ya sea por desconocimiento o por intereses de determinados medios para no alertar a la población, existió una oleada de desinformación que terminó por confundir a todo el mundo.

La existencia de informaciones falsas en ámbitos tan delicados como la salud es tremendamente peligrosa, ya que en este caso lo que está en juego y se pone a merced de lo incorrecto es la vida de las personas. Es por ello que tiene sentido apostar por herramientas basadas en avances tecnológicos que sean asépticas en la valoración y validación de los contenidos que se publican.

Por esto, la Universidad Politécnica de Madrid, la Universidad de Oviedo y baobab soluciones van a colaborar en un proyecto que consiste en el desarrollo de una herramienta aplicada a la detección de fake news relacionadas con el cáncer. Dentro de las informaciones médicas, el cáncer es un tema recurrente de búsquedas por parte de la población debido a su importancia y el consumo de información errónea puede suponer problemas de salud graves, por tanto, requiere de la información más fidedigna posible.

Este proyecto, además, cuenta con el apoyo económico de la Comunidad de Madrid a través de la línea de subvenciones RIS3, cuyo objetivo es el de aprovechar más eficazmente los recursos de conocimiento existentes en la región para ponerlos al servicio del tejido productivo e incrementar el número de empresas innovadoras.

De este modo, aunando las fuerzas de todas las organizaciones citadas, se desarrollará una herramienta que, una vez puesta a disposición del público general, permita comprobar la veracidad de noticias e informaciones relacionadas con el cáncer, así como evaluar la calidad de las distintas fuentes de información médica y de salud disponibles en la red.

Más concretamente, esta herramienta, será capaz de lo siguiente:

  • Gestionar información no estructurada procedente tanto de páginas www, blogs, documentos en PDF, doc(x)], ppt(x), etc., de un modo integrado.
  • Desarrollo de modelos de reconocimiento de entidades nominales (NER por sus siglas en inglés) que facilite la correcta clasificación semántica de las frases (en este caso cobra importancia el reconocimiento de entidades relacionadas con la medicina).
  • Desarrollo de un entorno ligero de ingestión de documentos y búsquedas de palabras, lemas u elementos semánticos de las frases que permitan establecer relaciones complejas entre entidades.
  • Elaboración de una base de conocimiento que permita conocer las publicaciones científicas realizadas estableciendo un marco referencial.

Con todo, la aplicación, prevista para ser finalizada en 2023, aspira a ser una herramienta de referencia para ayudar a organizaciones e individuos a lidiar con la información más fiable disponible en la red y evitar informaciones falsas que puedan perjudicar algo tan preciado como la salud de las personas.

baobab soluciones se dedica a desarrollar aplicaciones de analítica avanzada para empresas, pero también tiene entre sus misiones, la de utilizar estas técnicas para aportar mejoras a la sociedad, como esta aplicación u otras relacionadas con el sector sanitario (mejora del aprovechamiento de quirófanos, etc).