Ingeniero de Telecomunicación y doctor en Ingeniería de Telecomunicación especializado en procesamiento de señal y machine learning por la Universidad Carlos III de Madrid, Felipe Alonso Atienza ha desarrollado gran parte de su carrera profesional como profesor en la Universidad Rey Juan Carlos realizando tareas docentes e investigadoras. En el ámbito investigador, ha dirigido varios proyectos competitivos y publicado más de 15 artículos internacionales relacionados con la aplicación del machine learning a la salud. En marzo de 2016 se incorporó al BBVA como Data Scientist, para formar parte de la transformación del banco hacia una cultura data-driven, en el que las decisiones y el desarrollo de nuevos productos se realicen a partir de los datos. Alonso charla con INNOVA+C sobre el impacto del aprendizaje automático de las máquinas en la elaboración de contenidos y la labor de los comunicadores.
¿Qué es el machine learning y por qué se dice que es la nueva electricidad?
El machine learning es una rama de la inteligencia artificial que dota a los sistemas informáticos de la capacidad de aprender automáticamente en función de los datos que le son suministrados como ejemplos, detectando patrones y soluciones a situaciones o problemas de gran magnitud. Una capacidad autómata que ya se aplica en motores de búsqueda, medicina, fraude bancario, reconocimiento de voz y robótica. Y se dice que es la nueva electricidad porque va a impactar a todas las industrias y negocios. Si pensamos en cómo afectó la electricidad al mundo a principios del siglo XX podemos hacernos una idea de cómo va a influir el machine learning en los próximos años en todas las áreas de actividad. De momento, está empezando pero nos va a afectar muchísimo más.
¿Qué se puede esperar de esta disciplina en el ámbito de la comunicación?
En general impacta en tres áreas: la primera, en la personalización de contenidos. Ahí dónde se pueda generar un contenido que sea específico para el consumo de determinados usuarios, tiene cabida el machine learning. En segundo lugar, en la automatización de procesos; en todo lo que nos permita mejorar la eficiencia de los procesos internos y externos y que sea compatible con un algoritmo de aprendizaje automático. Y la tercera es en cómo nos vamos a relacionar con el mundo digital. Ya empezamos a ver nuevas maneras de comunicarnos. Por ejemplo, en los nuevos smartphones ya no es necesario introducir una contraseña porque el dispositivo reconoce nuestro rostro.
Y eso lo hacen las máquinas, ¿de qué manera?
Es una mezcla de muchos tipos de aprendizaje. El machine learning es la disciplina de la inteligencia artificial que aprende a partir de ejemplos. En el caso de la personalización, si eres capaz de encontrar personas con rasgos comunes puedes aplicar algoritmos de aprendizaje automático. Básicamente se trata de encontrar aquellas personas que tienen coincidencias en sus perfiles, en sus gustos y en sus intereses y a partir de ahí ofrecerles un contenido similar en función de esas preferencias conocidas. En cuanto a cómo nos vamos a comunicar con el área digital, entra desde una parte de procesamiento de lenguaje natural que se puede orientar a interpretarlo como algoritmos de machine learning y, por supuesto, el reconocimiento de imágenes. Son campos que ya se están utilizando pero que van a avanzar mucho más en el sentido de que van a tener cada vez un toque más humano. Ahora mismo sabemos que son máquinas pero con el tiempo esa distinción será más difícil.
¿Evolucionamos hacia el Netflix del periodismo? ¿A que las plataformas nos ofrezcan específicamente contenidos elaborados a la medida de nuestro perfil?
Todas las industrias tienden a personalizar los contenidos y en el periodismo una parte importante va a ser la personalización de contenidos. Pero el periodismo no solo trabaja con datos sino con información, que constituye una capa de abstracción superior a los datos e implica relacionarlos. Cada vez tenemos más datos de distintas fuentes y de manera instantánea. El reto es extraer información de ellos. El machine learning puede ayudar al periodismo y a la comunicación en general a predecir tendencias informativas.
¿Se reinventarán los contenidos con los insights de la audiencia? ¿Habrá narrativas distintas gracias a los datos?
Nos pueden ayudar a crear nuevos contenidos y se pueden explorar como primera fuente de creatividad. Podemos dejar que un algoritmo piense por nosotros en función de lo que ha visto que hacen los usuarios, que identifique por dónde van las tendencias y que genere algo novedoso en esa línea. Y, de nuevo, la personalización. No podemos olvidar que tenemos que atender a distintas comunidades. Lo ideal es que pasemos de una cultura de masas, aquella en la que encendemos la televisión para ver un programa específico, a otra en la que podamos atender a todas las personas según sus preferencias individuales.
Existe la preocupación de que las máquinas vayan sustituyendo a la fuerza laboral humana. ¿Se perderán más puestos de los que se crearán?
Como siempre que hay un cambio se genera bastante incertidumbre. Si vamos a utilizar herramientas de machine learning es que porque van a ser útiles para nosotros. Es importante hacer este análisis y pensar cómo nos pueden ayudar a mejorar procesos. Está claro que el ser humano no llega a todo y que no somos capaces de analizar información como lo hace una máquina. En muchos ejemplos ya están superando a la capacidad humana y es hora de aprovecharlo. Por otro lado, a día de hoy las máquinas todavía no piensan ni evolucionan por sí solas. Los algoritmos de aprendizaje automático funcionan bien cuando han sido acondicionados al tipo de negocio específico y eso requiere todavía mucha tarea humana.
Ya hay empresas de comunicación que generan noticias elaboradas por robots. ¿Qué tipo de contenido se puede automatizar y cuál será difícil de automatizar?
Los chatbots o asistentes virtuales son la nueva herramienta o interfaz de entrada al mundo digital. Cada vez más vamos a ver bots que se parecen al contacto con un humano en el sentido del lenguaje que emplean, de cómo nos responden, etcétera. A día de hoy los bots funcionan sobre todo por palabras clave,. Por ejemplo, utilizo el término Siri cuando quiero activar mi smartphone y funciona bastante bien. Pero no podemos mantener una conversación con un bot a nivel humano, queda mucho por avanzar. El bot nos va a servir para comunicarnos con el mundo digital y podemos alimentarlo con noticias que hayan sido creadas con algoritmos de machine learning. Son fundamentalmente aquellas que tienen un contenido objetivo, que no dan pie a opiniones o a interpretaciones. Podemos asimilarlo a completar una plantilla, en la que vamos cambiando los contenidos y lanzamos la noticia. Por ejemplo, resultados deportivos y partes metereológicos. Pero ya hay algoritmos que crean noticias que pueden parecer que han sido escritas por un humano. Se está avanzando en este sentido, aunque aún queda tiempo.
¿Serán capaces las máquinas de crear contenidos teniendo en cuenta distintos contextos, además de los datos, como la parte ética, la parte creativa, la opinión o la subjetividad?
Si la parte subjetiva la pensamos en forma de sentimiento o, incluso, de estilo, la respuesta es sí. El aprendizaje puede ser a varios niveles, a nivel de palabra, de frase, de párrafo, de texto, y también de metalenguaje y estilo. No es sencillo pero todo esto puede incorporarse. La parte ética es algo más complicado en tanto en cuanto no existan reglas predefinidas para ello. Por otro lado, empieza a surgir un debate muy importante, especialmente entre los empresarios que lideran la punta de lanza del machine learning, acerca de la necesidad de propiciar una regulación sobre los límites de la inteligencia artificial. La tecnología va por delante del ser humano desde el punto de vista de la regulación y se necesita que la haya. Es importante reflexionar sobre las implicaciones del aprendizaje automático, determinar hasta dónde se puede llegar, cuál es el estado actual y, en el caso de que haya que actuar, cómo hacerlo. El ejemplo típico es qué pasaría si un coche autónomo tiene que tomar una decisión sabiendo que se va a producir un accidente: cómo decide entre salvar a las personas que viajan dentro del vehículo o a las que circulan en el otro coche implicado.
Debería existir un botón rojo de apagado…
Sí, básicamente deberíamos saber que la máquina puede llegar hasta un punto y más allá tiene que haber una supervisión humana.
¿Cómo deben las organizaciones ir introduciendo esta disciplina? ¿Necesitarán incorporar científicos de datos al negocio?
Diría que todos los negocios que se apoyen en datos necesitarán un científico de datos que les permita extraer insights.. En los medios de comunicación ya se esta creando el área de periodismo de datos. Será cada vez más necesario para poder representar grandes cantidades de información complicada de origen diverso y de forma instantánea para que el consumidor la pueda entender. En un nivel más avanzado, se precisarán científicos de datos capaces de incorporar machine learning y algoritmos de inteligencia artificial, como ocurre en las empresas de tecnología. Se dice que en el futuro sobrevivirán aquellas empresas que sean capaces de integrar esta tecnología y aplicarla de forma eficiente. Está demostrado que las industrias más prosperas son las que hacen un uso adecuado de los datos y que cuando una empresa basa sus decisiones y sus productos en el dato, mejora su rentabilidad.
¿Podría el machine learning paliar el impacto de las noticias falsas y la distorsión en la percepción de los acontecimientos que ocasionan?
Puede tener un impacto positivo pero eso no significa que no vaya a seguir existiendo. Con machine learning se pueden generar algoritmos que ayuden a detectar este tipo de noticias y otros contenidos que moral o éticamente deban de ser cancelados. Facebook ya está haciendo procesamiento automático de esta información para evitar no solo fake news sino noticias que puedan herir la sensibilidad de los consumidores. Pero iremos más allá. Hasta hace poco Netflix te sugería películas que te podían gustar y ahora mismo ofrece ya una escala, te da una certidumbre sobre hasta qué punto lo que vas a consumir se parece a lo que quieres. Poco a poco vamos a ver que los contenidos no solo nos dan un resultado personalizado sino también la certidumbre de en qué medida es cierto a través de escalas de verificación de su credibilidad mediante sistemas de estrellas o colores.
ALGORITMOS EN REUTERS
«La llegada de internet y la consecuente explosión de información han hecho que a los periodistas cada vez les resulte más difícil generar noticias con precisión y rapidez«. Así arranca un trabajo del equipo de investigación y desarrollo de la agencia de noticias Reuters publicado recientemente en el repositorio de artículos científicos sobre matemáticas y física ArXiv.
Agencias de noticias como Associated Press ya han empezado a explorar la generación de contenidos mediante servicios automatizados que informan de resultados financieros y deportivos incluyendo determinados datos en plantillas predefinidas. Ahora, Reuters describe cómo ha automatizado casi por completo la identificación de las últimas noticias a través de un nuevo sistema, denominado Reuters Tracer, que utiliza Twitter como una especie de sensor global que registra noticias a medida que ocurren.
El sistema emplea varios tipos de minería de datos y aprendizaje automático para seleccionar los acontecimientos más relevantes, identificar el tema central, clasificar su prioridad y redactar un título y un resumen. Las noticias después son distribuidas por el servicio global de la compañía.
Trece servidores que ejecutan 10 algoritmos diferentes procesan diariamente 12 millones de tuits , de los cuales casi el 80% se rechaza como ruido. El resto se asigna a aproximadamente 6.000 agrupaciones clasificadas como diferentes tipos de noticias.
Reuters comparó las historias que identifica Tracer con las que aparecen en las noticias de organizaciones como la BBC y la CNN concluyendo que puede cubrir alrededor del 70% de esas informaciones con el 2% de los datos de Twitter.
No resulta difícil imaginar a grupos de presión diseñando conversaciones en Twitter con la intención de engañar a herramientas como Tracer. Aunque lo cierto es que actualmente los humanos son engañados con regularidad.
UNA BBC PERSONALIZADA
El servicio público de radio y televisión británico, la popular BBC, anunció hace unas semanas un proyecto de cinco años que investigará el uso del machine learning para determinar las preferencias individuales de su audiencia y crear nuevas narrativas audiovisuales mediante algoritmos de aprendizaje automático. En la iniciativa participarán científicos de datos y expertos de ocho centros universitarios británicos así como de compañías internacionales de medios y tecnológicas.
La cadena ofrecerá a su plantilla formación avanzada en la ciencia de datos con el objetivo de que adquieran competencias para crear nuevas experiencias para los usuarios identificando contenidos en función de los intereses de diferentes nichos de audiencia con el fin de generar nuevos programas y series en la línea en que ya lo hace Netflix.