La inteligencia artificial, y en concreto la generativa, tiene numerosas aplicaciones y ramificaciones como ya hemos visto. Una de las que cada vez cobra más protagonismo es la IA multimodal. Son herramientas de machine learning capaces de procesar e integrar múltiples tipos de datos, de forma conjunta, como texto, imagen, audio y vídeo.
Las estadísticas y proyecciones confirman que es un tipo de tecnología en plena eclosión:
Junto a los grandes modelos de lenguaje (LLM) la multimodalidad tendrá una alta capacidad de impacto en las organizaciones en los próximos 5 años, según Gartner. GPT-4, Runway o Gemini son algunas de estas soluciones que se basan en una comunicación multimodal, como la humana. La consultora considera que esta tecnología ayuda “a relacionar diferentes flujos de datos y tiene el potencial de ampliar los beneficios de GenAI en todos los tipos de datos y aplicaciones”. Así, mejora la interacción tecnología-humano con interfaces más naturales e intuitivas.
Posibles casos de uso de IA multimodal
Muchos sectores ven que es el momento perfecto para empezar a incorporar este tipo de tecnologías. Es el caso, por ejemplo, del Facility Management y Facility Services donde, junto a dispositivos de IoT, puede ayudar a analizar datos y hacer predicciones. “La IA y los algoritmos ayudan a cruzar datos y proponer formas de optimización en la gestión de edificios y grandes infraestructuras”, según destaca Ángela García, General Manager de FAMA, la plataforma integral de gestión de activos de Cuatroochenta.
E-book gratuito
¿Cuáles son las 5 tendencias tecnológicas con mayor impacto en 2025?
Dispositivos para una experiencia inmersiva
El desarrollo y despliegue de esta tecnología también está condicionada y ligada a los diferentes dispositivos que se encargan de capturar, procesar e interpretar esos datos. Hasta ahora hemos estado acostumbrados a interactuar con la tecnología a través de ordenadores con ratón o teclado y smartphones con pantallas táctiles y voz.
Aunque la evolución de esta tecnología nos dice que vamos hacia una comunicación multimodal, “de momento no tenemos ningún dispositivo que lo permita de una forma natural”, matiza Ismael Ibáñez, General Manager de Desarrollo a Medida en Cuatroochenta. En esa interacción y mejora de la experiencia del usuario, “existe mucho recorrido”.
«La IA multimodal va a revolucionar la forma en que nos relacionamos e interactuamos con la tecnología. Me acuerdo del primer iPhone sin teclado y sin apenas apps que marcó un punto de inflexión. Con esto puede pasar lo mismo, aunque creo que existe aún recorrido para que irrumpa el dispositivo que lo consiga»
La versatilidad, la mayor precisión y la mejora de la experiencia del usuario son las principales aptitudes de la IA multimodal. Por contra, el procesamiento y la capacidad computacional en tiempo real, el elevado consumo energético y la calidad y complejidad de los datos son algunos de los desafíos que presenta esta tecnología. Aunque todavía es totalmente emergente, su adopción depende en buena medida del grado de madurez digital de las compañías.
En general, la falta de presupuesto, la capacidad tecnológica y el talento son los principales obstáculos que esgrimen las empresas para adoptar IA generativa, según el Barómetro APD Inteligencia Artificial Generalidad “Desde la óptica de la dirección empresarial”. En algunos sectores como la agroindustria o la energía se detectan mayores barreras tecnológicas y de conocimiento para avanzar en la implantación de este tipo de soluciones. A estas limitaciones, hay que sumar la preocupación por la ética y la seguridad, por la protección de datos y por el temor a perder el control en decisiones automatizadas.