28 jun

ChatGPT, Gemini y Llama 3: comparativa de las herramientas de IA

El presente auge de la inteligencia artificial (IA) no sería posible sin los modelos de lenguaje de gran tamaño (LLM, Large Language Models), modelos de aprendizaje profundo entrenados con ingentes cantidades de datos y centrados en el procesamiento y la generación del lenguaje humano. Con el lanzamiento del modelo GPT en 2018 y de ChatGPT en 2022, OpenAI abrió camino para una IA generativa accesible al gran público.

Otras compañías han desarrollado estos últimos años sus propios LLM. Como Meta, que lanzó la primera versión de Llama en febrero de 2023, o Google DeepMind, que en diciembre de ese mismo año presentó Gemini. Veamos qué ofrecen estas herramientas de IA.

Versiones

GPT-4 es el modelo actual de OpenAI, cuya iteración más reciente es GPT-4o, presentado en mayo de 2024. Ese mismo mes se lanzó Gemini 1.5 Pro, el modelo más avanzado de Google, que se une a las versiones Gemini Ultra, la más potente hasta ahora, y Gemini Nano, diseñada para dispositivos móviles. En abril había aparecido Llama 3, el último modelo de Meta, en dos versiones: 8B y 70B.

Entrenamiento

Estos LLM han sido entrenados con la arquitectura de transformadores, desarrollada por Google y basada en una red neuronal en capas de codificadores y decodificadores que aprende contexto y significado mediante el seguimiento de relaciones en datos secuenciales. Para determinar el funcionamiento del modelo, se usan miles de millones de parámetros. Así, GPT-4o y Gemini 1.5 Pro usan unos 1,7 billones, mientras que Llama 3 70B usa 70.000 millones.

Tanto GPT-4o como Gemini han tenido un entrenamiento multimodal: han sido alimentados con datos en formatos distintos desde el principio, en lugar de ser entrenados para manejar texto y luego trasformar a esa fuente las demás, como es el caso de Llama y de las versiones anteriores de GPT.

Formatos de entrada y salida

Los modelos de OpenAi y de GoogleMind pueden entender y generar tanto texto y código como imagen, audio y vídeo. Llama 3, aunque sí puede crear imágenes, por ahora solo admite entrada textual. Gemini, además, incluirá una marca de agua invisible para identificar el contenido creado. Una innovación interesante de GPT-4o es que puede entender y expresar tonos y emociones al interactuar con voz, además de interpretar expresiones faciales.

Respecto a la ventana de contexto, es decir, la extensión del prompt que pueden procesar, Llama 3 admite 8.192 tokens, GPT-4o cuenta con 128.000 y Gemini 1.5 Pro puede llegar al millón de tokens, el equivalente a 700.000 palabras, 11 horas de audio o 1 hora de vídeo. GPT-4o destaca en su velocidad de respuesta, con una media de 320 milisegundos. Para reducir su latencia, Google cuenta con Gemini 1.5 Flash, una versión más rápida y ligera.

Rendimiento

El rendimiento de los LLM se evalúa con benchmarks, pruebas estandarizadas que miden la capacidad de las herramientas de IA en diversos campos del conocimiento y el razonamiento humanos. Pese a sus diferencias, los tres modelos obtienen puntuaciones similares y muy altas, siendo capaces tanto de realizar tareas cotidianas como de resolver problemas complejos. Sin embargo, ninguno está libre de cometer errores, y pueden generar datos incorrectos o que no tienen base en la realidad (las denominadas «alucinaciones»), por lo que sus creadores siguen trabajando en mejorarlos.

Accesibilidad

Ahora mismo, se puede acceder a GPT-4o a través de ChatGPT Plus, la versión de pago del chatbot, disponible en 150 países. A Gemini 1.5 Pro, presente en más de 180 países, se accede mediante Gemini Advanced, el chatbot de pago de Google One. Llama 3 es accesible mediante las diferentes plataformas de Meta y en la web de Meta AI, aunque de momento solo llega a unos pocos países. Hay que recalcar que la opción de Meta es accesible sin costo y es de código abierto, con lo que los propios usuarios pueden modificar y mejorar el modelo.