Esto es un hito importante en el desarrollo de la Inteligencia Artificial y el comienzo de una nueva era para Google.

Este miércoles, Google presentó “Google Gemini”, un modelo de Inteligencia Artificial (IA) que promete ser el más avanzado a la fecha y que, supuestamente, podría ser incluso mejor que GPT-4, de OpenAI.

De acuerdo con Sundar Pichai, director ejecutivo de Google y Alphabet, Google Gemini sería “el modelo de IA más capaz y generalista que jamás hayamos construido”.

El modelo fue construido desde cero y es multimodal, por lo que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluyendo texto, imágenes, audio, video y código.

¿Cómo funciona Google Gemini?

Hasta el momento, el método estándar para crear modelos multimodales consistía en entrenar componentes separados para distintas modalidades, y luego unirlos para imitar a grandes rasgos algunas de sus funciones.

A veces, estos modelos pueden ser buenos en determinadas tareas, como la descripción de imágenes, pero tienen algunas dificultades con el razonamiento más conceptual y complejo.

Por eso, la compañía diseñó Gemini para que fuera un modelo de IA multimodal de forma nativa, es decir, previamente entrenado en diferentes modalidades y desde el inicio.

Según el informe técnico de esta herramienta, se perfeccionó con datos multimodales adicionales para poder mejorar su eficacia. Esto ayuda a Gemini a comprender y razonar sin problemas todo tipo de entradas desde el principio, mucho mejor que los modelos multimodales existentes.

De hecho, “con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea, por sus siglas en inglés), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento del mundo como su capacidad de resolución de problemas”, explicó Pichai.

El CEO de Google, puntualizó además que estas características ayudan a que Gemini pueda usar sus capacidades de razonamiento para “pensar” con más detención antes de responder preguntas o planteamientos difíciles.

Por el momento Google Gemini tiene 3 versiones:

1. Gemini Ultra, que es el modelo más amplio y con mayor capacidad para tareas de alta complejidad.

2. Gemini Pro, que puede resolver una amplia gama de tareas.

3. Gemini Nano, la función adaptada para dispositivos móviles.