Google ha lanzado una vista previa de Gemini 2.5 Computer Use, el modelo de lenguaje que impulsa Project Mariner. Basada en Gemini 2.5 Pro, esta IA permite que agentes puedan interactuar directamente con interfaces gráficas, como formularios web o aplicaciones móviles. Tras una prueba con evaluadores internos, el gigante tecnológico decidió abrirlo a más desarrolladores a través de la API de Gemini.
De acuerdo con una publicación en su blog, Google anunció que la versión preliminar pública de Gemini 2.5 Computer Use ya está disponible. El nuevo modelo está diseñado para ejecutar acciones dentro de interfaces gráficas. El objetivo es que agentes de IA puedan interactuar directamente con un entorno visual, como el navegador web de escritorio o móvil.
En términos prácticos, este modelo puede visitar páginas, hacer clic en botones, rellenar formularios y más. Esto permite que el usuario delegue tareas sin necesidad de programar. Por ejemplo, puedes pedirle a la IA que busque información, programe una reserva en línea o se registre en una web sin tener que teclear manualmente la información.
Gemini 2.5 Computer Use analiza lo que ve en pantalla, junto con la instrucción y el historial de acciones previas. Antes de llevar a cabo algunas acciones —como enviar datos o realizar una compra—, el modelo solicita la confirmación del usuario. Cada acción es evaluada por un sistema de seguridad externo que evita comportamientos maliciosos.
Si esto te suena conocido es porque Gemini 2.5 Computer Use es la base de Project Mariner, una iniciativa de Google para acelerar el desarrollo de agentes de IA. Junto con Project Astra, Project Mariner es pieza crucial de ese futuro automatizado en donde los usuarios tienen la opción de delegar tareas.

Cómo funciona Gemini 2.5 Computer Use
La versión preliminar, disponible a través de la API de Gemini en Google AI Studio y Vertex AI, se activa a través de la herramienta computer_use. El flujo de esta instrucción considera la solicitud del usuario, una captura de pantalla del entorno y el historial de acciones recientes. El gigante tecnológico menciona que Gemini 2.5 Computer Use está optimizado para navegadores web, aunque también podría ejecutar acciones desde el móvil.
Para mostrar su desempeño, Google publicó algunas demos de aplicaciones en tiempo real. La primera de ellas obtiene los datos de una web para gestionar citas en un spa para mascotas. Esta demo lleva a cabo navegación entre dos páginas, extracción de datos filtrados por ubicación, rellenado de campos en un CRM y programación de citas.
La segunda demo muestra cómo puedes organizar tus tareas si tienes un tablero lleno de post-its. Aquí, la IA realiza una interpretación visual del tablero, clasifica las notas de acuerdo a una lista de categorías definidas y las reorganiza.
Aunque el rendimiento en estas demostraciones es notable, Gemini 2.5 Computer Use todavía no puede controlar nuestro sistema operativo de escritorio para llevar a cabo tareas robustas. Es probable que las próximas versiones del modelo adquieran esta capacidad, aunque conociendo a los legisladores, tal vez nunca las veremos implementadas en Europa por cuestiones de privacidad y seguridad.
De cualquier modo, todos los interesados en probar el nuevo modelo de Google podrán hacerlo a partir de hoy. Gemini 2.5 Computer Use está disponible a través de la API de Gemini en Google AI Studio y Vertex AI. Solo recuerda que es una versión preliminar y podría incluir errores.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://hipertextual.com/inteligencia-artificial/google-gemini-2-5-computer-use/