Anthropic adquirió la startup Vercept, especializada en visión por computadora y percepción de interfaces, — y no se trata simplemente de otro trato de compra de un equipo de chicos inteligentes. Es una declaración para convertir a Claude de un asistente de texto parlante en un trabajador digital completo, capaz de presionar botones, completar formularios y navegar por el caos informático corporativo sin supervisión humana constante.
Hasta ahora, el trabajo de Claude con la computadora se veía aproximadamente así: el modelo observa una captura de pantalla, intenta adivinar la finalidad de cada elemento y da el siguiente paso. Funciona cuando todo es claro y predecible. Pero el software corporativo real no es un banco de pruebas de laboratorio. Allí, las ventanas emergentes aparecen en el momento menos oportuno, los paneles de control cambian en medio del trabajo y diferentes proveedores de software parecen competir por ver quién confunde más al usuario con su interfaz. El enfoque de 'mira la captura de pantalla y reza' se estancaba precisamente aquí: lento, costoso e ineficaz.
Los fundadores de Vercept — Kiana Ehsani, Luca Weihs y Ross Girshick — han estado durante años ocupándose de lo que le faltaba a Anthropic: la capacidad de rastrear el estado de la aplicación en el tiempo, en lugar de percibir cada pantalla como una tarea desde cero. Una persona entiende instintivamente que el programa se está cargando, que el proceso se ha detenido o que la ventana emergente ha cambiado el contexto. La mayoría de los agentes de IA no pueden hacer esto. En Vercept, sí podían.
Esta ya es la segunda compra emblemática de Anthropic en poco tiempo: antes de esto, la compañía adquirió Bun, una herramienta para lanzar agentes de IA en sistemas de negocios operativos. La imagen se está formando: Anthropic está recolectando metódicamente todos los componentes necesarios para que Claude deje de ser simplemente un chatbot y se convierta en una plataforma para la ejecución autónoma de tareas. OpenAI está construyendo el sistema Operator, Google está demostrando agentes capaces de ver, oír y actuar simultáneamente en el marco del proyecto Project Astra; la carrera por los agentes de IA autónomos está en pleno apogeo, y el control sobre el nivel de percepción de interfaces se está convirtiendo en un activo estratégico.
La lógica económica del trato es transparente: la mayoría de los sistemas corporativos no tienen interfaces de programación completas para el control externo, y aquellos que las tienen solo abren una parte de la funcionalidad. La forma universal de interactuar con el programa sigue siendo la interfaz de pantalla misma, a través de la cual trabaja la persona. Una IA capaz de entenderla de manera nativa hace innecesario el costoso desarrollo de integraciones individuales para cada sistema. Vercept es precisamente el ladrillo que faltaba en esta construcción.
Opinión de IA
Desde el punto de vista de la economía de la automatización, el trato con Vercept revela una curiosa contradicción. La expansión de las capacidades del agente suena lógicamente como un camino hacia la reducción de su costo: más habilidades, menos errores, más rápido. Pero en la práctica es más complicado: cuanto más compleja es la tarea, más recursos computacionales consume. Ya ahora, el uso del agente Claude le cuesta a las empresas una suma comparable al salario de un empleado a tiempo completo, a pesar de que el agente opera al 10-20% de sus capacidades. La tecnología de percepción de interfaces hará que los agentes sean significativamente más poderosos, pero ¿los hará más baratos?
La respuesta a esta pregunta determinará si los trabajadores de IA autónomos se convertirán en un fenómeno masivo o seguirán siendo una herramienta para grandes corporaciones con presupuestos para experimentos.
#AImodel #AI #Anthropic #Write2Earn

