Теперь ИИ будет бороться за экраны наших компьютеров.
После нескольких недель шумихи OpenAI выпустила своего первого ИИ-агента под названием Operator. Это веб-приложение, которое может выполнять простые задачи в браузере, такие как бронирование билетов на концерт или оформление заказа в маркетплейсе. Оно работает на базе новой модели Computer-Using Agent (CUA).
В компании утверждают, что её инструмент превосходит все аналоги, включая Computer Use от Anthropic (тоже может выполнять простые задачи на ПК) и Mariner от Google DeepMind (агент для просмотра веб-страниц, созданный на основе Gemini 2.0).
Тот факт, что три ведущие мировые компании в области искусственного интеллекта сосредоточились на одном направлении, ясно показывает: в гонке за лидерство в ИИ возник новый фронт — экраны наших компьютеров.
Переход от создания текста и изображений к выполнению задач — это правильное направление. Это открывает дополнительные возможности и решает старые проблемы.
Али Фархади
Генеральный директор Алленовского института искусственного интеллекта (AI2)
Operator «читает» экран, анализирует пиксели и выполняет действия, взаимодействуя с графическими интерфейсами, как человек. Нейросеть выполняет задачи на большинстве веб-сайтов, повторяя цикл: сканирует дисплей, выполняет действие, снова сканирует и выполняет ещё одно действие и так далее.
CUA делит задачи на более мелкие этапы и последовательно работает с ними, возвращаясь к предыдущим, если сталкивается с трудностями. В OpenAI отмечают, что нейросеть обучалась с использованием методов, схожих с теми, которые применяются для моделей рассуждения o1 и o3.
Компания протестировала агента на ряде отраслевых заданий. Например, в OSWorld, где проверяются такие навыки, как объединение PDF-файлов или работа с изображениями, он показал результат 38,1% по сравнению с 22,0% у Computer Use. Для сравнения, средний показатель у людей составляет 72,4%. В тесте WebVoyager, оценивающем эффективность выполнения задач в браузере, Operator набрал 87%, Mariner — 83,5%, а Computer Use — 56%.
Пока новый инструмент может выполнять задачи только в браузере. OpenAI планирует расширить его возможности в будущем через API.
Для его использования достаточно ввести инструкции в текстовое поле. Однако вместо открытия браузера на вашем компьютере, система отправляет их в удалённый браузер, работающий на сервере OpenAI. В компании утверждают, что это повышает эффективность.
Поскольку агент работает в облаке, он может выполнять несколько задач одновременно. В демонстрации один из создателей попросил его использовать онлайн-платформу OpenTable, чтобы забронировать ему столик на двоих в 18:30 в ресторане Octavia в Сан-Франциско. Он ловко справился с этой многошаговой задачей.
Пока Operator доступен только в США по подписке ChatGPT Pro. В компании обещают в будущем развернуть инструмент для других пользователей.
Новости из мира технологий 🤔 iPhone SE 4 будет мощнее и меньше, чем предполагалось Xiaomi выпустит ультратонкий смартфон для конкуренции с Galaxy S25 Edge и iPhone 17 Air Samsung впервые показала AR-гарнитуру Project Moohan — ответ на Apple Vision Pro с Android XR