ИИ может писать код. Но может ли он поддерживать его со временем?
Вот в чем вопрос, на который пытается ответить новая статья исследователей Alibaba.
Они создали SWE‑CI, эталон, который тестирует ИИ-агентов на реальной эволюции кода, а не просто на разовых исправлениях.
Вот что делает его уникальным: - 100 реальных кодовых баз на Python из 68 репозиториев GitHub - Каждая охватывает ~233 дня разработки - ~71 коммитов на проект в среднем
Вместо того, чтобы исправлять ошибку один раз, агенты вступают в цикл непрерывной интеграции.
Им необходимо обновлять код итеративно, адаптироваться к новым требованиям и поддерживать все работающее, не ломая то, что уже есть.
Это изменяет фокус: От прохождения тестов один раз → к поддержанию качества кода со временем От статической правильности → к долгосрочной поддерживаемости
Они даже внедрили новую метрику: EvoScore. Она поощряет стабильность на поздних итерациях и наказывает за регрессии по мере эволюции кода.
Они протестировали 18 ИИ-агентов по написанию кода.
Результаты рассказывают другую историю, отличную от эталонов.
Большинство моделей могут писать код без проблем. Почти все они испытывают трудности с его поддержанием со временем.
Этот кит заработал 25 миллионов долларов на своем длинном BTC
Давайте разберем это 👇
• Долгосрочная позиция: 353,9 миллиона долларов на BTC (3,000 BTC) • Вход: 109,000 долларов | Текущая цена: 117,997 долларов • Нереализованная прибыль и убыток: +26,8 миллиона долларов • Ликвидация на уровне: 108,551 долларов
Он близок к восстановлению 35 миллионов долларов, которые он потерял ранее.