Январь 2026
Григорий Бездольный
Adoption Lead в Axenix

Как считать эффективность GenAI в разработке: три методологии измерения

Команды разработки — самый дорогой ресурс в IT-компаниях. При этом GenAI в этом направлении внедряют активнее всего, а измерить реальную отдачу от внедрения новых инструментов сложно.

Григорий Бездольный, Adoption Lead в Axenix. За три года практики команда Григория протестировала более 50 сценариев использования GenAI на всех этапах разработки ПО и разработала систему измерения реального эффекта от внедрения нейросетей. В статье Григорий делится инсайтами о внедрении GenAI в разработку и оценке эффективности таких решений.

Проблема: больше кода ≠ больше ценности

Команда Axenix столкнулась с тем, что разработчики активно использовали нейросети, код генерировался быстрее, функции писались за минуты вместо часов. Но стандартные метрики не работали.

Количество строк кода выросло на 50%, но половина переписывается на code review. Скорость написания функций увеличилась, но время до релиза осталось прежним — узкое место оказалось в тестировании. Субъективные оценки показывают 40% экономии, автоматические замеры — всего 7%.
Субъективные оценки разработчиков завышают эффект от GenAI в 1,5–2 раза по сравнению с автоматическими замерами.
Нужна была методология, которая покажет минимально подтверждаемый эффект — тот, который выдержит проверку финансистов и позволит принимать обоснованные решения об инвестициях в AI.

От традиционной разработки к AI на каждом этапе

Axenix уже давно не использует традиционный подход к разработке ПО, когда каждый этап SDLC выполняется вручную. Компания выжала из классической автоматизации максимум — внедрила low-code репозитории, шаблоны и паттерны, автоматизацию тестирования, акселераторы. Передовой подход давал стабильные 10-20% прироста эффективности.

Но команды разработки остаются самым дорогим ресурсом, и когда появились генеративные нейросети, встал вопрос: можно ли выжать еще 5-10%?

Тогда решили перейти на новаторский подход, где GenAI применяется на каждом этапе цикла разработки:

  • Инициация: AI создает требования и подтверждает их корректность.
  • Анализ: AI помогает в проектировании и поиске соответствий между данными, генерирует диаграммы.
  • Дизайн: AI создает low-code репозитории и использует акселераторы.
  • Разработка: AI автоматически конфигурирует системы, генерирует код и валидирует его, ищет ошибки.
  • Тестирование создает тест-кейсы и синтетические данные. При развертывании генерирует конфигурации и обеспечивает безопасность.

Теоретически это должно добавить еще 5-10% эффективности сверх классической автоматизации. Но как это проверить на практике?
Как выглядит применение GenAI на разных этапах SDLC

Три методологии: от субъективной к математически точной

Команда Axenix разработала систему из трех подходов к измерению эффективности GenAI. Каждый решает свою задачу и применяется на разных этапах внедрения.

Методология 1: Качественный подход — для старта пилота

Первая методология используется на старте, когда у компании еще нет инфраструктуры для автоматического сбора данных. Она хороша для старта пилота и вовлечения команды.
Метрики
Time to market — экономия времени на релиз фич.
Time saving — экономия часов на выполнение конкретных задач.
Как работает методология
  • A/B группы на стадии внедрения — одна команда работает с GenAI, другая без него
  • Замеры «до и после» на одной команде с фиксацией изменений
  • Интервью и CSAT-опросы для субъективной оценки улучшений
Эффекты
Разработчики сообщают о 20-40% экономии времени, на отдельных кейсах вроде генерации регулярных выражений или создания SQL-запросов цифры доходят до 80%.

Методология применима на всю команду разработки в цикле SDLC, показывает комплексный эффект на ранних стадиях внедрения технологии.
Ограничения подхода
  • Низкая точность — люди склонны преувеличивать эффект новых инструментов, особенно на волне энтузиазма.
  • Косвенное влияние на эффект — непонятно, что именно дало прирост: сам AI, энтузиазм команды от новой технологии или параллельные улучшения процессов.
  • Отсутствует прямая конвертация в рубли. Эффект новизны проходит через несколько месяцев, и показатели падают.
Качественный подход дает эффект 20-40% на старте, но через 2-3 месяца показатели падают из-за угасания энтузиазма команды.

Методология 2: Количественный подход — для консервативной оценки

Когда пилот показал первые результаты, Axenix перешла к более строгой методологии.
Метрики
  • Принятый разработчиком код, сгенерированный AI.
  • Экономия времени на генерацию кода разработчиком.
Как работает методология
  • Система фиксирует весь сгенерированный AI-код — каждый раз, когда разработчик запрашивает что-то у нейросети.
  • Параллельно логируется принятый код — система отслеживает, какой именно код разработчик скопировал, изменил и добавил себе в проект.
  • Строится дерево метрик для конвертации кода в часы, а часов в рубли.
Пример расчета выглядит так:
  1. Разработчик запросил функцию генерации отчета.
  2. AI выдал 150 строк кода.
  3. Разработчик принял 120 строк — это 80% от предложенного.
  4. Средняя скорость написания такого кода вручную составляет, допустим, 10 строк в час.
Получается экономия в 12 часов работы. При стоимости часа разработчика в 3000 рублей экономия в деньгах составляет 36 000 рублей на одной задаче.
Эффекты
Реальные проекты показывают 5-10% экономии рабочего времени на решение задач. Для команды из 90 человек за 3 месяца это дало экономию примерно 3,4 миллиона рублей. Окупаемость инвестиций — менее года с учетом затрат на разовые инвестиции. Но также, конечно, в следующие годы потребуются затраты на лицензии и поддержание новых процессов в командах.
Ограничения подхода
  • Эффективность и производительность разработчика не ограничиваются только написанием кода. Важнейшей составляющей является «инженерная мысль».
  • Подход применим только для задач разработки, не учитывает аналитику, тестирование, дизайн.
  • Есть зависимость от грейда сотрудника.
Количественный подход дает стабильные 5-10% экономии — это минимально подтверждаемый эффект, который выдержит проверку финансистов.

Методология 3: Генеративный подход — для полной картины

Самая продвинутая методология, которую Axenix разработала для комплексной оценки. Вместо того чтобы считать строки кода, система анализирует проницаемость AI в финальный продукт и полезность сгенерированного контента. Методология применима для всех разработчиков независимо от их навыков. Ее можно совместить с расчетом количественного эффекта для более полной картины. Эффект считается за счет объема кода, но с учетом того, насколько этот код действительно полезен и попал в финальный продукт.
Метрики
  • Проницаемость — какой процент AI-кода попал в продакшн, где 100% означает, что весь код написан LLM, а 0% — весь код написан вручную без AI.
  • Полезность — насколько разработчик использовал ответы AI, где 100% означает полный копипаст без изменений, а 0% — ответы вообще не использовались.
Реальные цифры из проектов показывают от 10% до 40% проницаемости AI-кода в зависимости от этапа SDLC. Полезность сгенерированного кода составляет в среднем 30% — разработчики используют примерно треть от того, что им предлагает AI.
Как работает методология
  • Система собирает весь сгенерированный AI-код — все, что нейросеть предложила разработчику.
  • Параллельно собирается код, который был запушен в Git.
  • Специальный модуль ищет пересечения сгенерированного кода в запушенном коде, используя различные алгоритмы, в том числе генеративные технологии.
Пример расчета для команды из 100 разработчиков:
  • За месяц команда пишет 100 000 строк кода.
  • При проницаемости 55% получается 55 000 строк кода, сгенерированных AI и запушенных в продакшен.
  • При скорости написания, допустим, 10 строк в час и стоимости часа 3000 рублей получается экономия около 16,5 млн рублей в месяц или 55 тысяч часов.

Реальные проекты: от 7% до 31% экономии времени

Axenix применила все три методологии на реальных проектах в банковском, финансовом и промышленном секторах.

Проект в банковском секторе

Команда разработки менее 20 человек, срок внедрения 3 месяца. На старте использовали только качественный подход — A/B группы и опросы разработчиков.

Субъективные оценки показали 28% повышение производительности и 10% среднюю экономию времени на типовых задачах.

Когда подключили количественный подход с автоматическим расчетом, реальная цифра оказалась 7% экономии рабочего времени. Субъективные оценки оказались завышены примерно в полтора раза, но даже консервативные 7% для команды разработки — серьезная экономия.

Проект в металлургии

SDLC-команда менее 100 человек, включая разработчиков, аналитиков, тестировщиков. Срок внедрения 3-6 месяцев. Задача — ускорить разработку внутренних систем управления производством.

Использовали все три подхода одновременно для сравнения. Субъективные оценки показали 24% повышение производительности и 31% сокращение времени на типовые задачи, особенно на генерации документации, создании диаграмм, написании bash-скриптов.

Автоматический расчет дал стабильные 5-10% экономии времени на задачах разработки. Генеративный подход показал от 10% до 40% проницаемости AI-кода в зависимости от этапа SDLC.
На типовых задачах вроде генерации unit-тестов AI дает 50% экономии, на сложных архитектурных решениях — всего 10-20%
На большой команде эффект оказался более предсказуемым. GenAI показал максимальную пользу на рутинных задачах: генерация unit-тестов дает 50% экономии, объяснение кода — 60%, создание SQL-запросов — 50%.

Проект в финансовом секторе

SDLC-команда около 200 человек, срок внедрения 3-6 месяцев. Задача — интеграция GenAI во все этапы разработки финансовых продуктов. Использовали полный цикл замеров от субъективных оценок до генеративного подхода.

Субъективные оценки дали 18% средней экономии времени. Генеративный подход показал, что 17% AI-кода принято разработчиками — почти пятая часть итогового кода сгенерирована нейросетью. Автоматический расчет подтвердил примерно 10% экономии времени как стабильный показатель для крупной команды.

50+ сценариев: где GenAI дает максимальный эффект

Чтобы получить эти результаты, команда Axenix протестировала более 50 конкретных сценариев использования AI на всех этапах SDLC. Генерация unit-тестов — лидер по экономии времени, что эквивалентно высвобождению трети команды тестирования.

Уровни зрелости: почему технология не работает без людей

GenAI-технологии дают эффект только тогда, когда люди готовы ее использовать. Команда Axenix разработала модель зрелости сотрудников по двум осям: активность использования и полезность результатов.

Четыре уровня зрелости команды:

  • Уровень 1 — «что-то слышал, пробовал»
    Минимальное знакомство без реального опыта. Сотрудник слышал про ChatGPT, может быть попробовал один раз из любопытства. Активность низкая, полезность близка к нулю.
  • Уровень 2 — «использует, находит ценность»
    Сотрудник тестирует инструменты, понимает возможности, начинает применять их в реальных задачах. Регулярно обращается к AI для простых задач вроде написания комментария, объяснения ошибки, генерации шаблона. Активность средняя, полезность растет.
  • Уровень 3 — «GenAI является неотъемлемой частью работы»
    Ощутимая продуктивность, уверенное владение инструментами. Сотрудник не представляет работу без AI, использует его на всех этапах, понимает, где AI сильнее человека и наоборот. Активность высокая, полезность максимальная.
  • Уровень 4 — «вдохновляет, делится экспертизой»
    Лидер мнений, обучает коллег, формирует культуру использования GenAI в команде. Сотрудник становится внутренним евангелистом, проводит воркшопы, делится лайфхаками, помогает другим разобраться. Активность очень высокая, полезность высокая плюс мультипликативный эффект на всю команду.
Для успешного внедрения нужно вырастить 15% команды до уровня 3 и 5-10% до уровня 4 за первые 6 месяцев

Барьеры и драйверы внедрения

Команде Axenix пришлось преодолевать несколько типичных барьеров.

Барьеры внедрения:

  • «AI пишет плохой код»
    На старте AI действительно генерировал код с ошибками, решением стало обучение промптингу и использование AI как умного автодополнения.
  • «Это небезопасно»
    Риск утечки кода через публичные AI-сервисы, решением стало развертывание AI-моделей в защищенном контуре компании.
  • «У меня и так нормально работает»
    Сеньоры не видят ценности, решением стало показать сценарии автоматической генерации документации, тестов, рефакторинга legacy-кода.
  • «Нет времени разбираться»
    Команды перегружены задачами, решением стал пилот на добровольцах и quick wins с демонстрацией эффекта за 5 минут.

Драйверы, которые работают:

  • Quick wins
    Показать эффект немедленно через генерацию unit-теста, объяснение legacy-кода, создание SQL-запроса.
  • Чемпионы
    Найти 2-3 энтузиастов в команде, дать им ресурсы, сделать лидерами мнений.
  • Прозрачность
    Показывать метрики, сколько времени сэкономили, сколько денег, какие сценарии работают лучше всего.

Выводы

Опыт Axenix по внедрению GenAI в команды разработки показывает несколько ключевых моментов.

  1. GenAI приносит реальные эффекты при целевом внедрении. Консервативная оценка дает стабильные 5-10% экономии времени, субъективная оценка показывает 20-40%.
  2. Целевое внедрение требует устранения барьеров и поиска драйверов. Без вовлечения людей технология не работает.
  3. Эффект нужно измерять комплексно: через связку технических, операционных и финансовых показателей. Качественный подход для старта, количественный для консервативной оценки, генеративный для полной картины.
  4. Начинать нужно с приоритетных сценариев через пилот и масштабирование. Протестировать 50+ сценариев, выбрать топ-10 по эффективности для конкретной команды, масштабировать.

Как любой инструмент, GenAI требует навыка использования, правильного внедрения и честного измерения результатов.

Другие материалы