Создание AI-агента с живым исполнением Python и автоматической проверкой результатов

Использование AI для динамического исполнения Python-кода и его проверки

В этом руководстве показано, как создать продвинутого AI-агента, который генерирует, выполняет и проверяет Python-код в реальном времени. За счет интеграции фреймворка ReAct от LangChain с API Claude от Anthropic система генерирует Python-код, исполняет его на лету, фиксирует вывод, сохраняет состояние исполнения и автоматически проверяет результаты на соответствие ожидаемым критериям или тестам. Этот цикл «написание → запуск → проверка» обеспечивает надежность вычислительных процессов для анализа данных, алгоритмов и ML-пайплайнов.

Установка необходимых библиотек

!pip install langchain langchain-anthropic langchain-core anthropic

В установку входят LangChain, интеграция с Anthropic API и утилиты для оркестровки агента и работы с Claude API.

Основные компоненты: инструмент Python REPL

Класс PythonREPLTool реализует состояние интерпретатора Python. Он выполняет произвольные фрагменты кода, захватывает stdout/stderr, хранит историю исполнения и возвращает подробный отчет с кодом, выводом, ошибками и возвращаемыми значениями.

Автоматическая проверка результатов

Класс ResultValidator использует Python REPL для генерации и выполнения специальных проверок. Он поддерживает:

Проверку математических результатов (количество, минимальные/максимальные значения, суммы)
Проверку анализа данных (наличие переменных, типы и структура)
Проверку корректности алгоритмов с помощью тестовых кейсов

Результаты проверки содержат сводки о прохождении тестов, что гарантирует надежность вычислений.

Интеграция с инструментами LangChain

REPL и валидатор обернуты в объекты Tool для LangChain с именами python_repl и result_validator. Агент может вызывать эти инструменты для исполнения кода и автоматической проверки в рамках процесса рассуждения.

Подсказка для работы агента

Кастомный шаблон подсказки направляет Claude AI:

Анализировать вопрос
Выбирать действия (выполнение кода, проверка результатов)
Наблюдать и повторять
Выдавать полностью проверенный итоговый ответ

Это обеспечивает дисциплинированный подход к решению задач с живым исполнением и проверкой.

Класс AdvancedClaudeCodeAgent

Этот класс объединяет всю систему, инициализируя Claude LLM, настраивая агента с инструментами и подсказкой, предоставляя методы:

run(query): отправка запросов и получение проверенных ответов
validate_last_result(): ручной запуск проверок
get_execution_summary(): отчет о всех выполненных кодах

Примеры использования

Агент демонстрируется на примерах: анализ простых чисел, аналитика продаж, реализация алгоритмов с тестами и ML-пайплайн с кросс-валидацией. Каждый пример выполняет код, проверяет результаты и выводит подробный отчет.

Итоговый отчет по выполнению

После запуска запросов агент предоставляет сводку по общему числу запусков, успешным и неуспешным, а также детальную информацию об ошибках, демонстрируя надежный цикл «написание → запуск → проверка».

Этот продвинутый агент сочетает генеративный AI с точным вычислительным контролем, обеспечивая надежный и воспроизводимый анализ данных и разработку алгоритмов.

Полная реализация доступна в ноутбуке на GitHub, а также рекомендуем следить за обновлениями сообщества.