【[17星]T-Bench:为AIAgent在终端环境中完成复杂任务提供基准测

爱生活爱珂珂 2025-03-30 21:07:50

【[17星]T-Bench:为AI Agent在终端环境中完成复杂任务提供基准测试。亮点:1. 提供丰富的任务数据集,涵盖多种复杂场景;2. 支持多种语言模型和Agent的集成与测试;3. 交互式任务解决方案支持,助力Agent开发与优化】

'T-Bench is a benchmark for evaluating how well AI agents can accomplish complex tasks in a terminal environment.'

GitHub: github.com/laude-institute/t-bench

AI基准测试 终端任务 Agent开发 AI创造营

0 阅读:1