【[17星]T-Bench：为AIAgent在终端环境中完成复杂任务提供基准测

爱生活爱珂珂 2025-03-30 21:07:50

【[17星]T-Bench：为AI Agent在终端环境中完成复杂任务提供基准测试。亮点：1. 提供丰富的任务数据集，涵盖多种复杂场景；2. 支持多种语言模型和Agent的集成与测试；3. 交互式任务解决方案支持，助力Agent开发与优化】

'T-Bench is a benchmark for evaluating how well AI agents can accomplish complex tasks in a terminal environment.'

GitHub: github.com/laude-institute/t-bench

AI基准测试终端任务 Agent开发 AI创造营

0 阅读：1

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[194星]Groundhog：揭开AI编程助手的神秘面纱，让你从底层理解并驾

2

【[173星]Gemini Samples：探索Google DeepMind

3

【[258星]Airi：基于LLM的Live2D/VRM虚拟角色生活舱，让虚拟角

4

【[17星]T-Bench：为AI Agent在终端环境中完成复杂任务提供基准测

5

【[3.1k星]CUDA-Learn-Notes：为初学者和开发者提供全面的CU

6

【[38星]libfranka-sim：为Franka机器人开发的高保真仿真后端

7

【[302星]dropseed/plain：用Python打造产品的全新Web框

8

【[42星]Dolphin：多语言、多任务的语音识别模型，为语音处理提供强大支持

9

【[142星]II-Researcher：一款强大的开源框架，助力构建智能搜索/

10

早！[太阳] 早安

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

2

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

3

提前曝光vivo新机涉事方已担责这是vivo法务部发的第一条微博。虽然我们都很期

4

小米汽车在安徽高速上的事故，让人万万没想到的不是车门锁死，里面的人出不来，也不是

5

曝iPhone19Pro外形颠覆我很好奇，iPhone的外形还能有啥颠覆的呢？

6

3大家有没有想换手机3000元左右三台非常不错的手机大家关注了没有真我G

7

荣耀Power今晚发布，真机感觉还不错，相对轻薄，看不出来居然有8000mAh电

8

这就是中美AI之争奉陪到底的底气！就在刚刚，斯坦福公布重磅数据，中国追平美国！

9

昨天转网，10086电话如潮水般涌来！我昨天携号转网从移动转到了新运营商，今

10

最新的手机续航性能排行榜，你用的手机上榜了没有这次的荣耀Power可以说一鸣

科技最新文章

1

左边是6699的真夜神vivoX200Ultra，右边是4899的灭霸v

2

今天遇到个美团骑手，我顺口问：“京东外卖都给交五险一金了，你们怎么不跳槽过去？”

3

华为Watch5来了！华为WATCH5系列首发新型多电极ECG传感器，整体上保

4

能超越Mate的只有Mate，华为Mate80系列或将提前两月发布！

5

老婆买的华为Mate70仅仅只用了2天就给我了，她说不适合她，我心里暗暗窃喜，

6

国内三大旗舰手机已发布谁才是你心中最强的Ultra手机

7

太拼了！荣耀GTPro刚发布两天，系统更新直接甩出王炸！4月25日推送的Mag

8

笑死。苹果宣布所有卖往美国的IPHONE都转到印度制造。我们还没说啥，美国MAG

9

从刘强东对外卖小哥的态度上，终于知道原来余华说的都是真的。余华：“现在如果再

10

从手感上来说，小屏手机还是非常好的。最近在用的三款手机，一款是小屏，一款是轻薄手