一款面向程序员的AI编程产品火了！主打专业正确，消灭回答不可靠

一直以来，无论是GPT、Claude还有国内的AI对话产品，都一直被诟病“AI回答不可靠”，尤其是在程序员这类对AI回答的可靠性要求极高的场景（毕竟AI给代码里埋个bug，背锅的还是程序员）。

而且当AI给的代码不可靠的时候，程序员发现跑不通或效果不对的时候，这时候再通过后续的prompt工程、追问等，大概率还是不行，对话次数多了之后AI甚至会发生遗忘，反而浪费了程序员的编程时间。

最近，一款名为AskManyAI的产品注意到了程序员群体的这个痛点，并且成功找到了一个简单、优雅的解决方法——

当单个AI对你提问的问题理解不到位、回答错误的时候，不要做prompt工程，也不要试图纠正它，而是选择直接抛弃它，直接换AI！

没错，AskManyAI的研发团队在日常的使用中做了详细的统计，发现无论是GPT-4还是Claude3.5，对于AI编程类的对准确性要求高的复杂问题上，其日常回答的正确率、可靠性都只能做到70%~80%。

这意味着，你提10个问题，有2、3个问题就得不到正确的回答，浪费程序员的时间。

但AskManyAI研发团队发现，由于各个AI在训练时存在较大的差异，导致他们的能力短板长板各自有所不同，形成了明显的互补效应。这意味着，当一个AI对某个问题回答错误的时候，这个问题很可能另一个AI能回答正确。但具体是哪个AI能回答对，这无法预测。

于是，AskManyAI想到，如果提问的时候一次性同时问GPT-4o、GPT-4、Claude-3.5、Claude-3 Opus的话，是不是回答的正确率能得到直线飙升？

带着这个疑问，AskManyAI研发团队在经过长达一个月的“人肉测试”后，惊喜的发现通过对主流6个AI模型的同时提问，在程序员编程、debug场景的问题满足率/回答正确性上直线飙升了接近20个百分点，错误率从单个AI的20%~30%下降到了不足5%。

这就是AskManyAI产品研发的初衷。

笔者果断去尝试了一把，如图所示，笔者出了一道非常复杂的编程需求题目：

要对一个非常复杂的数据结构的mongoDB记录进行一系列非常复杂的操作、变形，最终得到一个三级嵌套的复杂数据结构的json字典。

这个需求，笔者光写就写了500字。

笔者先是将这个问题同时抛给了Claude-3.5、GPT-4o、GPT-4和Claude-3 Opus。然后发现——

笔者忘记在问题中加一个限定条件了，咳咳。。。

（你们别打我

所以我又同时告诉所有的4个AI，我再加一个补充条件。。。

这次，所有的AI根据我的补充条件，写了他们的代码。

我认真审查后发现，果然！！

只有Claude-3.5的回答靠谱！

GPT系列的模型没有正确的理解我的需求，写出的代码不对。而Claude-3 Opus写的虽然对，但是代码很不优雅。

于是我选择了采纳Claude-3.5的回答，然后继续追加需求

果然，Claude-3.5对我的新需求理解也到位，给到了正确的代码。

你们可以通过左边的目录，清晰的看到我的对话过程。

第一次提问，提问给了4个AI——GPT-4o、GPT-4、Claude3.5、Claude3Opus。

第二次提问，补充条件，给了全部4个AI。

第三次，发现只有Claude3.5回答正确，于是采纳它，深入的修改需求、增加新需求等。

至此，我的一个复杂的编程需求完美得到了解决。

若没有AskManyAI，我一定还深陷在调教GPT-4的痛苦中。。。

最后附传送门：

https://askmanyai.chat

一句话总结吧，未来AI产品一定会向着不断细分前进。

而在程序员群体来说，AskManyAI我愿称之为2024年度最惊喜的实用性产品。

幸福双城资讯网