混合专家架构?这什么鬼?我接到任务,先对任务分类,然后再派发给相应的专家大模型响

洲济捣 2024-12-28 11:47:07

混合专家架构?这什么鬼?

我接到任务,先对任务分类,然后再派发给相应的专家大模型响应处理??

怎么理解起来就是说GPT那些就是单核单线程,DeepSeek就是多核多线程处理。

这样响应速度当然是多核多线程的快。。

那问题来了,底层的专家大模型训练成本呢?有没算进去[允悲]

看这个表述就好像:

我做一个大模型前台,负责接收客户的任务,然后再通过分析算法给任务分类,再根据分类匹配底层专家大模型,通过接口调用大模型完成任务,再返回结果。。

不知道理解的对不对,反正总感觉哪里不对。。巨头花了那么多钱训练,你直接减少90%的训练消耗。。。这里有很大的疑问。

而且如果真的这样,英伟达昨晚应该跌超过10%甚至20%以上。。因为你的卡需求量要暴跌。

但英伟达昨天最多也就跌3%,收盘仅跌2.09%。博通微跌1.49%

周末看看有没真正得专家出来解答疑问。。

0 阅读:5
洲济捣

洲济捣

感谢大家的关注