deephub

deephub

使用MergeKit创建自己的专家混合模型：将多个模型组合成单个MoE

由于Mixtral的发布，专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预

2024-03-29 11:53
如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否

2024-03-28 11:13
Chronos:将时间序列作为一种语言进行学习

这是一篇非常有意思的论文，它将时间序列分块并作为语言模型中的一个token来进行学习，并且得到了很好的效果。Chrono

2024-03-27 10:58
使用GaLore在本地GPU进行高效的LLM调优

训练大型语言模型(llm)，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出

2024-03-25 09:57
8个常见的数据可视化错误以及如何避免它们

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对

2024-03-24 10:07
BurstAttention:可对非常长的序列进行高效的分布式注意力计算

提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力，如FlashAttention，以及利用

2024-03-23 13:16
文生图的基石CLIP模型的发展综述

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-

2024-03-22 11:22
Moment:又一个开源的时间序列基础模型

时间序列分析跨越了一系列广泛的应用，从天气预报到通过心电图进行健康监测。但是由于缺乏大型且整合的公开时间序列数据，所以在

2024-03-21 10:06
多项式朴素贝叶斯分类器

在这篇文章中，我们介绍多项式朴素贝叶斯分类器是如何工作的，然后使用scikit-learn作为实际工作的示例来介绍如何使

2024-03-20 10:48
在16G的GPU上微调Mixtral-8x7B

Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8

2024-03-19 09:34
2024年3月的计算机视觉论文推荐

从去年开始，针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领

2024-03-18 18:06
LoRA及其变体概述：LoRA,DoRA,AdaLoRA,Delta-LoRA

LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中，我们将解释LoRA本身的

2024-03-15 11:48
MADQN：多代理合作强化学习

处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习

2024-03-14 11:30
2024年3月最新的深度学习论文推荐

现在已经是3月中旬了，我们这次推荐一些2月和3月发布的论文。Why do Learning Rates Transfer

2024-03-13 10:38
傅里叶变换算法和Python代码实现

傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函

2024-03-12 10:08
从16-bit到1.58-bit：大模型内存效率和准确性之间的最佳权衡

通过量化可以减少大型语言模型的大小，但是量化是不准确的，因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情

2024-03-11 11:03
NomicEmbed：能够复现的SOTA开源嵌入模型

Nomic-embed-text是2月份刚发布的，并且是一个完全开源的英文文本嵌入模型，上下文长度为8192。它在处理短

2024-03-10 10:23
使用Tokeniser估算GPT和LLM服务的查询成本

将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本，而这些成本通常是根据处理的令牌数量计算的。我

2024-03-09 09:42
StarCoder2：GitHubCopilot本地开源LLM替代方案

GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用L

2024-03-08 10:51
LLM加速技巧：MutiQueryAttention

MQA 是 19 年提出的一种新的 Attention 机制，其能够在保证模型效果的同时加快 decoder 生成 to

2024-03-07 09:41

签名：提供专业的人工智能知识，包括CV NLP 数据挖掘等