deephub

deephub

优化采样参数提升大语言模型响应质量：深入分析温度、top_p、top_k和min_p的随机解码策略

当向大语言模型(LLM)提出查询时，模型会为其词汇表中的每个可能标记输出概率值。从这个概率分布中采样一个标记后，我们可以

2024-09-05 10:24
使用PyTorch从零构建Llama3

我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后，有小伙伴留言说希望介绍一下Llama 3。那么今

2024-09-04 11:35
一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

爱德华·蒙克(Edvard Munch)的"蒙特卡洛赌场的轮盘桌"(1892)蒙特卡洛方法的起源与发展1945年，在第二

2024-09-03 09:58
CNN中的注意力机制综合指南：从理论到Pytorch代码实现

注意力机制已经成为深度学习模型，尤其是卷积神经网络（CNN）中不可或缺的组成部分。通过使模型能够选择性地关注输入数据中最

2024-09-02 10:00
压缩大型语言模型(LLMs):缩小10倍、性能保持不变

尽管LLMs的巨大规模使其在广泛的应用场景中表现卓越,但这也为其在实际问题中的应用带来了挑战。本文将探讨如何通过压缩LL

2024-09-01 09:42
6种有效的时间序列数据特征工程技术（使用Python）

在商业分析中，"时间"是一个核心概念。我们基于时间组件来分析销售数据、收入、利润、增长，甚至进行预测。然而，对于初学者来

2024-08-31 10:03
PyTorch数据处理：torch.utils.data模块的7个核心函数详解

在机器学习和深度学习项目中,数据处理是至关重要的一环。PyTorch作为一个强大的深度学习框架,提供了多种灵活且高效的数

2024-08-30 09:11
使用PythonTorchRL进行多代理强化学习

随着多代理系统的出现,强化学习的复杂性不断增加。为了管理这种复杂性,像 TorchRL 这样的专门工具提供了一个强大的框

2024-08-28 10:37
深入理解GPU内存分配：机器学习工程师的实用指南与实验

给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?要回答这个问题,我们需要

2024-08-27 10:51
时间序列特征提取：从理论到Python代码实践

时间序列是一种特殊的存在。这意味着你对表格数据或图像进行的许多转换/操作/处理技术对于时间序列来说可能根本不起作用。"特

2024-08-26 20:44
有效的时间序列可视化：减少认知负荷获得更清晰的洞察

可视化时间序列数据是具有挑战性,尤其是涉及多个数据集时。精心设计的可视化不仅能清晰地传达信息,还能减少观察者的认知负荷,

2024-08-25 16:06
XGBoost中的正则化的9个超参数

正则化是一种强大的技术,通过防止过拟合来提高模型性能。本文将探索各种XGBoost中的正则化方法及其优势。为什么正则化在

2024-08-24 19:25
基于重要性加权的LLM自我改进：考虑分布偏移的新框架

LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用

2024-08-23 10:45
基于距离度量学习的异常检测：一种通过相关距离度量的异常检测方法

异常通常被定义为数据集中与大多数其他项目非常不同的项目。或者说任何与所有其他记录(或几乎所有其他记录)显著不同的记录,并

2024-08-22 11:36
泊松自助法（PoissonBootstrapSampling）：大型数据集上的自助抽样

自助抽样可以根据收集的样本推断总体的统计特征(如均值、十分位数、置信区间)。泊松自助抽样（Poisson Bootstr

2024-08-21 10:04
深入理解双变量（二元）正态投影：理论基础、直观解释与应用实例

在统计学和机器学习中,理解变量之间的关系对于构建预测模型和分析数据至关重要。探索这些关系的一种基本技术是双变量投影 bi

2024-08-20 11:43
三元组损失Tripletloss详解

深度神经网络在识别模式和进行预测方面表现出色,但在涉及图像识别任务时,它们常常难以区分相似个体的图像。三元组损失是一种强

2024-08-19 10:23
将VAE用于时间序列：生成时间序列的合成数据

变分自编码器(VAEs)是一种生成式人工智能,因其能够创建逼真的图像而备受关注,它们不仅可以应用在图像上，也可以创建时间

2024-08-17 10:06
LongWriter:基于LLM代理可以将输出窗口大小扩展到10,000+个单词

LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效

2024-08-16 10:03
60行代码就可以训练/微调SegmentAnything2(SAM2)

SAM2（Segment Anything 2）是Meta开发的一个新模型，可以对图像中的任何物体进行分割，而不局限于特

2024-08-15 10:14

签名：提供专业的人工智能知识，包括CV NLP 数据挖掘等