麻省理工学院和IBM联合团队展开transformer在供应链的应用研究

时间序列预测在现代数据分析中扮演着至关重要的角色。它不仅在金融市场、天气预报等领域广泛应用，更是供应链管理中的核心技术之一。通过对历史数据的分析和建模，时间序列预测能够帮助企业预测未来的需求、优化库存管理、提高供应链效率，从而降低成本、提升客户满意度。在供应链管理中，准确的需求预测可以避免库存过剩或短缺，确保产品能够及时供应，满足市场需求。

尽管Transformer神经网络在自然语言处理和计算机视觉等领域取得了显著成功，但其在供应链需求预测中的应用仍然面临诸多挑战。传统的时间序列预测方法，如指数平滑、ARIMA等，虽然在某些情况下表现良好，但在处理复杂的供应链需求预测时，往往力不从心。Transformer模型虽然在时间序列预测中展示了潜力，但其在处理供应链需求预测中特有的稀疏性和跨系列效应时，表现仍有待提高。现有的Transformer模型大多针对通用的时间序列数据集进行优化，缺乏对供应链需求预测这一特定应用场景的专门设计和调整。

8 月 8 日，来自IBM研究中心和麻省理工学院（MIT）的研究团队提出了一种新的Transformer模型——Inter-Series Transformer。该模型通过引入系列间注意力层，旨在捕捉不同产品时间序列之间的动态关系，从而改进需求预测的准确性。具体来说，Inter-Series Transformer模型在初始阶段应用跨时间序列的注意力机制，以捕捉交互并解决稀疏性问题。随后模型使用共享的多任务每时间序列网络，独立地对每个时间序列进行转换，捕捉时间效应并生成预测。通过这种方式，Inter-Series Transformer模型不仅能够有效利用跨系列信息，还能避免多变量建模中常见的过拟合问题。

团队成员包括Rares Cristian、Pavithra Harsha、Clemente Ocejo、Georgia Perakis、Brian Quanz、Ioannis Spantidakis和Hamza Zerhouni。IBM研究中心的研究人员主要来自位于纽约约克镇高地的IBM TJ Watson研究中心，而MIT的研究人员则来自位于马萨诸塞州剑桥市的麻省理工学院。这支跨机构的研究团队结合了IBM在实际应用中的丰富经验和MIT在理论研究中的深厚积累，为本研究提供了坚实的基础和广泛的视角。

相关工作

在时间序列预测领域，传统模型如指数平滑、Holt-Winters和ARIMA模型依然被广泛应用。

指数平滑法通过对过去观测值加权求和进行预测，权重随时间指数递减。指数平滑法简单易用，适用于平稳时间序列，但在处理复杂的季节性和趋势时效果有限。

作为指数平滑法的扩展，Holt-Winters模型增加了捕捉趋势和季节性的组件，能够更好地处理具有季节性和趋势的时间序列。然而该模型在面对高维、多变量时间序列时表现不佳。

自回归积分滑动平均模型（ARIMA）结合了自回归模型、移动平均模型和差分步骤，适用于平稳和非平稳时间序列。尽管ARIMA模型在理论上非常强大，但其复杂性和对参数调优的高要求使其在实际应用中具有一定的局限性。

随着深度学习的发展，循环神经网络（RNN）和卷积神经网络（CNN）在时间序列预测中展现了巨大的潜力。

LSTM（长短期记忆网络）是RNN的一种变体，旨在解决长时间依赖问题。通过引入记忆单元，LSTM能够捕捉时间序列中的长期模式，广泛应用于语言翻译、自然语言处理和时间序列预测。

基于自回归RNN的概率预测方法，DeepAR通过学习季节性行为和协变量依赖关系，能够对具有有限历史数据的时间序列进行预测。其多任务学习方法使其在处理多个时间序列时表现出色。

TCN（时间卷积网络）是一种基于CNN的模型，使用因果卷积来确保卷积输出仅依赖于当前和之前的时间点。TCN在许多序列建模任务中表现优于RNN和LSTM，特别是在处理长时间依赖时。

Transformer模型通过自注意力机制在时间序列预测中取得了显著进展。

TFT（Temporal Fusion Transformer）结合变量选择网络和静态协变量编码器，使用序列到序列层和多头注意力机制，能够学习长时间关系并解释特征重要性。TFT在捕捉复杂时间依赖关系方面表现出色。

Pyraformer引入金字塔注意力模块，利用金字塔图和注意力机制描述不同范围的时间依赖性，适用于长时间序列预测。

Autoformer用自相关机制替代自注意力机制，进行长时间序列预测，能够有效处理复杂的时间模式。

FEDformer是频率增强型Transformer，将输入分解为趋势和季节成分，结合简单线性层进行预测，特别适用于长序列预测。

以上为Inter-Series Transformer模型提供了背景和动机。通过结合传统方法和现代深度学习技术，Inter-Series Transformer模型旨在解决供应链需求预测中的特定挑战，如稀疏性和跨系列效应。

Inter-Series Transformer模型

Inter-Series Transformer模型通过引入一系列创新组件，旨在解决供应链需求预测中的特定挑战，如稀疏性和跨系列效应。

Inter-Series Transformer的编码器和解码器结构类似于传统的Transformer模型。编码器由多个自注意力层和逐位置前馈网络层组成，每个层后面都有残差连接和层归一化，以提高训练的稳定性。编码器的自注意力组件负责计算输入序列中所有元素之间的注意力权重，并基于这些注意力权重对元素进行转换。解码器的架构与编码器相似，但在每个编码器块的两个子层之外，解码器还增加了一个多头注意力子层，该子层对编码器堆栈的输出进行多头注意力计算，从而生成最终的预测。

图1：Inter-Series Transformer系列间注意事项图，此处用单个编码器和单个解码器块进行说明。输入包括P——包含所有目标时间序列的矩阵，Pq——乘积q的目标时间序列，Xq——乘积q的特征矩阵，XIS——序列间注意力层的输出。圆圈中的加号表示最后一个维度中的连接

系列间注意力层是Inter-Series Transformer模型的核心创新之一。该层通过学习不同产品时间序列之间的动态关系，改进目标时间序列的表示。具体来说，系列间注意力层将目标时间序列的上下文窗口作为查询向量，所有其他时间序列的上下文窗口作为键和值向量，从而生成一个更好地表示目标时间序列的上下文窗口。这种方法不仅能够捕捉跨产品的交互，还能帮助解决稀疏性问题，使稀疏的时间序列能够从高体量的时间序列中学习，从而改进预测。

在系列间注意力层之后，Inter-Series Transformer模型应用一个共享的Transformer网络，对目标序列进行转换，捕捉时间效应并生成预测。该网络对所有时间序列共享，即所有时间序列使用相同的网络参数进行训练。这种多任务应用方法能够利用更多的数据进行训练，避免多变量建模中常见的过拟合问题，同时提高模型的性能。

在时间序列预测中，输入特征可能包含离散和连续的数值。为了优化学习，Inter-Series Transformer模型将这些特征映射到高维表示。对于连续特征，使用线性层学习最佳映射方式；对于分类特征，使用嵌入层创建特征向量。最终，这些特征向量和投影的连续输入在传递给Transformer模型之前进行拼接，从而创建一个更全面和信息丰富的输入。

在自然语言处理应用中，位置编码用于为序列中的每个元素分配相对位置。然而，在时间序列预测中，我们有实际的时间特征，因此可以通过日期特征来捕捉相对位置。实验表明，移除位置编码并依赖日期特征能够提高模型性能。具体做法是将日期映射为两个连续特征：年龄（年）和月份，并进行适当缩放。这种方法不仅简化了模型，还提高了训练的稳定性和预测的准确性。

通过这些创新组件，Inter-Series Transformer模型在处理供应链需求预测中的稀疏性和跨系列效应方面表现出色，显著提高了预测的准确性和稳定性。

实验设置

数据集

为了评估Inter-Series Transformer模型的性能，研究团队使用了一个私有数据集和两个公开的零售数据集。

私有数据集：该数据集由一家医疗设备制造公司提供，包含两种类型的产品。第一种类型的数据集包括65个时间序列，展示了总体上升的趋势；第二种类型的数据集包括50个时间序列，展示了总体下降的趋势。每个时间序列对应于特定产品在特定分销中心的销售数据，频率为每月，预测窗口为4-24个月。

公开零售数据集

Walmart Stores Sales：该数据集由Walmart提供，用于Kaggle比赛，包含45个Walmart商店中98个部门的销售时间序列，总计4,410个时间序列，频率为每周，预测窗口为39周。

Walmart M5：该数据集同样由Walmart提供，包含3,049种产品在不同商店的销售数据，并包括基于产品类别和部门以及商店所在州的聚合时间序列，总计44,280个时间序列，频率为每日，预测窗口为28天。

训练过程

为了最大化Inter-Series Transformer模型的性能，研究团队对多个关键参数进行了超参数调优，包括编码器/解码器层数、模型维度、嵌入维度、批量大小和训练周期数。

超参数调优：通过在验证数据上进行多次实验，确定最佳的超参数组合。最终确定的最佳超参数为：2个编码器/解码器层、128模型维度、6嵌入维度、64批量大小和1000训练周期。

学习率调度：使用Adam优化器，初始学习率为0.0015，并在学习率停滞时减少5%。这种学习率调度方法在初步研究中表现良好，因此被用于最终的训练设置。

此外，研究团队还对所有用于比较的神经网络方法进行了类似的超参数调优，以确保结果的一致性和可靠性。

评估指标

为了全面评估模型的性能，研究团队使用了多种评估指标，包括加权平均绝对误差（wMAPE）、均方根误差（RMSE）和均方根缩放误差（RMSSE）。

wMAPE（加权平均绝对误差）：用于衡量预测值与实际值之间的绝对误差，公式如下：

RMSE（均方根误差）：用于衡量预测值与实际值之间的平方误差，公式如下：

其中，m 是时间序列的数量，T 是时间步的数量。

RMSSE（均方根缩放误差）：用于衡量预测值与实际值之间的缩放误差，特别适用于具有较大变异性和稀疏性的时间序列，公式如下：

其中，n 是历史观测值的数量，h 是预测窗口。

通过这些评估指标，研究团队能够全面衡量Inter-Series Transformer模型在不同数据集和预测范围内的性能。

实验结果与分析

传统模型的结果

在实验中，研究团队首先分析了几种传统时间序列预测模型的表现，包括Holt-Winters、ARIMA和简单指数平滑（SES）模型。这些模型分别针对每个时间序列进行拟合，结果如下：

Holt-Winters模型：尽管能够捕捉趋势和季节性，但在处理复杂的供应链需求预测时，表现不尽如人意。

ARIMA模型：虽然理论上强大，但在实际应用中，特别是在处理稀疏和高维数据时，效果有限。

简单指数平滑（SES）模型：在短期预测中表现尚可，但在中长期预测中，准确性显著下降。

总体而言，这些传统方法未能达到预期的准确度，尤其是在处理稀疏性和跨系列效应时表现不佳。

神经网络模型的结果

接下来，研究团队实验了几种基于神经网络的时间序列预测模型，包括DeepAR、GluonTS Transformer和TFT。这些模型在处理复杂时间序列数据时展示了更大的潜力。

DeepAR：基于自回归RNN的概率预测方法，能够学习季节性行为和协变量依赖关系，在短期和中期预测中表现良好。

GluonTS Transformer：作为基础Transformer模型，虽然在短期和中期预测中未能超越Inter-Series Transformer，但在长期预测中表现较好。

TFT（Temporal Fusion Transformer）：结合变量选择网络和静态协变量编码器，特别适用于捕捉长时间依赖关系，在13-24个月的长期预测中表现最佳。

尽管这些神经网络模型在某些方面表现出色，但在处理供应链需求预测中特有的稀疏性和跨系列效应时，仍存在一定的局限性。

最新模型的结果

研究团队还实验了几种最新的时间序列预测模型，包括FEDformer、DLinear和PatchTST。

FEDformer是频率增强型Transformer，尽管设计用于长时间序列预测，但在所有预测范围内均未能超越基线。

DLinear在长期预测中表现略优于FEDformer，但整体表现仍不如Inter-Series Transformer。

PatchTST在长期预测中表现较好，但在短期和中期预测中被Inter-Series Transformer超越。

这些结果表明，尽管这些最新模型在某些方面具有优势，但在处理供应链需求预测的特定挑战时，仍存在一定的不足。

Inter-Series Transformer的表现

Inter-Series Transformer模型在所有实验数据集上均表现出色，特别是在处理稀疏性和跨系列效应方面，显著提高了预测的准确性。

图2：在类型1的产品/时间序列之间学习的注意力权重-针对一个预测。每一行都显示了该目标系列在各列中的注意力权重。颜色越浅表示值越高

私有数据集：在短期（1-3个月）和中期（4-12个月）预测中，Inter-Series Transformer显著优于传统模型和神经网络模型。在长期（13-24个月）预测中，尽管TFT表现最佳，但Inter-Series Transformer仍表现出色。

Walmart Stores Sales数据集：在这个较小且更聚合的数据集上，Inter-Series Transformer表现接近最佳（PatchTST），展示了其在不同数据集上的适应性。

Walmart M5数据集：在这个更大且更细粒度的数据集上，Inter-Series Transformer表现最佳，进一步验证了其在处理复杂时间序列数据方面的优势。

图3：大批量产品示例。如图2所示，产品1、4、10和41具有稀疏时间序列中的大部分注意力权重。

图4：低产量和稀疏产品示例。如图2所示，许多时间序列，如产品6和45，高度依赖于产品1、4、10和41。

图5：稀疏（产品6和45）和高容量（产品4和10）时间序列的价值分布比较。

总体而言，Inter-Series Transformer模型通过引入系列间注意力层和多任务每系列转换等创新组件，在供应链需求预测中展示了显著的性能提升，证明了其在处理稀疏性和跨系列效应方面的有效性。

进一步分析与消融研究

时间序列交叉验证：模型鲁棒性的验证

为了验证Inter-Series Transformer模型的鲁棒性，研究团队采用了时间序列交叉验证技术。这种方法通过在不同的时间段内训练和评估模型，确保模型不仅在特定的评估期内表现良好，还能在不同的时间段内保持稳定的性能。

训练和评估：对于每个评估期，分别在该期之前的历史数据上训练模型，并在评估期内进行评估。滑动窗口方法：使用滑动窗口方法，将训练数据限制在一定的时间范围内，确保模型能够平衡不同时间段的数据量。

图6：1个月预测情况下的滑动评估框架。

结果表明，Inter-Series Transformer模型在不同时间段内均能显著优于基线预测，证明了其鲁棒性和稳定性。

高维表示投影实验：不同特征投影方法的比较

在时间序列预测中，处理不同类型的特征（如离散和连续特征）是一个重要的挑战。研究团队实验了多种特征投影方法，以优化模型的学习效果。

连续特征的线性投影：使用线性层将低维的连续特征映射到高维表示，学习最佳的映射方式。分类特征的嵌入层：使用嵌入层创建分类特征的高维表示。联合嵌入和独立嵌入：实验了将两个ID特征（位置和产品ID）联合嵌入和独立嵌入的方法。

结果表明，独立嵌入两个ID特征的方法效果最佳，因为这种方法能够分别优化每个嵌入，从而提高模型的性能。

位置编码实验：位置编码与连续时间特征的比较

在时间序列预测中，位置编码用于为序列中的每个元素分配相对位置。然而，研究团队发现，位置编码可能会改变初始输入，影响模型的稳定性和关系学习能力。因此团队实验了以下两种方法：

添加位置编码：将重要的日期信息作为输入特征，并强制使用位置编码。移除位置编码：依赖日期特征来捕捉相对位置，将日期映射为两个连续特征：年龄（年）和月份。

实验结果表明，移除位置编码并使用连续时间特征的方法效果最佳。位置编码未能提供额外信息，反而增加了训练复杂性。因此，研究团队建议在时间序列预测中移除位置编码，改用日期特征。

通过这些进一步的分析与消融研究，研究团队验证了Inter-Series Transformer模型的鲁棒性，并优化了特征投影和位置编码的方法，从而进一步提高了模型的性能和稳定性。

结论与未来工作

Inter-Series Transformer模型通过引入一系列创新组件，显著提升了供应链需求预测的准确性和稳定性。

通过系列间注意力层，模型能够利用高体量时间序列的信息来改进稀疏时间序列的预测。这种方法有效地解决了供应链需求预测中常见的稀疏性问题。系列间注意力层能够捕捉不同产品时间序列之间的动态关系，从而改进目标时间序列的表示。这对于处理供应链中不同产品之间的相互影响尤为重要。

共享的Transformer网络能够利用更多的数据进行训练，避免多变量建模中常见的过拟合问题，同时提高模型的性能。通过将不同类型的特征映射到高维表示，模型能够更全面地利用输入特征的信息，从而提高预测的准确性。

实验表明，移除位置编码并使用连续时间特征能够提高模型性能，简化模型结构，提高训练稳定性。总体而言，Inter-Series Transformer模型在处理供应链需求预测中特有的挑战时，展示了显著的性能提升，证明了其在实际应用中的潜力。

尽管Inter-Series Transformer模型在供应链需求预测中表现出色，但仍有一些潜在的改进方向可以进一步提升其性能。

未来的研究可以探索将系列间注意力机制扩展到其他时间序列数据的特征上，而不仅仅是目标时间序列。这将允许更全面地分析不同特征之间的关系，可能会带来更准确的预测结果。

研究可以进一步探讨增加Inter-Series Transformer模型的深度，通过添加多个系列间注意力层来捕捉更复杂的非线性转换。这可能会进一步提高模型的预测性能，特别是在处理更复杂的时间序列数据时。

虽然本研究主要集中在供应链需求预测上，但未来可以将Inter-Series Transformer模型应用于其他领域，如金融预测、天气预报等，以验证其在不同应用场景中的有效性。这些研究方向为进一步改进和扩展Inter-Series Transformer模型提供了有趣的机会，有望在时间序列预测领域带来更多的突破和创新。（END）

参考资料：https://arxiv.org/pdf/2408.03872

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

麻省理工学院和IBM联合团队展开transformer在供应链的应用研究

独角也有噬元兽