《Time-series Extreme Event Forecasting with Neural Networks at Uber》笔记

简介

Uber时间序列的前一篇,利用神经网络对Uber极端事件进行时间序列预测。给了M3数据集的方法比较结果,貌似看到希望了。

摘要

在高方差段(如节假日)进行准确的时间序列预测对于异常检测、最优资源分配、预算规划和其他相关任务至关重要。在Uber,对特殊事件期间完成的行程进行准确预测,可以提高司机分配的效率,从而减少乘客的等待时间。

用于处理该任务的现有技术方法通常依赖于单变量预测模型(例如,Holt-Winters)和机器学习方法(例如,随机森林)的组合。 然而,这样的系统难以调整,缩放和添加外生变量。

基于LSTM网络的复兴,我们提出了一种新的端到端递归神经网络架构,该架构在Uber数据上优于当前最先进的事件预测方法,并很好地推广到用于时间序列预测竞赛的公共M3数据集。

引言

在高方差段(例如,假期,体育赛事)期间准确的需求时间序列预测对于异常检测,最佳资源分配,预算计划和其他相关任务是至关重要的。 这个问题具有挑战性,因为极端事件预测取决于许多外部因素,包括天气,城市人口增长或营销变化(例如,驾驶员激励)(Horne&Manzenreiter,2004)。

经典的时间序列模型,例如标准R预测(Hyndman& Khandakar,2008)包中的模型,是提供单变量基本级预测的常用方法。 为了结合外生变量,采用机器学习方法通常是基于分位数随机森林(Meinshausen,2006)。 这种现有技术方法在精确建模特殊事件方面是有效的,然而,由于重新训练次数过多,它不灵活并且不能缩放。

经典时间序列模型通常需要手动调整以设置季节性和其他参数。 此外,尽管存在可以包含外生变量的时间序列模型(Wei,1994),但它们受到维度的诅咒并且需要频繁的再训练。 为了更有效地处理外生变量,在(Opitz,2015)中引入了单变量建模和机器学习模型来处理残差的组合。 然而,由此产生的两阶段模型难以调整,需要手动特征提取和频繁的再训练,这对于数百万个时间序列来说是无法实现的。

最近,基于长短期记忆(LSTM)(Hochreiter& Schmidhuber,1997)技术的时间序列建模由于其端到端建模,易于结合外生变量和自动特征提取能力而受到欢迎(Assaad等,2008)。 通过在众多维度上提供大量数据,可以看出LSTM方法可以模拟复杂的非线性特征相互作用(Ogunmolu等,2016),这对于模拟复杂的极端事件至关重要。

我们的初始LSTM实现相对于上述现有技术方法没有表现出优越的性能。 在第4节中,我们讨论了我们的初始LSTM实现的关键体系结构更改,这些实现是为单模型,异构时间序列预测实现大规模性能所需的。

本文的贡献如下:

  • 我们提出了一种新的基于lstm的体系结构,并使用异构时间序列对单个模型进行训练。
  • 在私有和公共数据的基础上进行了实验,验证了该模型的通用性和可扩展性。

本文的其余部分结构如下:第2节提供了基于经典和神经网络的时间序列预测模型的简要背景。 第3节描述了数据,更具体地说,它是如何构建和预处理的,用作LSTM模型的输入。 第4节描述了我们最初的LSTM模型的体系结构更改。 第5和第6节提供了结果和随后的讨论。

背景

极端事件预测已成为预测高峰用电需求、交通拥堵严重程度和高峰时段拼车等应用的热门话题。(Thorarinsdottir,2012)。事实上,统计学中有一个分支叫做极值理论(EVT)(de Haan&Ferreira,2006),它直接涉及这一挑战。为了解决峰值预测问题,提出了单变量时间序列和机器学习方法。

虽然单变量时间序列方法直接对时域进行建模,但它们经常需要再训练(Ye&Keogh,2009)。 机器学习模型通常与单变量时间序列模型结合使用,从而产生一个庞大的两步过程来解决极端事件预测问题(Opitz,2015)。 与传统的时间序列方法一样,LSTM可以很好地模拟时域,同时也可以模拟非线性特征相互作用和残差(Assaad等,2008)。

我们发现普通的LSTM性能比基线差。因此,我们提出了一种新的体系结构,它利用自动编码器进行特征提取,实现了比基线更好的性能。

数据

在Uber,我们匿名访问了数百个城市的乘客和司机数据。尽管我们拥有大量的数据,但由于新城市和特殊活动的数据稀疏性,我们面临着挑战。为了避免数据的缺乏,我们使用了额外的功能,包括天气信息(例如,降水、风速、温度)和城市级别信息(例如,当前旅行、当前用户、本地假日)。原始数据集的示例如图1(b)所示。

创建训练数据集需要分别具有所需回顾和预测范围的滑动窗口 $X$(输入)和 $Y$(输出)。 $X;Y$ 由(批次,时间,特征)组成。 有关 $X$ 和 $Y$ 的示例,请参见图1(a)。

神经网络对未缩放的数据敏感(Hochreiter& Schmidhuber,1997),因此我们将每个小批量标准化。 此外,我们发现,与去季节性相反,去趋势可以产生更好的结果。

建模

在本节中,我们首先介绍了模型中用于不确定性计算的策略,然后在4.2节中,我们提出了一种用于时间序列预测的新的可扩展神经网络体系结构。

不确定性估计

极端事件问题本质上是概率问题,基于神经网络的时间序列预测中的鲁棒不确定性估计是关键。不确定性估计的方法有很多,从贝叶斯方法到基于bootstrap理论的方法(Gal,2016)。在我们的工作中,我们结合Bootstrap和贝叶斯方法来产生一个简单的、健壮的和紧密的不确定性边界,具有良好的覆盖和可证明的收敛性(Maddala,1996)。

列表1.估计不确定性边界的实际实现

这种方法的实施非常简单实用(见列表1)。 图2(a)和(b)描述了不确定性推导和使用的基础模型。 上述不确定性计算包括了提出的端到端预测模型的完备性,可以用其他不确定性度量代替。 我们将关于近似界限的讨论,与其他方法的比较(Kendall&Gal,2017)以及其他详细的不确定性实验进行了讨论。

模型和预测不确定性的推导

模型的不确定性通过左边的体系结构进行估计,而预测的不确定性通过右边的体系结构进行估计。

图2. 模型与预测不确定性

使用单一模型进行异构预测

为数百万个指标训练每个时间序列的模型是不切实际的。 此外,训练单一普通的LSTM不会产生有竞争力的结果。因此,我们提出了一种新颖的模型体系结构,为异构预测提供单一模型。如图3(b)所示,该模型首先通过自动特征提取对网络进行初始化,这对于大规模捕捉特殊事件中的复杂时序动态至关重要。这与手动提取特征的标准特征提取方法相反,见图3(a)。然后通过集成技术(例如平均或其他方法)对特征向量进行聚合。最后的向量与新的输入连接起来,并输入LSTM预测器进行预测。使用这种方法,我们比在一组原始输入上训练的多层LSTM模型平均提高了14.09%。

注意,在图3 (b)中包含由自动编码器产生的额外功能有不同的方法。可以通过扩展输入大小或增加图3 (b)中LSTM预测器的深度来包含额外功能,从而删除LSTM自动编码器。然而,拥有一个独立的自动编码器模块,在我们的经验中产生了更好的结果。关于设计选择的其他细节留到论文的较长版本中讨论。

手工推导的经典时间序列特征(Hyndman等,2015)。

自动编码器可以提供强大的特征提取用于启动神经网络。

图3. 单模型异构预测

结果

本节提供了所描述的特殊事件模型和一般时间序列预测准确性的实证结果。 使用带有Tensorflow的AWS GPU实例进行训练。 除非另有说明,否则SMAPE被用作定义为 $\frac{100}{n}\times \sum_n\frac{|\hat y-y_t|}{2(|\hat y_t|+|y_t|)}​$ 的预测误差度量。所描述的神经网络模型在数千个时间序列上进行训练,每个时间序列具有数千个数据点。

特殊事件预测精度

一份历时5年的美国各大城市每日完成行程(按人口计算)的历史数据,被用于提供美国所有主要节假日的预测。图4显示了具有相应不确定性的平均SMAPE。测量不确定性的变化系数定义为 $c_v=\frac{\sigma}{\mu}$。我们发现最难预测Uber出行预期的节日之一是圣诞节,它对应着最大的错误和不确定性。较长版本的论文将包含更详细的误差和不确定性评估每个城市。结果表明,与现有的包含单变量时间序列和机器学习单一模型的方法相比,预测精度提高了2%-18%。

图4. 个体节假日表现

一般时间序列预测精度

本节描述了训练模型在一般时间序列上的预测精度。 图5显示了相对于单一模型在新时间序列上的预测性能。 请注意,为了与单一模型的每个查询训练要求相比,我们训练单个神经网络。 第3节中描述的类似预处理应用于每个时间序列。 图6显示了同一模型在公共M3基准测试中的表现,该基准测试由1500个月的时间序列组成(Makridakis&Hibon,2000)。

图5. 相对于当前专有模型的生产查询的预测错误

图6. 公共M3数据集的预测。 对Uber数据进行单神经网络训练,并与M3专用模型进行比较。

结论

我们在Uber提出了一种端到端神经网络的特殊事件预测架构。我们已经展示了它在Uber数据上的性能和可伸缩性。最后,我们展示了模型s对Uber数据和M3公共月数据的一般预测适用性。

根据我们的经验,选择时间序列的神经网络模型有三个标准:时间序列的数量、时间序列的长度和时间序列之间的相关性。 如果三者够高,则神经网络可能是正确的选择,否则经典的时间序列方法可能效果最好。

我们未来的工作将集中在利用神经网络调试和执行的不确定性信息的进一步研究对一般为异构的时间序列预测模型预测和特征提取与类似的用例通用ImageNet模型用于一般的图像特征提取和分类(Deng等,2009)。

引用

  • Assaad, Mohammad, Bone, Romuald, and Cardot, Hu- bert. A new boosting algorithm for improved time-series forecasting with recurrent neural networks. Inf. Fusion, 2008.
  • de Haan, L. and Ferreira, A. Extreme Value Theory: An Introduction. Springer Series in Operations Research and Financial Engineering. 2006.
  • Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and FeiFei, L. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
  • Friederichs, Petra and Thorarinsdottir, Thordis L. Forecast verification for extreme value distributions with an application to probabilistic peak wind prediction. Environmetrics, 2012.
  • Gal, Yarin. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
  • Hochreiter, Sepp and Schmidhuber, Jurgen. Long short-term memory. Neural Comput., 1997.
  • Horne, John D. and Manzenreiter, Wolfram. Accounting for mega-events. International Review for the Sociology of Sport, 39(2):187–203, 2004.
  • Hyndman, Rob J and Khandakar, Yeasmin. Automatic time series forecasting: the forecast package for R. Journal of Statistical Software, 26(3):1–22, 2008.
  • Hyndman, Rob J., Wang, Earo, and Laptev, Nikolay. Large-scale unusual time series detection. In ICDM, pp. 1616–1619, 2015.
  • Kendall, Alex and Gal, Yarin. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? 2017.
  • Li, G. S. Hongyi and Maddala. Bootstrapping time series models. Econometric Reviews, 15(2):115–158, 1996.
  • Makridakis, Spyros and Hibon, Michele. The m3-competition: results, conclusions and implications. International Journal of Forecasting, 16(4):451–476, 00 2000.
  • Meinshausen, Nicolai. Quantile regression forests. JOURNAL OF MACHINE LEARNING RESEARCH, 7:983–999, 2006.
  • Ogunmolu, Olalekan P., Gu, Xuejun, Jiang, Steve B., and Gans, Nicholas R. Nonlinear systems identification using deep dynamic neural networks. CoRR, 2016.
  • Opitz, T. Modeling asymptotically independent spatial extremes based on Laplace random fields. ArXiv e-prints, 2015.
  • Wei, William Wu-Shyong. Time series analysis. Addison Wesley publ Reading, 1994.
  • Ye, Lexiang and Keogh, Eamonn. Time series shapelets: A new primitive for data mining. KDD. ACM, 2009.
一分一毛也是心意