什么是时间序列模型型有什么实际用处

【图文】时间序列模型_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
时间序列模型
&&计量经济学
大小:2.03MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢摘要:观察趋势,或许是我们在日常分析中最常见的需求。但遗憾的是,许多管理者或者业务分析人员,对着高高低低的折线图(时间序列数据)不知道怎么“看”。本节将介绍一种通俗易懂的时间序列分解方法,帮助大家从时间序列
观察趋势,或许是我们在日常分析中最常见的需求。但遗憾的是,许多管理者或者业务分析人员,对着高高低低的折线图(时间序列数据)不知道怎么“看”。本节将介绍一种通俗易懂的时间序列分解方法,帮助大家从时间序列的波动中挖掘信息。另外,时间序列数据经过分解之后,可以对未来的数值进行一定程度的预测。
5.5.1 怎样观察时间序列数据
别小看一个简简单单的时间序列的折线图,怎么看这个图,可是大有文章。简单归纳如下。
1.X轴和Y轴
任何图表观察都要从图表元素开始,时间序列图也不会例外。通过观察两个坐标轴,能知道数据的时间范围有多长、颗粒度有多细(小时、天、周、月等)、指标的大小如何(最大值、最小值、单位等)。别忘了其他图表元素。
2.起点和终点
观察时间序列的起点和终点,在不观察细节的情况下,就能大体知道总体趋势是怎么走的。如图5-32所示,起点与终点数值差不多,那么我们知道,不管3月~11月间指标变化多么波澜壮阔,至少一头一尾说明忙活了半年多是在原地踏步。
图5-32 如何观察时间序列
3.观察极值
极值就是序列中比较大的值和比较小的值,当然包括最大值和最小值。极值的观察是确定数据阶段的重要依据。
转折点往往有两类。一类是绝对数值的转折点,一般就是指最大值和最小值。另一类是波动信息的转折点。例如,在该点前后的波动幅度差别显著,或者在该点前后波动周期有差别,或者在该点前后数据的正负值出现变化等。
需要观察数据的涨跌是不是有规律可循。在实际业务中,很多数据是会有周期性的,尤其是周末和周中,会有明显的不同。这种不同有时出现在数值的高低上(打车数一般周一早上和周五晚较高,周末较低),有时出现在数据的结构上(外卖订单数量在工作日和周末差别不大,但在送达地点和送达时间上差别巨大)。
在某些阶段,数值波动剧烈;某些阶段则平稳。这也是在观察中需要注意的信息。从统计学的角度分析,方差大的阶段,往往涵盖的信息较多,需要更加关注。
7.与参考线的对比
参考线有许多,例如均值线、均值加减标准差线、KPI目标线、移动平均线等。每种参考线都有分析意义,但需要注意顺序,建议先对比均值线,然后是移动平均线,之后才是各种自定义的参考线。
通过上述7点的观察,我们能了解一个时间序列的变化趋势、周期和变动阶段。有了对这三部分的认知,我们就可以进入下一步,将时间序列中隐藏的信息分解出来。
5.5.2 何为时间序列分解
时间序列数据,即数据指标按时间维度统计形成的序列。这种数据在我们的日常报表中非常常见。观察这类数据的出发点有两个:一是长期追踪,一旦指标出现上涨和下跌,能直观地观察到,进而去调查原因;二是判断趋势,通过指标的波动,判断指标在未来的走势。第一点相对简单,看到指标变化后从不同维度不断下钻,总能找到原因。第二点则要从时间序列的波动中看出门道,不是光盯着数据看就可以的,最常见的逻辑就是“将时间序列波动的信息进行分解”。
通过某些方法,将数据分解成可预测部分和不规则变动(随机波动)部分,可预测部分占比比不规则变动大很多,那么就具备了预测未来的条件。如图5-33所示,时间序列可以分为长期趋势(trend)、季节变动(seasonal)、循环变动(cycling)和随机波动(irregular)四个部分。四个部分的组成方式可分为加法模型、乘法模型和混合模型三类。加法模型可表示为:D=T+S+C+I;乘法模型表示为:D=T×S×C×I;混合模型就是公式中既有加号也有乘号。
图5-33 时间序列的分解模型
我们以最容易理解的加法模型举例。先对T、S、C和I四个部分做简单的阐述。
数据中对时间的变化相对稳定的一部分因素。往往是长期稳定的上涨或下跌。这个数据一般可以通过移动平均或者线性回归等方法进行拟合,因此它是可预测的部分。
传统的时间序列分解方法一般用在长期的宏观经济指标中,因此颗粒度是季度,所以会呈季节性变动。在数据运营的场景中,季节数据跨度太长,几乎没有使用的必要性。所以将季节变动引申为“周期性波动”,而且是显性的周期性波动,例如业务指标在一周内会有周末和工作日的差别,在一个月中会有月初和月末的差别。周期性波动因素取决于数据处在周期中的位置,通过固定位置的历史数据(取均值或者其他数学变换),也能对未来的某个位置的周期性因素进行估计,因此它也是可预测的部分。
循环变动和季节变动其实很像,也有周期性因素在。但循环变动的周期是隐性的,往往要先将显性的周期性波动排除后,再观察剩下的数据部分是否有循环波动的因素,若有,也能通过同比计算等方法将其提出,因此也是可预测的。
既然是随机波动,自然是不可预测的。
时间序列分解的成功与否,取决于两个因素:一是数据序列本身是隐藏着规律的,不可预测的部分只是其中的一小部分;二是分解的方法要合适,尤其是周期的判断要准确。因此,这个方法非常考验使用者的经验和直觉。
5.5.3 时间序列分解的步骤解析
以川术公司很长一段时期的活跃用户数量为例,阐明时间序列分解的过程。由于教科书中的数据过于理想化,偏离现实太远,因此我们用脱敏的现实数据反映真实的过程,读者要注意分解的套路。
1.用移动平均数分离出显性的周期性波动
拿到数据后,第一步就是清洗数据,将异常值剔除。在本例中,我们将日~10月7日的数据删除了,因为国庆节期间的数据与其他时段的数据不可比。第二步,根据现实的业务周期(活跃用户数在周末会减少,工作日会增加),按周期的长度求移动平均数。这样一来,所获得的移动平均数就是排除了业务周期波动影响和一部分随机波动的数据。如图5-34所示,活跃用户7日移动平均线实际上就包含了长期趋势、循环变动和一部分不规则变动,而活跃用户数(原始数据)与移动平均数的差值,就是业务周期效应和一部分不规则变动。
图5-34 时间序列分解步骤说明1
2.将业务周期效应和不规则变动进行区分
这部分的处理取决于周效应和不规则变动的量级。在实际场景中,若量比较大,建议计算每周中对应某一天的均值,即得到周一的均值、周二的均值等,这便是加法模型中的周效应。
图5-35所示为将原始数据减去移动平均数的差值分解为周效应和不规则变动后的结果。读者有没有想到,若周效应是稳定的且数量比较大,那么从“周效应+不规则变动”中分离出周效应后,剩下的不规则变动应该显著变小。但在本例中,分离后不规则变动和移动平均数的波动差距并不大。说明本例中的周效应并不稳定或者数量很小,这是现实数据中经常会遇到的情况。若是周效应和不规则变动的总和的数值不大,且较均匀地分布在横坐标轴的上下,就说明这一步的分解是不必要的。
图5-35 时间序列分解步骤说明2
3.观察数据波动的拐点,将时间序列分段
在图5-35中,通过观察活跃用户的7日移动平均数,能够清晰地将数据波动分为4个阶段(虽然有BP、EFP等时间序列的断点检验方法,但往往肉眼观察更奏效)。这个步骤往往是教科书中忽略的,却在现实应用中十分重要。为什么要对移动平均后的数据分段呢?因为移动平均数包含了数据的长期趋势和循环变动。首先,长期趋势是会改变的,这种改变往往是运营策略的变化带来的,所以不能教条地假设长期趋势稳定不变。其次,在数据的不同阶段,循环的周期也会有所不同。在图5-35中,其实能很显著地观察到这两个信息。
阶段1的活跃用户数是平稳的,而到了阶段2,活跃用户数的整体趋势向上爬升,但带有明显的涨跌周期。在阶段3,活跃用户数的趋势线性下降,且没有波动周期。在阶段4,活跃用户数的趋势又趋于平稳,且没有明显的周期波动。有了上面这段描述,将时间序列分段就非常有必要了。
4.利用线性回归,基于移动平均数计算长期趋势
这个步骤可以说是时间序列分解中最核心的一个环节。原始数据在剔除了业务周期波动和随机波动后,剩下了长期趋势和循环变动。长期趋势与时间的增加是有关系的(建模的原始假设),因此以时间为自变量(起点为0,之后每天都以1自增的序列),以活跃用户数的7日移动平均数为因变量,构建一个线性回归模型。由时间和回归模型计算得出的因变量的估计值,就是长期趋势T。
如图5-36中的虚线所示,我们将其分为四个阶段,对日期和活跃用户数的7日移动平均数建立了4个线性回归模型,求得了长期趋势。这个建模过程可以在Excel的单元格中完成。需要使用LINEST()和INDEX()两个函数。LINEST()函数用于获得按线性模型建模的结果,而INDEX()函数用于取出LINEST()所获得的结果中的具体的某个值,比如回归系数和截距。
图5-36 时间序列分解步骤说明3
获得线性回归模型的回归系数(即b)=INDEX(LINEST($F$6:$F$66,$B$6:$B$66,TRUE,FALSE),1)
获得线性回归模型的截距(即a)=INDEX(LINEST($F$6:$F$66,$B$6:$B$66,TRUE,FALSE), 2)
具体函数中的参数意义可以参考Excel的帮助文档。
活跃用户的7日移动平均数减去线性回归的预测值(长期趋势)后,剩下的部分就是循环效应和一部分的随机波动(不规则变动)。需要注意的是,估计长期趋势(趋势拟合的方法)并不是只能采用线性回归。这取决于数据点的分布,有时要用指数回归,有时要用多项式回归。而且,在数据的不同阶段,使用的长期趋势估计方式也可以是不同的。
5.分离出循环效应和随机波动
这一步考验分析者的眼力。因为循环效应不是那么容易观察出来的。一个简单的观察办法是:看数据是否有规律地分布在0值之上和0值之下。若数据不规则地在0值上下跳动,则可以认定这是随机波动,不需要分离循环效应。若数据一段时间在0之上,一段时间在0之下,且持续的时间大致相同,那么就有必要分离循环效应。
如图5-36所示,在第二阶段存在明显的循环效应。我们认为,一个波峰加一个波谷所跨越的时间,就是循环的周期(这个规则适用于所有周期性数据的判断)。我们确定了30天的循环周期后,根据这段时间的数据,计算循环中各个位置的均值,即为循环效应。活跃用户数的7日移动平均数与线性回归值的差值,即“循环效应+不规则变动”,减去循环效应后(除了阶段2,其他阶段的循环效应认为是0),剩下的就是随机波动。
综合来说,时间序列数据的预测值就是长期趋势(线性回归估计值)+循环效应(循环周期各位置的均值)+周期效应(业务周期各位置的均值)。这就意味着,能通过时间长度和所在周期的位置给出一个未知时间点的预测值。
6.检验时间序列分解的效果
图5-37所示为活跃用户数的实际值和采用时间序列分解方法的预测值。预测是否有效的第一种手段就是图形法,观察预测值与实际值的契合程度。从本例看,两者契合得相当不错。
第二种方法是回归分析法。以预测值为自变量,实际值为因变量,建立一个线性回归模型,观察模型的拟合优度,通过拟合优度判断预测是否靠谱。0.954的拟合优度,说明模型不能预测的信息只占原始数据信息中的 4.6%,这是非常可喜的结果。说明在本例中所采取的分解过程还是相当靠谱的,如图5-38所示。
图5-37 时间序列分解的效果检验1
图5-38 时间序列分解的效果检验2
5.5.4 时间序列分解方法的应用局限性
每种分析方法都有它的局限性,时间序列分解方法也一样,但请读者保持乐观,“分解”这种思维,事实上是可以应用在更广泛的业务分析中的,而不仅是时间序列数据。通过以上案例,我们需要注意时间序列分解法中的以下几点局限性。
原始数据中的随机波动因素占比不能过大。随机波动因素的占比过大,说明我们不可预测的东西过多,那么,剩余的部分再怎么分解也无济于事。
分解的过程中,确定移动平均的期数、数据阶段的划分、趋势拟合的方法、循环周期都带有一定的主观判断。这就对分析者提出了较高的要求。在应用时,需要不断地改变这些参数来获得更好的结果。而且,经常会出现仁者见仁的局面。
用加法模型、乘法模型或混合模型没有定论,需要具体问题具体分析。实际情况中,往往是混合模型用得比较多。
需要用在长期的数据序列中。时间序列的分解对时间的长度是有要求的,却没有明确的阈值。至少要在40个数据点以上才能讨论所谓的长期趋势。另外,该方法不适合用在比“天”的颗粒度更小的时间维度上。
时间序列阶段的改变可预测性较差。细心的读者应该发现了,在上文的分解过程中,有一个将整个数据序列分为4个阶段的过程。观察历史数据时,划分阶段并不难;难的是作为“局中人”,将时间序列分解的结果应用于预测时,是不知道何时进入新的阶段的(序列的结构性断点不可预测)。今天还在阶段1,明天就进入阶段2了,这可如何是好?有一些缓解这个问题的方法:一是做“事后诸葛亮”,即连续追踪数据,若连续出现上涨或者下跌,或者出现“史无前例”的最大值和最小值,那么就要考虑数据的结构性变化可能出现了,就要放弃原先的建模方式;二是从业务决策上“明察秋毫”,数据出现结构性变化,往往是较大的决策改变或者产品迭代引起的,那么反过来思考,若业务出现一些“重大改变”,也许就应该重新建模了。
真正的预测,只能在阶段内进行。在本例中能预测未来数据的其实也就只有阶段4。但也不用慌,历史往往会重演。前面三个阶段的数据特征,一定会出现在未来的某个时间点。所以,当数据进入有“历史参考”的某个阶段时,可以用历史经验预测未来的走势。
作者:胡晨川; 本文接自《数据化运营速成手册》,获作者与出版社授权转载。
想了解更多请点击文末
购买此书查阅。
原创系列文章:
关联文章阅读:
数据分析、数据产品
关联文章阅读:
商务合作|约稿 请加qq:
更多相关知识请回复:
“ 月光宝盒 ”;
ecshujufenxi
)互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。
本文仅代表作者观点,不代表百度立场。本文系作者授权百度百家发表,未经许可,不得转载。
分享到微信朋友圈
打开微信,点击 “ 发现 ”
使用 “ 扫一扫 ” 即可将网页分享至朋友圈。
扫一扫在手机阅读、分享本文
百家号作者平台APP
扫码下载安卓客户端
便捷管理文章信息
随时查看文章收益&p&题主的意思应该是用前N个数据作为输入,预测下一个数据的值。&br&所以您的题目有误导性,这不叫&训练数据越少&,而是&阶数越低&。&br&也没什么肯定不对的,如果你的数据本身就是个一阶马尔科夫序列,那用N=1就是最好的。&/p&&br&&p&------------------------------------------------------------------------------------------&/p&&p&对于重新描述的问题:&/p&&p&看样子lz在做数模比赛之类的东西。&/p&&p&我想说的是,对于序列数据,如果仅从序列本身,只利用前N天去预测后一天的情况(注意是“只”),这个问题几乎是不可解的,即建模p(x_t)=f(x_{t-1},...,x_{t-N}).&/p&&p&没有实际生活中的什么序列满足这种数学模型。&/p&&p&需要建立的模型其实是p(x_t)=f(x_{t-1},...,x_{t-N},z_t,...,z_{t-N}).&/p&&br&&p&比如x表示天气情况,第一天下雨了,第二天是晴天还是下雨?没法预测,即使知道了已经下了100天的雨了,也不好预测第101天是下雨还是晴天。&/p&&br&&p&你需要的是z,比如每天的气压,气流之类的,这我就不懂了。&/p&&br&&p&对于金融产品的价格预估,你说的的每日行情是指当天的价格(只用了x),还是有更多的信息呢(用了z)。如果是指前者,能预测对才是件怪事&/p&
题主的意思应该是用前N个数据作为输入,预测下一个数据的值。 所以您的题目有误导性,这不叫"训练数据越少",而是"阶数越低"。 也没什么肯定不对的,如果你的数据本身就是个一阶马尔科夫序列,那用N=1就是最好的。 ---------------------------------------…
一般而言,时间序列被看作一个随机过程{Xt},随机过程是啥,就是一列随机变量,在离散情况下比如我取前n个就是X1 X2 X3。。。。Xn是个n维随机变量。随机变量总学过吧,给你个随机变量Xi他的期望方差啊分布是什么之类的就是我们想要研究的。&br&严平稳:多元分布保持不变。(X1,X2,X3)是个三维随机变量,(X3,X4,X5)也是个三维随机变量,严格平稳表示任何形如(Xn-1,Xn,Xn+1)的三维随机变量分布都是一样的。当然不仅仅是三维,而是任何维的随机变量分布不变。严平稳表示的分布不随时间的改变而改变。我研究第1到第n个随机变量跟第2到第n+1个随机变量性质是一样的。&br&最简单的例子,白噪声(正态),无论怎么取,都是期望为0,方差为1,协方差都为0的n维正态分布。&br&弱平稳:首先要有个平稳的改变,别有啥趋势,所以任何一点t,Xt的期望是常数(通常我们让他为0),弱平稳没有分布不于时间无关这个性质,但是弱平稳抓住了另一个不变性——相关系数。这说明什么,X1于X3的相关系数, X2与X4的相关系数都是一样的,也就是 说相关系数取决于时间间隔而非时间起始点。这个东西很有用啊,你做回归是研究Y依赖于X的关系,可是单一时间序列只有X没有Y啊,未来某时刻的t的值Xt就要依赖于它的过去信息吧,如果没有依赖性,那这模型没法做了,如果有,跟前几期数据有关系?比如Xt-1 Xt-2能提供预测Xt的信息,那么这个他们的依赖关系又如何?如果是弱平稳的,这个关系还可能是一致的,否则不同的时间t,Xt与Xt-1 Xt-2的关系不统一,我们还建模个毛线啊?&br&通常情况下时间序列分析讨论的是弱平稳序列。&br&&br&题主说熟悉回归,那回归中异方差,多重共线性等问题怎么解决?同样,时间序列里你的数据平稳不平稳对你的建模也是至关重要,弱平稳是许多时间序列模型的假设条件。
一般而言,时间序列被看作一个随机过程{Xt},随机过程是啥,就是一列随机变量,在离散情况下比如我取前n个就是X1 X2 X3。。。。Xn是个n维随机变量。随机变量总学过吧,给你个随机变量Xi他的期望方差啊分布是什么之类的就是我们想要研究的。 严平稳:多元分…
为了避免一些误会,补充内容就不放前面了,以下仅讲跳跃和布朗的复合过程的参数拟合&br&&br&——————分割线———————————————————————&br&原文:&br&邀我这种问题才对嘛!天天邀我“大数据”,“金融概念”,留学指导……搞得我都无从下笔&br&&br&看到了时间序列,我这里有连续levy的拟合方法,你看着离散化一下用一用。(其实过程出来了左连续离散化即可)&br&&br&首先,泊松过程是管频度的,而一般布朗运动带着强度,所以把这两个直接并在一起意义不大的。我们能并上来有意义的是&b&复合泊松过程&/b&(既带着跳跃频度也带着跳跃强度),一个标准的是布朗泊松混合过程是几何跳扩散过程:&br&&img src=&///equation?tex=dS%28t%29+%3D%5Calpha+S%28t%29dt%2B+%5Csigma+S%28t%29W_t+%2B+S%28t-%29d%28Q%28t%29-%5Cbeta+%5Clambda+t%29& alt=&dS(t) =\alpha S(t)dt+ \sigma S(t)W_t + S(t-)d(Q(t)-\beta \lambda t)& eeimg=&1&&&br&其中Q表示由M个具有lambda跳跃密度和随机跳跃强度的泊松过程,beta表示平均跳跃强度,S(-)表示t时刻左连续跳跃(我们在t时刻刚刚开始的时候不知道跳跃要发生)。不这么做的话,光一个泊松在t跳了,我们只能知道他跳了,但是不知道他跳了多少就尴尬了。&br&&br&上式有半闭解:&img src=&///equation?tex=S%28t%29+%3DS%280%29+exp+%5Cleft%5C%7B++%5Csigma+W_t+%2B%28%5Calpha+-%5Cbeta+%5Clambda+-1%2F2+%5Csigma%5E2%29t+%5Cright%5C%7D+%5Cprod_%7BI%3D1%7D%5E%7BN%28t%29%7D%28Y_i+%2B1%29+& alt=&S(t) =S(0) exp \left\{
\sigma W_t +(\alpha -\beta \lambda -1/2 \sigma^2)t \right\} \prod_{I=1}^{N(t)}(Y_i +1) & eeimg=&1&&&br&那个Y_i是变化幅度,所以你要么假设一个常数幅度,要么给他一个固定分布这样才能拟合他跳多少。&br&&br&拟合的办法需要一个特征函数作为他的参数才行&br&&br&比较简单的例子我们如果假设跳跃幅度服从对数正态&br&&img src=&///equation?tex=Y_i++%5Csim+N%28%5Calpha%2C%5Ctilde%7B%5Cbeta%7D+%5E2%29& alt=&Y_i
\sim N(\alpha,\tilde{\beta} ^2)& eeimg=&1&&&br&我们就会获得一个levy特征指数(特征函数的对数):&br&&img src=&///equation?tex=%5CPsi+%28%5Ctau%29%3D+i%5Cmu%5Ctau%2B%5Cfrac%7Bi%5Csigma%5E2%5Ctau%5E2+%7D%7B2%7D+%2B+%5Ctau%5Clambda+%5Be%5E%7B%5Bi%5Calpha+-%5Cfrac%7B%5Ctilde%7B%5Cbeta%7D+%7D%7B2%7D%5D+%7D-1%5D+& alt=&\Psi (\tau)= i\mu\tau+\frac{i\sigma^2\tau^2 }{2} + \tau\lambda [e^{[i\alpha -\frac{\tilde{\beta} }{2}] }-1] & eeimg=&1&&&br&其中 &img src=&///equation?tex=+i%5Cmu%5Ctau%2B%5Cfrac%7Bi%5Csigma%5E2%5Ctau%5E2+%7D%7B2%7D+& alt=& i\mu\tau+\frac{i\sigma^2\tau^2 }{2} & eeimg=&1&&对应布朗部分, &img src=&///equation?tex=%5Ctau%5Clambda+%5Be%5E%7B%5Bi%5Calpha+-%5Cfrac%7B%5Ctilde%7B%5Cbeta%7D%7D%7B2%7D%5D+%7D-1%5D++& alt=&\tau\lambda [e^{[i\alpha -\frac{\tilde{\beta}}{2}] }-1]
& eeimg=&1&&对应纯跳部分&br&&br&所以我们就会有五个参数 \mu, \sigma, \alpha, \~beta,\lambda&br&&br&拟合可以用最大似然(MLE),但是这个最大似然不是一般的MLE,我们带入五个参数进特征指数之后要对他求指数变成特征函数,然后进行傅里叶逆变换(如果存在,可以取实部)变成一个近似的”样本密度“,之后才能进行MLE,计算量还是挺大的。&br&&br&补充一点重要信息:&b&泊松是左连续过程(每跳之前连续,跳时间断),所以拟合必须取一阶差分,换言之,我们在做增量分布拟合而不是样本分布拟合&/b&&br&&br&上一部我们只能做离散的变换,因为大家都知道泊松的密度函数不存在,但是做了样本直接前后差分了之后每个样本跳或不跳的“样本密度”(用来最大似然的那个)是确实存在的,所以我们其实相当于在在做每一点跳不跳的离散拟合。所以离散FFT的取样窗口问题这里就很为重要。 至于如何取,喵书读得少不敢乱说,只能等更专业的人来解答了&br&&br&&br&————————引用部分————————————————————&br&&br&&Jump-diffusion models: a practitioner’s guide:&; by:Peter T Ekaterina Voltchkova&br&&br&&Posterior Estimates of Poisson Distribution Using&br&R Software&; by Raja S S.P. Ahmad&br&&br&&Stochastic Calculus for Finance II& ;by Steven Shreve&br&&br&&微观金融学及其数学基础&; by 邵宇; 刁羽&br&&br&——————补充部分————————————————————&br&有小伙伴提到泊松的参数估计了,我这里还是引用点东西严格一点好@&a href=&/people/hai-gu-ge& class=&internal&&晚上吃白片&/a&,@&a href=&/people/feng-mou-mou-66& class=&internal&&冯某某&/a&。 文后会补上出处&br&&br&泊松自己做MLE是没问题的,但是只能做离散,这就是因为泊松只有个整数变量(频次)的点概率分布函数,而没有概率密度函数&br&&br&如果观测到的“跳跃” 足够多,完全可以逐点MLE:&br&&br&然而几百年前我们的贝叶斯大人和拉普拉斯大人就指出,这东西是个后验概率!也就是给出了样本观测值之后的条件概率。啥意思呢,泊松分布在没有参数条件下是不扯淡的!就是我们说是在拟合一个泊松分布,不如去拟合给定参数族Y的条件分布:&br&&br&&br&&br&啥意思?泊松分布某种意义上是“骗人的”模型,是个贝叶斯阴谋!@ &a href=&/people/JX-Consp& class=&internal&&JX Consp&/a&&br&&br&这
就牵扯到一个非常深奥难以回答的问题:咱们拟合分布到底是要model-based还是
observation-based。这个问题喵回答不了,喵仅仅知道的是,如果想要检验一个模型的效果,我们就得用model-based校准参数,然
后带回model再去看误差。 如果我们想看在我们观测里这东西会是真么样,那就得用贝叶斯了。&br&&br&喵原文回答提供的框架,是在SDE下的model-based参数拟合,因为混合分布的levy特征指数复杂,无法用上面的点概率MLE, 所以个人粗陋的以为只好IFFT了。&b& 同时这里再次广求各路神通指点特征指数IFFT的窗口选取问题:我们为了完成数值傅里叶积分的时候,我们的采样数,采样区间(窗口),采样间隔应该怎么选取?&/b&&br&&br&&br&——————分割线———————————————————————&br&我补充几个问题:&br&@冯某某 &br&首先根据Doleans-Dade指数(泊松布朗复合的专属Ramdon-Nikodym导数)的构造,同流域上的纯泊松和布朗是严格独立的(交互变差为0),所以不用担心跳跃和布朗的自相关。(目的就是把纯跳和扩散分开,我相信没人找虐想把他们混在一起)&br&&br&布朗自己的自相关你设个 两天之间的交互变差 就好,再要阶数再加,但是这样增量独立性就破坏了,请自斟酌。
为了避免一些误会,补充内容就不放前面了,以下仅讲跳跃和布朗的复合过程的参数拟合 ——————分割线——————————————————————— 原文: 邀我这种问题才对嘛!天天邀我“大数据”,“金融概念”,留学指导……搞得我都无从下笔 看到…
刚好自己复习,找到简单易懂的分享来。reference from &a href=&///?target=https%3A//www.google.co.jp/url%3Fsa%3Dt%26rct%3Dj%26q%3D%26esrc%3Ds%26source%3Dweb%26cd%3D2%26cad%3Drja%26uact%3D8%26ved%3D0ahUKEwjT3L2AvN7KAhXDp5QKHYoBDPMQFggkMAE%26url%3Dhttp%253A%252F%.cn%252Fs%252Fblog_6a90aeh.html%26usg%3DAFQjCNGsXBopo6fkE8VxxG2rTctgX2Oafg%26sig2%3DGFbge4-KNNzAgs8TCyv-dg& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&长腿阿大_新浪博客&i class=&icon-external&&&/i&&/a&&br&&br&&br&横截面数据、时间序列数据、面板数据&br&&br&&br&&p&&strong&横截面数据:&/strong&&/p&&p&
横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。横截面数据是按照统计单位排列的。因此,横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。&/p&&p&&strong&时间序列数据:&/strong&&/p&&p&
在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。&/p&&p&&strong&面板数据:&/strong&&/p&&p&
是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。&/p&&p&&strong&举例:&/strong&&/p&&p&
如:城市名:北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。 &/p&&p&
如:、、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。&/p&&p&
如:、、2004各年中国所有直辖市的GDP分别为:&/p&&p&
北京市分别为8、9、10、11、12;&/p&&p&
上海市分别为9、10、11、12、13;&/p&&p&
天津市分别为5、6、7、8、9;&/p&&p&
重庆市分别为7、8、9、10、11(单位亿元)。&/p&&p&
这就是面板数据。&/p&
刚好自己复习,找到简单易懂的分享来。reference from
横截面数据、时间序列数据、面板数据 横截面数据: 横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。横截面数据是按照统计单位排列的。因此,横截面数据不要求统计…
你用的是svm, 还是svr,还是svdd?分类,回归,分布估计,是哪种?&br&&br&特征是如何处理的,有没有做归一化,如果做了,如何做的?&br&&br&股票价格有明显的时间特征,你是怎么处理时间模型的?&br&&br&测试集和训练集是怎么做的?用了交叉验证没有?&br&&br&libsvm的核函数是什么,参数如何选取?&br&&br&这些东西不搞明白,垃圾进,垃圾出....&br&&br&另外,目前所有的答案都是没写过svm的人回答的,他们没做过时间序列分析,连自回归模型都没提到,毫无任何价值。&br&&br&&b&顺便告诉你,用机器学习预测股票价格基本上是扯淡的事,二十年来这个方向发了上万篇论文,除了养活几千个骗经费的学者,没产生任何价值。不要在这上面浪费时间了,没用!!!&/b&&br&&br&&b&请不要做任何用机器学习预测金融行为的东西,除非你是超级大牛,否则只能被同行认为是sb...&/b&
你用的是svm, 还是svr,还是svdd?分类,回归,分布估计,是哪种? 特征是如何处理的,有没有做归一化,如果做了,如何做的? 股票价格有明显的时间特征,你是怎么处理时间模型的? 测试集和训练集是怎么做的?用了交叉验证没有? libsvm的核函数是什么,参…
我觉着吧,这是因为时间序列对数学和统计学基础要求较强,一般需要专门做计量的人来搞,机器学习就简单多了,不管是搞计算机的,搞工程的,只要知道怎么读入数据,再加上怎么用现成的函数来做回归,就敢说自己会机器学习,不火才怪呢。&br&做个类比吧:知乎统计专题中,回答最多的还是那些泛泛的提问,比如我回答目前这个提问,真正涉及研究生水平统计学的提问题,一来很少,二来这些提问几乎没人回答。于是,不懂统计学的人不小心点近了统计专题,于是得出结论:“原来统计学研究的就是这些内容啊,那我应该也挺适合搞统计的,嗯!”
我觉着吧,这是因为时间序列对数学和统计学基础要求较强,一般需要专门做计量的人来搞,机器学习就简单多了,不管是搞计算机的,搞工程的,只要知道怎么读入数据,再加上怎么用现成的函数来做回归,就敢说自己会机器学习,不火才怪呢。 做个类比吧:知乎统…
你需要先理解你所用的time series的特性,不同的time series的生成机制不一样, 因此对ECG和Forex聚类用的就不是同一种方法。在理解的基础上你提取features然后再进行聚类, 比如,你可以先用Independent Component Analysis提取features然后用K-means Clustering进行聚类, 或者, 你也可以对time series进行某种编码, 比如用SAX(Symbolic Aggregate Approximation), 然后再聚类。&br&不过,个人感觉Time Series Clustering是个大坑。&br&&br&有些文章可作参考:&br&&a href=&///?target=http%3A///science/article/pii/S0733& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Time-series clustering&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//www.cs.ucr.edu/%7Eeamonn/meaningless.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&cs.ucr.edu/~eamonn/mean&/span&&span class=&invisible&&ingless.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A///science/article/pii/S1305& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Clustering of time series data&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A///papers/wang.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/papers/&/span&&span class=&invisible&&wang.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//www.cs.columbia.edu/%7Egravano/Papers/2015/sigmod2015.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&cs.columbia.edu/~gravan&/span&&span class=&invisible&&o/Papers/2015/sigmod2015.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
你需要先理解你所用的time series的特性,不同的time series的生成机制不一样, 因此对ECG和Forex聚类用的就不是同一种方法。在理解的基础上你提取features然后再进行聚类, 比如,你可以先用Independent Component Analysis提取features然后用K-means Cluste…
说实话我没太看懂题主的问题,可能是刚睡醒的原因,哈哈哈哈。&br&不管怎样,先分享一些这一段读到关于ML和计量经济学的东西。&br&我们亲爱的Varian(范里安)老先生近几年特别热衷于把ML的一些东西试着转化为经济学(计量经济的成果)。&br&1. 这篇文章是老先生对数据的感慨与肯定,基本上就是说太强了我们要好好学好好用,好想做一个统计学家啊之类的。&a href=&///?target=http%3A//people.ischool.berkeley.edu/%7Ehal/Papers/2013/BeyondBigDataPaperFINAL.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&people.ischool.berkeley.edu&/span&&span class=&invisible&&/~hal/Papers/2013/BeyondBigDataPaperFINAL.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&2. 之后呢,老先生又说他在working on ML怎么从经济学中学到东西。&br&附上他的答案的Quora的连接&br&&a href=&///?target=https%3A///Why-is-econometrics-isolated-from-the-big-data-machine-learning-revolution& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Why is econometrics isolated from the big data/machine learning revolution?&i class=&icon-external&&&/i&&/a&&br&3. 我觉得William Chiu 的回答很贴切, 他说“econometricians, rightly so, want to be able to *explain* observed phenomena. Many, though not all, machine learning techniques (neural network, SVM, ensemble) have a very difficult time quantifying the impact of one variable on the observed phenomena.” 我觉得这是个一发入魂的意见,就是经济学家或者计量经济学经常在纠结的‘interpret’的问题,就是说要怎么解释阐述理解变量。&br&然后他又说‘ Econometricians are taught to begin with a theory and build a model to validate/invalidate the theory. Start with the theory. Machine learners start with the data.’这个还是有一些偏颇就是经济学家从理论出发,而数据分析师则是从数据出发。&br&说到这里想起来大学时我的一个统计学老师说的一个问题,其实统计学家也常常因为各种原因,主要是专业的限制困惑于‘interpret’。&br&4.Quora上还有好多关于这个问题的看法,有兴趣的话真的可以好好研究一下,这是个比较前沿而且特别实际的话题,我看了一些之后觉得真的是受益匪浅。&br&5.最后附上Varian老先生的一篇文章,这篇文章与其说是一篇paper不如当作一个‘Machine Learning Econometric 101’&br&&a href=&///?target=http%3A//people.ischool.berkeley.edu/%7Ehal/Papers/2013/ml.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&people.ischool.berkeley.edu&/span&&span class=&invisible&&/~hal/Papers/2013/ml.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
说实话我没太看懂题主的问题,可能是刚睡醒的原因,哈哈哈哈。 不管怎样,先分享一些这一段读到关于ML和计量经济学的东西。 我们亲爱的Varian(范里安)老先生近几年特别热衷于把ML的一些东西试着转化为经济学(计量经济的成果)。 1. 这篇文章是老先生对数…
倾情推荐TSA这个函数包,包含了《时间序列分析及应用:R语言》中几乎所有涉及到的函数~&br&library(zoo)
###时间格式预处理&br&
library(xts)
###同上&br&
library(timeSeires)
###同上&br&
library(urca)
###进行单位根检验&br&
library(tseries)
###arma模型&br&
library(fUnitRoots)
###进行单位根检验&br&
library(FinTS)
###调用其中的自回归检验函数&br&
library(fGarch)
###GARCH模型&br&
library(nlme)
###调用其中的gls函数&br&
library(fArma)
###进行拟合和检验
倾情推荐TSA这个函数包,包含了《时间序列分析及应用:R语言》中几乎所有涉及到的函数~ library(zoo)
###时间格式预处理
library(xts)
library(timeSeires) ###同上
library(urca) ###进行单位根检验
library(tseries) ###arma模型
library(…
从试用别人家的visualization tools开始找感觉。比如:&br&&a class=& wrap external& href=&///?target=http%3A//survey.timeviz.net/& target=&_blank& rel=&nofollow noreferrer&&TimeViz Browser&i class=&icon-external&&&/i&&/a&&br&&a class=& wrap external& href=&///?target=https%3A//facette.io/& target=&_blank& rel=&nofollow noreferrer&&Facette: Time series data visualization and graphing software&i class=&icon-external&&&/i&&/a&&br&&br&再结合一些入门级的资料,比如:&br&&a href=&///?target=http%3A//alumni.cs.ucr.edu/%7Emvlachos/PKDD05/PKDD05_Handout.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&alumni.cs.ucr.edu/~mvla&/span&&span class=&invisible&&chos/PKDD05/PKDD05_Handout.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=https%3A///articles/visual_business_intelligence/visualizing_change.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/arti&/span&&span class=&invisible&&cles/visual_business_intelligence/visualizing_change.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&再深入就学一下时间序列分析:&br&&a href=&///?target=https%3A///Textbook/Time-Series-Analysis& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/Textbook/T&/span&&span class=&invisible&&ime-Series-Analysis&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//www.itl.nist.gov/div898/handbook/pmc/section4/pmc4.htm& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&itl.nist.gov/div898/han&/span&&span class=&invisible&&dbook/pmc/section4/pmc4.htm&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//www.statslab.cam.ac.uk/%7Errw1/timeseries/t.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&statslab.cam.ac.uk/~rrw&/span&&span class=&invisible&&1/timeseries/t.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//www.stat.pitt.edu/stoffer/tsa3/tsa3ez.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&stat.pitt.edu/stoffer/t&/span&&span class=&invisible&&sa3/tsa3ez.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//www.stat.columbia.edu/%7Erdavis/lectures/Session6.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&stat.columbia.edu/~rdav&/span&&span class=&invisible&&is/lectures/Session6.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=https%3A//www.math.kth.se/matstat/gru/sf2943/ts.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&math.kth.se/matstat/gru&/span&&span class=&invisible&&/sf2943/ts.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=http%3A//www.statistik-mathematik.uni-wuerzburg.de/fileadmin//user_upload/time_series/the_book/2012-August-01-times.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&statistik-mathematik.uni-wuerzburg.de&/span&&span class=&invisible&&/fileadmin//user_upload/time_series/the_book/2012-August-01-times.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
从试用别人家的visualization tools开始找感觉。比如:
再结合一些入门级的资料,比如:
再深入就学一下时间序列分析: …
已有帐号?
无法登录?
社交帐号登录}

我要回帖

更多关于 负磁导率的实际用处 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信