向量自回归过程的时间序列分析

第四章向量自回归过程的时间序列分析

§1 向量自回归模型

有时我们需要考虑多个时间序列过程的组合。例如，宏观经济系统中，(y t , m t , p t , r t ) 它们之间是一个相互联系的整体（IS —LM ）。多变量的时间序列将会产生一些单变量不存在的问题。本章主要讨论平稳的自回归形式的多变量随机过程V AR 。

给一般的向量平稳过程，Y t =(Y 1t , Y 2t , , Y mt ) ' t =0, ±1, ±2, 。这里Y t 的协差矩阵定义为：Γ(k ) =cov(Y t , Y t -k ) =E [(Y t -μ)(Y t -k -μ) ']仅依赖于k 。设，

⎛γ11 γ21 Γ(k ) = ⎝γm 1

γ12γ22

+∞

γm 2

⎪

⎪，于是得到矩阵序列{Γ(k )}。又 γ(k ) =γ(-k ) ，

ij ji

⎪⎪γm m ⎭k

γ1m ⎫

γ2m

∞

∴Γ(k ) =Γ'(-k ) 。设Ω=

∑

k =-∞

Γ(k ) ，那么，Ω=Γ(0)+

∑[Γ(k ) +Γ(k ) ']。称为Y

k =1

的长

期协差阵。且Y t 的谱定义为：

f Y t (ω) =

12π

+∞

∑

k =-∞

Γ(k ) e

-i ωk

12π

∞

{Γ0+

∑[Γ(k ) e

k =1

-i ωk

+Γ(k ) 'e

i ωk

]}。

ˆ(k ) =用Γ

∑

t =k +1

(Y t -Y )(Y t -k -Y ) ', k =0,1, 2, 作为Γ(k ) 的估计，又M 是一个截断，满

足M →∞, 且

M T

ˆ=Γˆ(0)+→0。再用Ω

∑(1-M

k =1

k +1

ˆ(k ) +Γˆ'(k )]作为Ω的一致估计。 )[Γ

相应于单变量平稳过程，我们同样定义向量的白噪声过程WN 和向量的鞅差分过程MDS 。并进一步给出由它们的线性过程组成的其他的向量过程：

VAR (1)过程，Y t =φY t -1+εt 。这里φ是一个m ⨯m 的矩阵，εt 是向量WN 。平稳性要

求φ的特征值的绝对值小于1。

VMA (1)过程，Y t =εt +θεt -1。这里θ是一个m ⨯m 的矩阵，εt 是向量WN 。可逆性要

求θ的特征值的绝对值小于1。又，VMA (1)过程总是平稳的。

VARMA (p , q ) 过程，Y t =φ1Y t -1+ +φp Y t -p +εt +θ1εt -1+ +θq εt -q ，这里φi 和θj 都

是m ⨯m 的矩阵。又平稳性要求det(I -φ1Z - -φp Z ) =0的复根的模大于1，可逆性要

求det(I -θ1Z - -θq Z q ) =0的复根的模大于1。

∞

VMA (∞) 过程，Y t =μ+εt +

∑θ

j =1

εt -j ，εt ~W N (0,Ω) ，EY t =μ。简单计算可得Y t

∞

的协差矩阵Γ(k ) =

∑θ

j =0

j +k

Ωθj , k =0,1, 2, 。显然，VMA (∞) 过程是平稳的。

类似于单变量的AR 过程，平稳的VAR (1)过程可以表示成一个VMA (∞) 过程，即，

∞

Y t =φY t -1+εt =

∑φ

j =0

εt -j 。更一般的有，平稳的VAR (p ) 过程：

Y t =μ+B 1Y t -1+ +B p Y t -p +εt 。改写成向量算子多项式形式，B (L ) Y t =μ+εt 。那么，

∞

-1

Y t =B

(L ) μ+B

(L ) εt =ψ(1)μ+ψ(L ) εt 。设ψ(L ) =

∑ψ

j =0

L ，则由B (L ) ψ(L ) =I 可

推得，ψ0=I , ψj =

∑ψ

k =1

j -k

B k ，j =1, 2, 。且B k =0, k >p 。

V AR 过程与VMA 过程在一定条件下可以互换。由于VMA 过程估计涉及到复杂的非线性运算，在可逆性条件成立下，数值估计我们常把它转化成V AR 过程处理。但在理论分析上，用VMA 过程讨论冲击响应则更方便些，我们又将V AR 过程转换成VMA 过程处理。一般不同时讨论VARMA (p , q ) 过程。太麻烦。注：向量随机过程的沃尔德分解定理仍成立。一个2维的V AR Matlab 程序。（暂略）

§2 格兰杰因果性和冲击响应

多变量时间序列之间能否构成向量过程首先应当检查它们之间是否存在因果关系。 ⎛X t ⎫

设Y t = ⎪。定义，Z t 为X t 的格兰杰原因，指的是，如果已知X t 的过去值，Z t 有

Z ⎝t ⎭

助于预测X t 。反之，如果Z t 不是X t 的格兰杰原因，则意味着当已知X t 的过去值，Z t 对预测X t 没有帮助。

所以，将X t 和Z t 写成它们过去的线性表达式：

X t =a (L ) X t -1+b (L ) Z t -1+ηt Z t =c (L ) X t -1+d (L ) Z t -1+ξt

Z t 不是X t 的格兰杰原因意味着b (L ) =0；X t 不是Z t 的格兰杰原因意味着c (L ) =0。所以，

当b (L ) =0且c (L ) =0，X t 和Z t 就没有必要放在一起作为向量过程。做法是同时做两个F 检验。如果二个检验都不能拒绝H 0，则Y t 作为向量过程意义不大。

注：格兰杰因果关系不是习惯上认识的因果关系。如学历与工资、吸烟与癌症、施肥与产量，等等。格兰杰因果关系指的是多变量时间过程中时间前后的可预测关系，典型例子是，天气预报是天气的格兰杰原因。

多变量之间的相互联系带来的第一个问题是冲击响应的不唯一性。

∞

考虑一个VMA 过程，Y t =εt +∑θj εt -j ，εt ~W N (0,Ω) 。当Y t 是单变量过程时，冲

j =1

击响应指的是

∂Y t +s ∂εt

=θs 。含义是εt 在t 时刻一个单位的增加，再经过s 个时间单位后对过

程Y t 的影响。但当Y t 是一个向量过程时，冲击响应

∂Y t +s ∂εt

=θs 是一个m ⨯m 的矩阵。它的内

涵就多了。矩阵中的元素θkl 表面上看就是εt 的第l 个分量的单位冲击对Y t +s 的第k 个分量的影响。然而，元素θkl 不能像单变量那样表达得那么准确。

因为Y t 的VMA (∞) 表达可以有多种不同的外在形式，任给可逆矩阵P ，有：

∞

-1

∞

Y t =εt +

∑θj εt -j =PP εt +∑[θj P ][P εt -j ]=

j =1

∑φj ηt -j , ηt =P εt , φj =θj P 。

j =0

-1

所以，如果Ω不是对角矩阵，那么矩阵θs 就不能反映向量εt 在t 时刻一个单位的冲击在经过s 个时间单位后对过程Y t +s 的影响。因为φs 与θs 不能区别。

因此，我们应当限制Y t 的表述方式。比如，使E ηt ηt '是对角阵。特别限制使E ηt ηt '=I 是单位阵。由矩阵的Choleski 分解定理，知，存在下三角矩阵P 使得P P '=Ω。于是，做

-1-1-1-1-1-1

变换，ηt =P εt ，则，E ηt ηt '=E (P εt εt 'P ') =P E (εt εt ') P '=P ΩP '=I 。我们

-1

把Y t 的满足E ηt ηt '=I 的VMA (∞) 表述称为它的垂直冲击响应形式。

又当Y t 是一个VAR (p ) 过程，Y t =B 1Y t -1+ +B p Y t -p +εt ， E εt εt '=Ω。那么，先做变换P Y t =P B 1Y t -1+ +P B p Y t -p +P εt =P B 1Y t -1+ +P B p Y t -p +ηt ，则： E ηt ηt '=I 。因为P

-1

-1-1-1-1-1-1

≠I ，变换后Y t 不是一个标准的VAR (p ) 过程。但这是一个结构式的

V AR ，由于P 是下三角的，P -1也是下三角的，故这是一个递归形式的V AR 。于是，可把

∞

VAR (p ) 转化为VMA (∞) 的表达：Y t =[B (L ) P ]η(t ) =

-1

∑φη

j =0

t -j

，且E ηt ηt '=I 。

k 12m

给定冲击，e =(1,0, , 0) ，e =(0,1, , 0) ，，e =(0,0, ,1) ，那么，φj e '

就是φj 的第k 列，（e k φj 就是φj 的第k 行）它表示的是每个变量对第k 个分量在j 期前一个单位冲击产生的响应。所以，系统有m 2个这样的冲击函数。

下面考虑一个垂直响应形式的V AR 过程的方差分解。它有助于分析产生波动的原因主

∞

要是由变量的哪些分量因素决定。对，Y t =μ+

∑φη

j =0

∞

t -j

，

设t 后h 步的预测为，Y t +h =proj (Y t +h Y t , Y t -1, ) =

h -1

∑φη

j =h

t +h -j

，

t 后h 步的预测误差为，d t +h t =Y t +h -Y t +h t =

∑φη

j =0

t +h -j

，

预测h 步后误差的方差矩阵为，var(d t +h ) =E [(d t +h t )(d t +h t ) ']=

∑φφ'。

j =0

h -1

有意义的是这个总方差成分的分解。

现在考虑每一个分量的预测误差，对第i 个分量而言，i =1 m ，有：

h -1

j i , k

h -1

j i , k

Y i , t +h -Y i , t +h =

∑∑φ

j =0k =1

ηk , t +h -j =

∑∑φ

k =1j =0

ηk , t +h -j ，这里φj 是m ⨯m 矩阵φj 中的第(i , k )

i , k

个元素。所以，第i 个分量的预测误差要受到其他分量的影响。又由于E ηt ηt '=I ，所以，

h -1

j i , k

h -1

var(Y i , t +h -Y i , t +h t ) =

∑∑φ

k =1j =0

。和式∑φ

j =0

h -1

j i , k

表示第k 个分量的冲击对第i 个分量在h 步后

造成的预测误差的方差，和式∑

h -1

∑φ

j i , k

=e (∑φj φj ') e '则表示第i 个分量h 步后预测误差

j =0

h -1

k =1j =0

h -1

j i , k

的总方差。因此，比例值∑φ

j =0

j i , k

∑∑φ

k =1j =0

表示第k 个分量的冲击占对第i 个分量预测误

差的总方差的比例。此分析方法称为方差分解。直观的讲就是，把φj 的第i 行的平方和做分母，每个分量的平方做分子。方差分解解释了系统中每个分量的随机性冲击造成对其他分量

的误差占整体波动的相对重要性，在宏观经济的政策分析中非常有用。

举例（暂略）。

§3 VAR (p ) 的极大似然估计

3.1 不受限制下的极大似然估计

前述的方差分解等的应用是建立在估计的基础上的，本节讨论VAR (p ) 的估计。给VAR (p ) ，Y t =μ+B 1Y t -1+ +B p Y t -p +εt ，εt ~Normal (0,Ω) 。如果Y t 平稳，如何估计B 1, , B p 和μ, Ω？这里我们介绍常用的条件极大似然估计方法。

设Y -p +1= =Y 0=0，且有T 个观测Y 1, , Y T 。我们希望利用这些观测来估计

B 1, , B p 和μ, Ω。

设X t =(1,Y t -1, , Y t -p ) '，∏=(μ, B 1, , B p ) m ⨯(pm +1) ，那么，

Y t =μ+B 1Y t -1+ +B p Y t -p +εt =∏X t +εt , t =1, , T 。用联立的OLS 方法，得：

ˆ=ˆ=(Y X ')(ˆX ，且Ω∏∑t t ∑X t X t ') ， εˆt =Y t -∏t

-1

t =1

T T

∑εˆεˆ'。

t t

t =1

ˆ就是极大似然估计。 ˆ, Ω由于假定εt 具有正态性，我们证明，估计∏

首先，给定Y -p +1= =Y 0=0之下，对数极大似然函数为：

-1

log L (∏, Ωdata ) =(T 2) log 2π-(T 2) log Ω-(12) ∑(Y t -∏X t ) 'Ω(Y t -∏X t )

t =1

-1ˆ

=(T 2) log 2π-(T 2) log Ω-(T 2) tr [ΩΩ(∏)]。

ˆ代，其中，∑(Y t -∏X t ) 'Ω(Y t -∏X t ) =tr Ω[∑(Y t -∏X t )(Y t -∏X t ) ']，如果∏用∏

-1

t =1

T T

那么，=tr Ω(

-1

T T

∑εˆεˆ') =Ttr [Ω

t t

t =1

-1

ˆ(∏)]。所以，给定∏ˆ条件下，对数极大似然函数是Ω

一个关于Ω的矩阵连续可微函数。

-1

引理：A ，B 正定，且B 给定。则矩阵函数f (A ) =-log A -tr (A B ) 在A =B 时取

得最大值。

证明：当B =I 时，因为A 正定，存在正交阵Q 使QAQ '=diag (λ1 λn ) ，且λi >0。所以，f (A ) =-log(λ1 λn ) -(

λ1

+ +

λn

) =-∑(logλi +

i =1

λi

) 。得FOC ：-

λi

⇒λi =1 i =1 n 。又因为矩阵。例如，m=2，，f (A ) 是加性可和的，且0

λi

↑；λi >1，-

λi

↓。故λi =1时取得极大值。

当B ≠I 时，由B 正定，且正交变换不改变迹和行列式的值，故可设B 为对角阵。重复上述过程，仍可得A =B 时取最大值。

ˆ(∏) 时，log L (∏, Ωdata ) 取得极大值。且有：由引理，当Ω=Ω

ˆ(π) data ) =-T log(2π) -T m -log Ωˆ(π) 。再最大化log L ，求∏。等价于log L (∏, Ω

22ˆ(∏) 最小化。ˆ(∏) =1求Ω因为Ω

∑(Y

t =1

ˆ。这是OLS 方法。故得∏=∏-∏X t ) '(Y t -∏X t ) ，

所以用OLS 方法所求的∏和Ω的估计就是它的条件极大似然估计。

注：条件极大似然估计的做法是，欲故∏和Ω，先任意固定∏，求得在固定∏条件下Ω的最大值。然后，又在给定Ω的最大值的条件下，反过来求∏的最大值。这种方法也可以倒过来做，先任意固定Ω，求得在固定Ω条件下∏的最大值，然后，又在给定∏的最大值的条件下，反过来求Ω的最大值。至于谁先谁后，要看∏和Ω谁受到约束，受到约束参数的先求。这在后面要讲到的结构性VAR 时的估计是非常有用的。

ˆ的极限分布及检验 ˆ和Ω3.2．∏

ˆ的的极限分布。 ˆ和Ω下面考虑极大似然估计∏⎛π1'

'π2 记 π= '⎝πm

ˆ1'⎫⎫⎛π⎪ ⎪

'ˆ2π⎪ 相应的估计，π⎪ （注：对π按行分块。ˆ= ）

⎪ ⎪⎪ ⎪

'ˆπ⎭⎝m ⎭

那么，第i 个方程能被写成：

Y it =πi 'Xt +εit i =1, 2,..., m ，

-1

ˆi '=(∑Y it X '得πi '的OLS ： π)(∑X t X ') i =1, 2, . m . . 。, t t

t =1

-1

') ˆi -πi =(∑X t X '∴π) (∑X t εit

t =1

由Y t 的平稳性，X t =(1,Y t -1,..., Y t -p ) '，

令Q =EX t X 't ∀t ，且Q 与t 无关，是(p+1)⨯(p+1)矩阵。由εit ~N (0 σi

) i =1, 2,..., m ，即每一分量有不同的方差，和CLT 可得：

ˆi -πi ) −−π→N (0 σi Q

-1

)，i =1, 2,..., m 。

ˆ=由向量大数定律，Q

∑X

t =1

X '−−→Q ，T →∞。 t

⎛12-1⎫2

ˆi ~N πi σi (∑X t X 'ˆ) 故得： π 其中σ=t i ⎪

T t =1⎝⎭

ˆX i i t =1, 2,..., m π∑εˆit εˆi t =Y i -t t =1

∴对V AR 模型可进行类似联立方程模型的关于同方程参数πi 的t 检验和F 检验。

如果要对不同的πi 进行检验，即跨方程的检验。需要知道π的联合分布。由E εt =Ω可

ˆj 的极限分布，lim T cov(πˆi 和πˆi , πˆj )=σij Q 求得π

T →∞

-1

i , j =1, 2, . . 。.

如果令π'=(π1, , πm ) （π'按列分块） ⎛π1

πv =V ec(π')=

π⎝m

⎫⎪

ˆv =V e c πˆ π('⎪⎪⎭

ˆ1⎛π ) = π⎝ˆm

⎫⎪ ⎪⎪⎭

注：V ec 称为矩阵按列的拉直算子。那么，向量πv 的联合极限分布就是：

-1

ˆv -πv )−d π−→N (0 Ω⊗Q )

Ω⊗Q

-1

是Kronecker 乘积

⎛σ11Q -1 σ12Q -1 σ1m Q -1 ⎫ ⎪= ⎪ σQ -1 σQ -1 σQ -1 ⎪

m 211⎝m 1⎭

Ω⊗Q

-1

所以，对πv 的线性约束条件R πv =r ，就有相应的Wald 统计量：

2ˆ-1R '⎤(R πˆ⊗Q ˆv -r ) '⎡R Ωˆv -r ) −d T (R π−→χq

⎣⎦

-1

其中，q 是R 的秩（或R 的行数）。从而我们可以进行相应的类似多元线性回归的Wald 检

验，或部分参数为0约束下的Lagrange 乘子检验。不再详述。

ˆ的极限分布则要麻烦得多。关于方差矩阵Ω

因为Ω是对称阵，故只需考虑Ω的下三角阵。

⎛σ11 σm 1 σ22

定义Ω的对称拉直算子为Vech, V ech(Ω)=

σm 2 σ⎝m m

⎫⎪⎪⎪

⎛σ11⎪

σ σ⎛11 12⎫⎪

例如，V ech =σ21⎪ ⎪

⎝σ21 σ22⎭

⎪⎝σ22⎪⎪⎪⎪⎭

⎫⎪。 ⎪⎪⎭

又定义算子D ，D(Vech(Ω) )=Vec(Ω) 。

意思是将向量Vech(Ω) 恢复到Ω在拉直算子作用下的向量。

⎛σ11

⎛σ11σ12⎫n (n +1) 2

所以D 是一个n ⨯的矩阵。当Ω= ⎪ ，那么V ech(Ω)= σ21

2⎝σ21σ22⎭ σ

⎝22⎛σ11 σ21 D (Vech(Ω) )=

σ12 ⎝σ22

-1

⎫⎪

，则⎪⎪⎭

⎫⎛1 0 0 ⎫⎪ ⎪

0 1 0⎪ 。所以， D = ⎪。

⎪ 0 1 0⎪⎪ ⎪

0 0 1⎝⎭⎭

记 D =(D 'D )D ' ，（故D +是投影矩阵） ∴D ⎛σ11

σ21+ D 当m=2，即

σ12 ⎝σ22

⎫

⎪⎛σ11⎪= σ⎪ 21

⎪⎝σ22⎭

h (][D V e c Ω

=) V e Ωc 。h ()

⎫⎛1 0 0 0 ⎫⎪⎪ 11+

D =0 2 2 0⎪。，所以 ⎪

0⎪⎪⎝ 0 0 1⎭⎭

注：D +称为D 的广义逆，因为D +D =I 。符号慢慢熟悉，关键是知道定义的意思。 ˆ的极限定理。有了上述准备，我们有下面关于Ω

定理：

++ˆ) -V ech(Ω) −d

V ech(Ω−→N (0 , 2D(Ω⊗Ω)D ') )

ˆ不仅是一致的，而且是即极大似然估计Ω

记住。（证明略，参见Hamilton 的时间序列分析）。例如，当m=2时，

⎛1 0 0 0 ⎫⎛1 0 0 0 ⎫

⎪⎛σ11Ω σ12Ω⎫ ⎪ 1111++

2D (Ω⊗Ω)D =20 2 2 0⎪ 0 0⎪ ⎪ 22

⎝σ21Ω σ22Ω ⎭ 0⎪⎪

⎝ 0 0 1⎭⎝0 0 0 1⎭

2σ11σ21 2σ21⎛2σ11

= 2σ11σ21 σ11σ22+σ21 2σ21σ22

2 2σ2

2σ21σ22 2σ22

21⎝

⎫

⎪⎪ ⎪⎭

ˆ中的元素，σˆij 和σˆ k 的渐近协这个定理的含义是，∀i ≤j , ≤k , 且1≤i,j, ,k ≤m ，Ω

方差是σi σjk +σik σj ，或

E(εit εjt -σij )(ε t εkt -σ k ) −−→2D (Ω⊗Ω)D ' t →∞。

由于正态变量εt 的三阶矩为零，即E (εit εjt εk t ) =0对∀i ,j ,k 成立，所以，还可以进ˆ也是渐近独立的。则πˆ有联合分布：

ˆ和Ω一步证明，极大似然估计πˆ和Ω

ˆv -πv )

⎫⎛⎛0⎫⎛Ω⊗Q -1 0d

⎪−−→N ⎪, ++

ˆ 2D(Ω⊗Ω)D V ech(Ω) -V ech(Ω) ⎪⎝0⎭⎝0⎝⎭

⎫⎫

⎪⎪⎪⎭⎭

)

有了这个联合极限分布，我们可以做许多有意义的假设检验。特别是有关误差方面的检

验。例如，ε1t 和ε2t 是否相关，检验σ12=0，或者ε1t 和ε2t 是否具有同方差，检验σ11=σ22等等。具体问题具体分析。

ˆ的极限分布变得很敏感。注：当εt 不具有正态性时，上述结论不一定成立。特别是Ω但对πˆ，

只要有4+δ的有限矩，则仍具有渐近正态性。故对π的有关参数检验仍然是有效的。举例（暂略）

3.3．存在条件异方差情况下的极限分布

V AR 模型中，当序列εt 不再是i.i.d. 而是鞅差分时，条件异方差问题就会产生。这是一

个普遍存在的问题，不能回避，如前述的ARCH 过程。在条件异方差情形下，虽然得到的ˆ仍是π和Ω的一致估计，但πˆˆ和Ω

条件似然估计πˆ和Ω

分布和联合分布要有相应的改变。这会影响到假设检验。讨论如下：

记S x =

X ∑T

t =1T

，

X '−−→Q ，因为εt ⊗X t 是一个鞅差分序列（E (εt ⊗X t F t -1) =0）t

ε=1

⊗X t 的极限方差就是

(εε'⊗X ∑T

t =1

的概率极限。 X 't )

如果在条件同方差的假设下，即∀t E (εt εt 'X t )=Ω，那么，

't )=∀t E (εt ε't ⊗X t X

⎡E

⎣

(E ε

X )t ⊗

'⎤X ')X =Ω⊗E (X t X t ⎦

。 =Ω⊗Q

∴

(εε'⊗X ∑T

t =1

X '−−→Ω⊗Q 。 t t )

又因为

-1

⎛⎛T

⎫T

∑X t X '∑X t ε1t t ⎪

⎭t =1 ⎝t =1

T -1

⎛⎫∑X t X 't ⎪∑X t ε2t

⎝t =1⎭t =1

T -1

⎛⎫ '

∑X t X t ⎪∑X t εm t

⎭t =1⎝⎝t =1

-1

⎛⎛1T

⎫⎛ ∑X t X 't ⎪ T t =1⎭⎝ ⎝ -1

T 1⎛⎫⎛ 'X X ∑t t ⎪ = ⎝T t =1⎭⎝

-1

T 1⎛⎫⎛1 'X X ∑t t ⎪ T

⎭⎝⎝⎝t =1

ˆv -πv )=

ˆ1-π1⎛π

ˆ2-π2π

ˆm -πm ⎝π

⎫⎪⎪=⎪⎪⎭

⎫⎪⎪⎪⎪⎪ ⎪⎪⎪⎪⎪⎭

t =1T

t =1

⎫⎫X t ε1t ⎪⎪

⎭⎪⎪⎫⎪X t ε2t ⎪

⎭⎪ ⎪⎪⎪⎫⎪X t εm t ⎪⎪

⎭⎭

注意：X t εi t =εi t X t ，i =1, 2,..., m ，其中εi t 是一个分量，则上式为：

1⎛S -0⎫x ⎪⎛= ⎪

-1⎪⎝ 0S x ⎭⎝

⎫-1

εt ⊗X t ⎪=(

I ⊗S x )⎪⎭T

t =1

⎫

εt ⊗X t ⎪。

⎪⎭

∴

ˆ-π)的极限方差阵就是： π

p lim (I ⊗S =p lim

T -1

)[T ∑(εε'⊗X X ')](I ⊗S )

-1x

t =1t

-1x

εε'⊗S (∑T

t =1

X t X 'S t x

-1

)=V

ˆv -πv )估计：再用残差εˆt 代替ε

t π

ˆ=1 V

∑(εˆεˆ'⊗S

t t

t =1

-1x

-1

ˆX t 。 εˆt =Y t -πX t X 'S t x )

特别，在条件同方差假定下，由

(εε'⊗X ∑T

t =1

X '−−→Ω⊗Q ， t )

∴p lim (I ⊗S x

-1

)(Ω⊗Q )(I ⊗S )=Ω⊗Q

-1x

-1

。

ˆ-Ω的极限。注意：Ω=E εε'是一个常数矩阵，Ωt t

)

与t 无关。在一般的异方差条件下，由

→Ω，仍然有：

∑εˆεˆ'−−T

t =1

ˆ) -Vech(Ω) =Vech(Ω

)

Vech (εˆεˆ'-Ω)

t =1

Vech (

εε'-Ω)+o

t =1

(1)=

t =1

+o P (1)

其中，ξt =V ech(εt εt '-Ω) ，o P (1)是一个关于t 的无穷小量。

注意：即使εt 是序列不相关的，如εt ~WN (0,σ) ， ξt 也是一个具有条件异方差的相关序列，如ARCH 过程。

t =1

的极限方差为： Λ=lim

T T

t s

T →∞

∑∑E (ξξ)。

t =1s =1

ˆ) ，再用由前述，这是关于ξt 的长期方差。为获得Λ的一致估计，令ξˆt =Vech(εˆt εˆt '-Ω

Newey-West 的光滑调整的方法：

ˆ=Γk

∑

t =k +1

ξˆt ξˆt-k k =0, 1, 2 , .

ˆ估计是：给定一个充分大的J ，得Λ

ˆ=Γˆ(0)+Λ

∑

j =1

j ⎫ˆ⎛ˆ(j) '⎤ 且T →∞，J →0。 ⎡1-Γ(j) +Γ ⎪⎦T J +1⎭⎣⎝

ˆ是Λ的一致估计。知Λ

ˆ=Γˆ(0)，即此时Λ是ξ的短期方差。特别，当ξt 是序列不相关时，得Λt

ˆ极限分布仍是独立的。从而可得它们的联合分在给定X t ，εt 是条件正态的情况下，πˆ和Ω

布为：

ˆv -πv π⎫d ⎛⎡V 0⎤⎫

→N 0, ⎢⎪−−⎥⎪。 V ech(Ωˆ) -V ech(Ω) ⎪0Λ⎦⎭⎝⎣⎝⎭

又当εt 不具有条件正态性的情况下，则εt 和ξt 是相关的，从而联合分布中的方差矩阵没有

准对角的形式，我们需要求得它们间的协差矩阵C 。因为εt 是鞅差分的，故E (εt ⊗ξs F s ) =0，当s

ˆ) -V ech(Ω) 的协方差矩阵： ˆ-

π)V ech(Ωπ

)

C ~plim [(I ⊗S

-1

)T ∑(ε

t =1

t t

⊗X t )]ξt '=p lim

εξ'⊗S (∑T

t t

t =1

-1

X t )

ˆ=1则C 的一致估计是C

∑(εˆξˆ'⊗S

t =1

-1x

X t 。

)

ˆ的联合分布就得修正为：

所以，在干扰εt 是鞅差分过程的前提下，估计πˆ和Ω

ˆv -πv π⎫d ⎛⎡V C ⎤⎫

−−→N ⎪ 0, ⎢ ⎥⎪。 V ech(Ωˆ) -V ech(Ω) ⎪

⎝⎣C 'Λ⎦⎭⎝⎭

这是一般情况下的联合分布。利用该联合分布适应进行各种一般假定下的关于π和Ω的检

验。如格兰杰因果关系检验，如果误差项关于时间不一定是独立不相关的。

⎛Y 1t

将Y t 分成两部分，Y t =

⎝Y 2t

⎫

⎪，相应地，定义X 1t ⎭

⎛Y 1t-1 = Y ⎝1t-P

⎫⎛Y 2t-1

⎪

X 2t =

⎪

Y ⎪

⎝2t-P ⎭

⎫

⎪ ⎪⎪⎭

则V AR 过程可以写成：

⎛Y 1t ⎫⎛μ1⎫⎛A 1A 2⎫⎛X 1t ⎪= ⎪+ ⎪

A Y μA ⎝2t ⎭⎝2⎭⎝34⎭⎝X 2t ⎫⎛ε1t ⎫

⎪+ ⎪

ε⎭⎝2t ⎭

⎛A 1A 2⎫

如果矩阵π= ⎪中，A 2=0，意味着Y 1t 不受Y 2t 的影响，即Y 2t 不是引致Y 1t 的格

⎝A 3A 4⎭ˆ的联合分布可求得，兰杰原因。由于πˆ和Ω我们可适当选择R ，使得R π=0当且仅当A 2=0。

采用Wald 统计量进行检验。

一个更方便的基于回归方式的极大似然比检验方法是： ˆ 1．Y 1t 对μ1、X 1t 和X 2t 回归，得残差εˆ1t 和Ω11ˆ(0) 2．Y 1t 对μ1、X 1t 回归，得残差εˆ0t 和 Ω11

2ˆ(0)-log Ωˆ3．极大似然比统计量为：LR =T log Ω~χq 1111

()

在H 0:A 2=0之下，其中q 是A 2中变量的个数。这要在块约束A 2=0之下，求π和Ω的极大似然估计，涉及到麻烦的矩阵代数运算。（略）

π和Ω的在更一般的约束限制下的极大似然估计参见Hamiltion 的书（p373-378）。注：如果A 3=0，则意味着Y 1t 不是引致Y 2t 的格兰杰原因。因此，Y 1t 和Y 2t 是各自不相关

的向量自回归过程。没有必要将他们放在一起作为向量过程Y t 进行V AR 分析。

3.4．联立式方程模型和结构式SV AR

3.4.1．联立式方程模型（SEM ）

经济理论建模中，采用联立式是比较方便的。SEM 的形式是：ΓY t =BX t +e t , 其中，

Y t 是m ⨯1的，Γ是m ⨯m 可逆的，B 是m ⨯k 的。Y t 称为内生变量，X t 称为先决变量，e t

称为随机干扰，且E e t =0，V ar(et ) =∑，其中(Γ B ∑)称为结构式参数，是未知的。这里

ΓY t 是系统变量的现时关系的表达，B X t 是系统变量过去关系和与外生变量关系的表达，e t

既可以是现时的噪声干扰也可以是现时与过去共同产生的关联干扰。

我们知道，SEM 存在内生性问题，故OLS 方法所得估计不是一致和有效的。另外，还有一个系统可识别的问题。因此，当模型是SEM 形式时，我们需要寻求其他有效的估计方法求得模型的结构参数(Γ B ∑)。

注：建议读本节时参阅伍德里奇联立方程模型这一章。

首先，对SEM ，ΓY t =BX t +e t ，两边乘上任意可逆矩阵F 得F ΓY t =FBX t +Fe t ，改写成：ΓY t =B X t +e t ，则与原SEM 有共同的简约式：

Y t =πX t +εt （ Γ

*-1

B =ΓF FB=ΓB=π）

*-1-1-1

此意味着，Γ和Γ*以及B 与B *不可识别，因为F 有m 2个元素，（当然还有可逆条件的限制）故我们必须对模型加上m 2个约束条件模型才能唯一确定。我们知道，在截面数据的回归分析中，一般常采用规范化限制，即规定Γ的主对角线元素Y ii =1 i =1...m 和排除性限制，即依据具体问题，限定Γ和B 中的某些元素为零（参见伍德里奇教本P218），并由此可得到在同方程限制下的系统可识别的阶条件和秩条件。跨方程的限制则更复杂。

但在时间序列的分析中，通常不采用引入工具变量的办法，限制条件通常采用对协方差矩阵Ω=Γ-1∑Γ-1上的约束和加上规范化限制。

3.4.2．结构式V AR （SV AR ）

SEM 的一个特殊形式就是结构式V AR 。即模型中的X t 都是Y t 的滞后变量。 SV AR 的形式是：

A 0Y t =τ+A 1Y t-1+ +A P Y t-P +e t

其中，A 0是m ⨯m 的可逆矩阵。不失一般性，由规范化限制，令A 0的主对角线元素为1，

且A 0≠I 。e t 称为结构性干扰项。这里，SV AR 表达的含义是，现时的内生变量Y t ，

Y t =(Y 1t , , Y m t )'的相互作用（通过A 0来表示），与过去的先决变量的相互作用（用

A 1, , A P 表示）的内在联系。这些联系是建立在经济理论和假设基础之上的，故A 0, A 1, , A P 有直接的经济解释，参数有确定的经济含义。

SV AR 的简约形式是：Y t =A 0τ+A 0A 1Y t-1+ +A 0A P Y t-P +A 0e t 或

Y t =μ+B 1Y t-1+ +B P Y t-P +εt 这就是V AR 的形式。

-1-1-1-1

⎛1

Y t-1

如果令X t =

⎝Y t-P ⎫⎪

⎪ ， B =τ A A )，那么，SV AR 能改写成A Y =B X +e ，这就

(10t t t P

⎪⎪⎭

是SEM 形式。但SEM 与SV AR 还是有实质性区别，在SEM 中，可以引入外生变量即非系统变量，而在SV AR 中，只包含有先决变量（内生变量的滞后）。且每个内生变量是相互联系的。在识别问题上，在SEM 中，由于有外生变量可以利用，常采用排除限制，而在SV AR 中，没有外生变量可以利用，常采用对结构性干扰的方差矩阵限制和现时变量间的约束限制。另外，SEM 关注的是模型参数的一致估计，而SV AR 关注的则是结构式干扰方差阵的识别和干扰对系统变量的动态响应。为要讨论干扰对系统的动态影响（冲击响应），需要将SV AR 转变成结构式滑动平均（SVMA ）形式。做法是，将上述SV AR 改写成算子形式:

，ψ(L ) (Y t -μ)=e t ψ(L )=A -A L - -A L 01p

∞

那么，求逆，可得MA 形式：Y t =μ+

∑C e

j =0

j t-j

令ψ

-1

(L ) =C 0+C 1L +C 2L + ，

由ψ(L ) ψ

-1

(L ) =1，可推得：C 0=A

-1

，C j =

∑C

k =1

j-k

A k A 0 j =1, 2, 且A k =0 k >p 。

∞

-1

再对简约式Y t =μ+B 1Y t-1+ +B P Y t-P +εt 写成MA 式Y t =μ+

∑D ε

j =0

t-j

，则有：

D 0=I B k =0 k >p ， D j =

∑D

k =1

j -k

j =1, 2, 。 B k

所以，如果简约式V AR 的参数B 1 B p 可估，那么D j 可估。又如果A 0可通过限制得到，那么C j =D j A 0（习题）也是可估的。

令结构式干扰e t 的方差为Λ=V ar(e t ) ，可以认为Λ是对角的，即每一个结构方程是不

-1

相关的，系统中变量现时的关联通过A 0表达，e t 是独立的现时随机性干扰。由于Λ不再是

⎧⎫

单位阵，故{C j }表达的仅是一个标准差的冲击响应，代之以⎨C j Λ2⎬则是单位的冲击响应。

⎩⎭

-12

又定义φj =C j Λ2和ηt =ΛC j ，则前述有关V AR 的方差分解分析就可以用到SV AR

上。

例：汇率问题

系统选择G 7国家：德国、日本、英国、法国、意大利、加拿大和美国，定义如下7个与汇率有关的变量：

1． R ：短期利率；

2． M ：货币发行；（M 0或M 1） 3． CPI ：消费价格指数； 4． IP ：生产价格指数； 5． OPW ：世界石油价格； 6． FFR ：美国联邦准备金率； 7． E ($)：各国与美元的汇率。

Kim 和Rubini （2000）假定e t =A 0εt 中，A 0有排除性约束（即含0的个数）关系：

⎛1 a12 0 0 a15 0 a17⎫ ⎪a 21 1 a23 a24 0 0 0 ⎪ 0 0 1 a34 a35 0 0⎪ ⎪A 0= 0 0 0 1 a45 0 0⎪

0 0 0 0 1 0 0⎪ ⎪ 0 0 0 0 a65 1 0⎪ ⎪⎝a 71 a72 a73 a74 a75 a76 1 ⎭

这里排除性约束关系超过

m (m-1)

个，故系统会出现过度识别的问题。

下面讨论SV AR 的可识别问题。首先，e t 有对角型方差阵，这意味着有

m (m-1) 2m (m-1)

个协方差为零的限制。加上 A 0主对

角线上元素为1的规范限制，所以只需确定这

m (m-1)

个其它限制，系统就是可识别的。一般

个限制通过排除性限制放在A 0上。因为A 0表述的是系统变量当前的相关关系，

所以，如果当某一变量对另一变量的响应是延迟的，那么相应的该变量当前的系数就应当为0，可以分析任意两变量间当前的相关关系。完成这样的分析，可以把它们写成结构式干扰

和简约式干扰的相互联系：

e t =A 0εt V a r (t e =) Λ ∴V ar(εt ) =A 0ΛA '0

-1

=Ω

因为Ω总是一致可估的，所以，对可识别问题而言，我们仍总是可认为Ω是已知的。所以，当A 0的

m (m-1)

个限制被确定，我们可以通过Ω求得A 0和Λ。特别，当A 0是下三角矩

m (m-1)

阵时，则实际已给出了A 0的

个限制，称为递归的SV AR 形式。递归的SV AR 系统

变量的顺序安排是非常重要的。

又当给出的限制多于

m (m-1)

个时，系统则是过度可识别的。A 0和Λ有多组解。过度

识别会降低估计的有效性。（限制越多，估计的方差越大；没有限制，方差最小）

举例：（暂略）

3.5 SVAR 的完全信息极大似然估计（FIMLE ）

因为OLS 方法对SV AR 的参数估计不再具有一致性，本节在OLS 方法基础上介绍完全信息似然估计法（FIMLE ）。完全信息的含义是希望把限制条件的信息全部用上。

3.5.1．在协方差限制下的FIMLE

Λ, ) 给SV AR ： A t Y t =τ+A 1Y t-1+ +A p Y t-p +e t e t N (0

-1-1-1

改写成VAR ：Y t =μ+B 1Y t-1+ +B p Y t-p +εt μ=A 0τ B i =A 0A i εt =A 0e t

-1-1

再改写成它的简约式：Y t =πX t +εt 则Y t ~N(πX t , A 0 ΛA '0)

欲估(π, A 0, Λ)，π=(μ, B 1, , B p )。则对数似然函数是：

log (π, A 0, Λ)=

-1

T 2

-1

log (2π)-

T 2

log Ω-

(Y ∑2

t =1

-πX t )'Ω

-1

(Y t -πX t )，

其中Ω=A 0ΛA '。 0

因为识别的限制不在π上，即π没有约束，故最优的π仍是OLS πˆ，不依赖于Ω。故concentrated 似然函数就是：

ˆ, A 0, Λ)=log (π

T 2

log (2π)-

T 2

log Ω-

T 2

-1ˆ

tr ΩΩ(π)

()

ˆ=1这里Ω

∑(Y

t =1

ˆX t )(Y t -πˆX t )'。 -π

ˆ不是真正意义上的MLE ，它仅是右边表达式的一个缩写记号。只有在Ω不受注意：这里Ω

ˆ才是MLE 。到限制时，Ω

将Ω用A 0ΛA '0代入，得：

log (A 0, Λ)=const+Tlog A 0-

log Λ-

T 2

-1ˆ tr A 'ΛA 0Ω0

-1-1

在恰好可识别的条件下，A 0ΛA '0包含有

-1-1

m (m+1)

()

个自由变化的参数。又由前述引理，

ˆ和Λˆ-1Λˆ'-1时取得极大值，所以，存在唯一解A ˆ=A ˆA ˆ。 Ω000

**ˆ*-1Λˆ'*-1，记Ωˆ-1Λˆ'-1，ˆ=A ˆ*A ˆA 又在过度可识别条件下，最大值A 0, Λ不满足Ω=A00M L 00

ˆ。则在恰好可识别的条件下有Ω=ΩM L

记Ω的对数极大似然值为 (Ω) ，那么，可以证明极大似然比统计量：

m (m-1) 2ˆ) - (Ω ⎤LR =2⎡ (Ω) ~χ，其中P 是过度识别的个数，就是超过个限制的个M L ⎦p ⎣2

数。大的统计值导致拒绝H 0，意味着存在有问题的限制设定。

当系统过度识别时，我们选择一个标准，寻求A 0和Λ，使得Ω=A 0ΛA '0与Ω的“距

-1

离”是最近的。称为最小距离估计。

Λ, )=⎢ M D (A 0

⎣⎡

ˆh -V e c Ω

(

-1

ΛA '

-1

)

-1ˆ-W ΩV e c h Λ0

(

⎤-1

'A A 0⎥

⎦

)

M D (A 0, Λ)的极限分布显然依赖于权矩阵W 的选取。如何选？

ˆ-Ω=Ω

)

ˆ-A -1ΛA '-1−−Ω→N (0, G ) 00

)

其中，G =p lim

ξξ' ξ∑T

t t

t =1

=Vech (εt εt '-Ω)

ˆ，εˆ=Y -πˆX t 代替，自然，用ξˆt =V ech εˆt εˆt '-Ωt t

ˆ和Λˆ-1，即得到A ˆ=Gˆ为加权的OLS 。可以证明，M D (A , Λ)的极大似然估选择W 00

()

计是更有效的估计。进一步有，M D (A 0, Λ)−−→χp 。其中p 是超过限制的个数。注：该结论即使对εt 视非正态和条件异方差时仍成立，但LR 统计量在非正态条件下就不再具有卡方分布的性质，但在有限样本时，MLE 仍然具有优势。

3.5.2．无协方差限制下的FIMLE 虽然SV AR 在识别问题上几乎不考虑有关参数矩阵π的限制。但是如果系统可以从引

入足够多的外生变量影响Y t 的动态行为，那么就可以讨论有关π的限制问题。这就是传统的FIMLE 。

考虑：A 0Y t =BX t +εt ，这里X t 除了有Y t 的滞后项外，还包含有外生变量Zt ，如果

A 0和B 满足阶条件或秩条件，那么简约式是：

Y t =A 0BX t +A 0εt =πX t +εt

-1

同样，对数似然函数是：

log L (A 0, B, Ωdata )=

T 2

log (2π)-

T 2

log Ω-

∑(Y 2

t =1

-πX t )'Ω

-1

(Y t -πX t )

不过这次约束不是在Ω上，而是在π上，于是我们先不考虑Ω（concentrate out ），求

-1ˆ-1B ˆ，ˆ，再由πˆ=A π=A 0B 的极小。由前所述，这就是对Y t =πX t +εt 带约束回归的π0

ˆ,B ˆ。当系统过度识别，也可将不受限制的πˆ和受当系统恰好可以识别时，可得唯一的A 0

ˆ-1B ˆ进行似然比检验。也可以构造最小距离的加权估计。 ˆ=A 约束的π0

3.5.3．一般限制下的FIMLE

除了A 0B 或Ω受限制外SV AR 模型依据实际问题不同还存在许多其它类型的限制。如

交叉方程限制（不同的方程拥有相同的参数）、单方程同参数限制。A 0B 和∑的相关联限制，既可以是线性关联，也可以是非线性关联等等。在这些一般性的限制条件下，识别问题先放置不讨论，我们讨论一般限制下的FIMLE 。设θ是满足一般约束条件下的任意可行的结构参数，且SVR 的简约形式的参数是：

π(θ)和Ω(θ)，这里由于约束是给定的，故π(θ)和Ω(θ)是θ的连续函数。

于是，Y t =π(θ)X t +εt E εt εt '=Ω(θ)，所以，极大似然函数很容易写成θ的函数

T 2

log (2π)-

T 2

log Ω(θ

的形式： (θ)=)

(Y ∑2

t =1

-π(θ)X t )Ω(θ

)(Y t -π(θ)X t )

-1

θ的最小距离估计θˆ。

ˆ是π和Ω在不受限制情形下的OLS 估计。设πˆ和Ω

ˆ) 以及π=π(θ)=Vec(π) ，s =s (θ)=Vec(Ω) 。在εˆv =V ec(πˆ) ，s ˆv =Vec(Ω记πt v v v v

服从正态分布的假定下，有：

πˆv -πv (θ0)⎫⎡V C ⎤

⎪−d −→N (0, ∆) ∆=⎢⎥ 0's ⎪ˆ-s θ⎣C V ⎦

⎝v v ()⎭

ˆ是∆的一致估计，那么最小距离估计θ是：设∆

ˆv -πv (θ⎛π

m in

s θ

⎝ˆv -s v (θ)

)⎫'

ˆv -πv (θ⎛π-1ˆ⎪∆

⎪ s ⎭⎝ˆv -s v (θ)

)⎫

⎪

⎪⎭

⎛∂πv (θ0)/∂θ'⎫

⎪，又定义，G =

∂s (θ)/∂θ'⎪⎝v ⎭

则真值θ0的最小距离估计θˆM D 之间有极限分布：

d 0-1

θˆM D -θ−−→N 0, (G '∆G )

)

(

-1

)

注：在非正态条件的情形下，最小距离估计比ML 更有效。

具体的实践一个SV AR 模型，对本节的体会会更深。

3.6 状态空间表示与卡尔曼滤波

一个随机向量过程除了V AR 的表述形式外，还可以写成状态空间模型的表达方式。状态空间表示在随机控制问题中应用更为方便。

设Z t 为状态变量，Y t 为可观测变量，模型假定：

Z t +1=F t Z t +u t μt ~W N (0,Ωμ) Y t =H t Z t +v t v t ~W N (0,Ων)

其中F t 和H t 是非随机的，或是先决的，特别F t =F ， H t =H 与时间无关，对∀t 成立。适当选择F t 和H t ，我们能得到各种有意义的向量过程。

例1．把VAR (p ) 写成状态空间模型：

Y t =μ+A 1Y t -1+ +A p Y t -p +εt ，定义：

⎛1⎫⎛1 0 0 0 ⎫

⎪ ⎪

μ A A A Y 1p -1p t ⎪ ⎪

, t +1, 0Z t = Y t -1⎪ F = 0 I m 0 0⎪ μt =(0ε

⎪ ⎪ ⎪ ⎪ Y ⎪ 0 0 I 0⎪t -p +1m ⎝⎭⎝⎭

'0) ；则易验证：

Z t +1=FZ t +μt ，Y t =H Z t =(0,I m , 0, , 0) Z t 。这里F 和H 都是已知时间不变的常数矩阵。

特别，VAR (1)，Y t =AY t -1+εt ，就是Z t =AZ t -1+εt 。及Y t =Z t 。

例2．M A (1)过程，Y t =εt +θεt -1。定义： ⎛εt ⎫⎛0Z t = ⎪，那么Z t =

ε⎝1⎝t -1⎭

0⎫⎛εt ⎫

⎪Z t -1+ ⎪；于是，Y t =(1,θ) Z t 。 0⎭⎝0⎭

1⎫⎛1⎫

Z +⎪t ⎪εt 。 0⎭⎝θ⎭

⎛Y t

也可令，Z t =

⎝θεt ⎫⎛0

Z =Y =(1,0) Z ，，那么，⎪t t t

⎝0⎭

还可令，Z t =θεt ，Y t =Z t +εt ，则Z t =0Z t -1+θεt 。所以表达不唯一。

可以证明任何的ARMR (p , q ) 和VARMR (p , q ) 都能表示成状态空间模型的形式。（习题）

例3。随机游动加噪声：

Y t =μt +εt ，μt =μt -1+ηt ；εt ~W N (0,σε) ，ηt ~W N (0,ση) ，且εt 与ηt 独立。

222

如果ση=0，则μt =μ就是Y t 的期望。对非零相对于σε较小的ση，我们可以认为Y t 有一

个小小波动的期望，如果ση很大，那么随机游动的成分就占统治地位。把Y t 看成是一个有趋势的随机游动过程更合适。该模型的一个特征是Z t =μt ，这是一个含有不可观测成分的模型。

例4．变化均值和变化斜率的模型：

Y t =μt +εt ，μt =μt -1+βt -1+ηt ，βt =βt -1+ξt 。如果ση=0且σξ=0，那么βt 就是一

个常数，且μt =μ0+βt 。显见，β表示了斜率，μ0表示了截距。所以，σξ非零但很小，模型就有一个缓慢变化的斜率，写成状态空间表示为： ⎛μt

Z t =

⎝βt

⎫⎛1⎪ ，Z t =

⎝0⎭

1⎫⎛ηt ⎫

⎪Z t -1+ ⎪，且Y t =(1,0) Z t +εt 。 1⎭⎝ξt ⎭

例5．参数随时间变化的回归模型

Y t =X t βt +εt ， βt =βt -1+ηt ，令Z t =βt 。立得状态空间模型。

例6．动态因子模型

考虑有k 个潜在因素f t =(f 1, , f k ) '对Y t 有影响： Y t =Λf t +e t , t

f t =A 1f t -1+ +A p f t -p +ηt ，即f t 是VAR (p ) ；

e t =B 1e t -1+ +B p e t -p +εt ，即e t 是VMA (q ) 。

定义，Z t =(f t f t -p +1, e t e t -q +1) '， μt =(ηt , 0 0, εt , 0 0) '

⎛A 1

令，A =I k

0 ⎝

A p -10I k

A p ⎫⎛B 1 ⎪ 0 ， B =I m

⎪

0 0⎪⎭⎝

B q -10I m

B q ⎫

⎪0。 ⎪0⎪⎭

则，Z t =

⎛A ⎝00⎫

⎪Z t -1+μt ，且Y t =(Λ, 0 0, I k , 0 0) Z t 。 B ⎭

注：我们看到状态空间模型表示非常灵活，更为一般的状态空间表示为：

Z t +1=F t Z t +u t ， Y t =A t X t +H t Z t +v t 。其中X t 为k 个可观测的外生向量。

状态空间模型问题的提法是，从状态Z 0，且EZ 0=μ0，Var (Z 0) =C 或干脆从

Z 0~N (μ0, C ) 出发，已知观测Y 1, , Y T 和X 1, , X T ，如何给出对未来状态的估计以及评

价准则。这就是下面要介绍的卡尔曼滤波。

卡尔曼滤波（Kalman filter）

假定u t ，v t 关于时间是iid 和正态的，且相互独立。又初始状态变量Z 0与u 0和v 0独立，

因此，Z t =f t (Z 1, u 1 u t -1) ，Y t =g t (Z 1, u 1 u t -1, v t ) ，它们与u t ，v t 是独立的。定义时刻t 的信息集I t ： I t =(I t -1, Y t ) =(Y t , Y t -1 Y 1, I 0) 。则u t 与信息集I t 也是独立的，其中I 0是一个形式的结果，表示初态时Z 0已知的先验信息。

卡尔曼滤波的实质是，从Z 0出发，已知Y 1, , Y T ，给出状态Z 1, , Z T 的估计。记， Z t +1=E(Z t +1|I t ) ， Y t +1t =E(Yt +1|I t ) ；

Ωz (t +1t ) =Var (Zt +1|I t ) ， Ωy (t +1t ) =Var (Yt +1|I t ) 。

称为在已知信息I t 下状态Z 和Y 在t +1时刻的预测（Prediction ）和预测方差。记， Z t t =E(Z t |I t ) ， Ωz (t t ) =Var (Zt |I t ) 。t =1, , T 。称为在已知信息I t 下状态Z 在t 时刻的更新（Updating ）和更新方差。

现在将状态Z 0初始化，写成Z 0I 0的形式，设Z 0I 0~N (Z 00, Ωz (00)) =N (u 0, C ) 为

已知，则有如下预测公式：

Z t +1t =E(Z t +1|I t )=E(F t Z t +u t |I t )=F t E(Z t |I t )+E(u t |I t )=F t Z t ；

Y t +1=E(Y t +1|I t )=E(H t +1Z t +1+v t +1|I t )=H t +1E(Z t +1|I t )+E(v t +1|I t )=H t +1Z t +1t ；

Ωz (t +1t ) =Var (F t Z t +u t |I t )=Var (F t Z t |I t )+Var (u t |I t )=F t Var (Z t |I t ) F t '+Ωu

=F t Ωz (t t ) F t '+Ωu ；

Ωy (t +1t ) =Var (Yt +1|I t ) =Var (H t +1Z t +1+v t +1|I t )=H t +1Ωz (t +1t ) H t '+1+Ωv 。

为要使迭代顺利进行，我们需要知道更新和更新方差，Z t t 和Ωz (t t ) 。依据不断输入的信息I t ，t =1, , T ，如何得到更新和更新方差？（更新就是现时状态的调整。）

假设已有预测信息：Z t +1、Y t +1，和输入信息Y t +1。我们选择一r ⨯m 矩阵P t +1，称为增益矩阵，并构造线性组合：Z t +1t +1=Z t +1t +P t +1(Y t +1-Y t +1) 使得Var (Z t +1+1) 最小。

-1

我们证明P t +1=Ωz (t +1t ) H t 'Ωy (t +1t ) 。

首先，如果P t +1获取已知，那么易得更新方差，

Ωz (t +1t +1) =Var (Z t +1t +1) =Var [Z t +1t +P t +1(Y t +1-Y t +1)]

。 =Var (Z t +1t ) +Var [P t +1(Y t +1-Y t +1t )]=Ωz (t +1t ) +P t +1Ωy (t +1t ) P t '+1为求得P t +1，我们用归纳法。无妨假定F t 和H t 是常数矩阵， Z 0I 0~N (Z 00, Ωz (00)) =N (u 0, C ) 已知，

∴Z 1I 0~N (FZ 00, F Ωz (00) F '+Ωu ) =N [Z 10, Ωz (10)]。

同理有，Y 1I 0~N (HZ 1, H Ωz (10) H '+Ωv ) =N [Y 10, Ωy (10)]。 cov(Z 1, Y 1I 0) =cov(Z 1, HZ 1+v I 0) =cov(Z 1, HZ 1I 0) =Ωz (10) H '， ∴Z 1和Y 1在已知信息I 0下有联合正态分布：

⎛⎛Z 10

⎛Z 1⎫

⎪I 0~N

Y 1⎝Y 1⎭⎝⎝

⎫⎛Ωz (10)

⎪,

⎪ H Ωz (10) ⎭⎝

Ωz (10) H '⎫⎫

⎪。这是确定的二元正态分布。 ⎪⎪Ωy (10) ⎭⎪⎭

输入信息Y 1，即现有信息I 1=(Y 1, I 0) 。那么依据引理：

引理：

⎛⎛u 1⎫⎛Ω11⎛Y 1⎫~N ⎪, ⎪⎝Y 2⎭⎝⎝u 2⎭⎝Ω21

-1

Ω12⎫⎫

⎪⎪，则给定Y 1下，Y 2的最优预测为条件期望 Ω22⎭⎭

（参见Hamilton 时间序列分析） E (Y 2Y 1) =u 2+Ω22Ω11(Y 1-u 1) 。∴给定Y 1，状态Z 1的最优预测是，

⎛⎛Z 10

⎛Z 1⎫

由 ⎪I 0~N

Y 10

⎝Y 1⎭⎝⎝

⎫⎛Ωz (10)

⎪,

⎪ H Ωz (10) ⎭⎝

Ωz (10) H '⎫⎫

⎪， ⎪⎪Ωy (10) ⎭⎪⎭

Ωz (10) H '⎫⎫

⎪⎪，

Ωz (10) ⎭⎪

⎭

⎛⎛Y 10

⎛Y 1⎫

所以， ⎪I 0~N

Z 10

⎝Z 1⎭⎝⎝⎫⎛Ω(10)

⎪,

⎪H Ωz (10) ⎭⎝

所以，E (Z 1Y 1, I 0) =E (Z 1I 1) =Z 1+Ωz (10) H 'Ω-(10)(Y 1-Y 1) 。 y

所以，选择增益矩阵为P 1=Ωz (10) H 'Ωy (10) 。

且，Var (Z 1Y 1, I 0) =Var (Z 1I 1) =Ωz (1=Ωz (10) +P 1Ωy (10) P 1'。 =Ωz (10) +Ωz (10) H 'Ωy (10) H Ωz (10) 。

所以，在t =0时，更新公式被证明。

由归纳法，将上述过程0用t 代，1用t +1代，可以证明对所有t >0更新公式成立。所以，通过卡尔曼滤波，从Z 0出发，不断输入信息Y t ，我们可以迭代的得出状态Z t 的最优预测： Y 1 Y 2 Y T

↓

-1

Z 0→Z 1I 1→Z 2I 2 →Z T I T ，→ ，，→Z T +h I T 。

进一步可以对状态Z t 进行预报（Forcasting ），即给出Z T +h I T 。公式如下： Z T +h =FZ T +h -1T ； Y T +h =H Z T +h -1T ；

Ωz (T +h T )=F Ωz (T +h -1T ) F '+Ωu ；

Ωy (T +h T )=H Ωz (T +h -1T ) H '+Ωv 。

有意思的问题是在有了预测Z 1I 1 Z T I T 后，如何利用信息重估Z t I T ，t

因为Z T I T 已充分利用了信息，从Z T I T 出发，反向令t =T -1, T -2, 1，递归得出：

Z t =Z t t +S t (Z t +1-Z t +1) ，且S t =Ωz (t t ) F 'Ωz (t +1t ) ；

Ωz (t T ) =Ωz (t t ) -S t [Ωz (t +1t ) -Ωz (t +1T )]S t '。意思是对Z t I t 进行线性调整。

-1

举例（暂略）。

向量自回归过程的时间序列分析

相关文章