基于Logistic回归分析的违约概率预测研究

第30卷第9期

2004年9月财经研究

Journal of Finance and Economics Vol 130No 19

Sep 12004

基于Logistic 回归分析的违约

概率预测研究

于立勇, 詹捷辉12

(11北京大学光华管理学院, 北京100871;

21哈尔滨工业大学金融研究所, 黑龙江哈尔滨157001)

摘要:内部评级法是巴塞尔新资本协议的核心内容之一, 而计算客户违约概率(PD) 是实施内部评级法的关键步骤。文章在结合我国国有商业银行实际数据的基础上, 利用正向逐步选择法(forward stepwise) 构建了较为科学的信用风险评估指标体系, 通过Logistic 回归模型构建了违约概率的测算模型。实证结果表明, 模型可以作为较为理想的预测工具。关键词:内部评级法; 违约概率; L ogist ic

中图分类号:F830. 5文献标识码:A 文章编号:1001-9952(2004) 09-0015-09

一、引言

新巴塞尔资本协议的核心之一为内部风险评级体系, 从发达国家国际性大银行的经验看, 内部评级对于信用风险管理的作用是巨大的。新巴塞尔协议内部评级法又可以分为基础法和高级法, 而两者需要共同考虑的风险因素为违约概率(PD) 。违约概率是指借款人未来一定时期内不能按合同要求偿还贷款本息或履行相关义务的可能性。在新资本协议中, /违约概率0被具体定义为借款人1年内的累计违约概率与3个基本点中的高者。巴塞尔委员会设定0103%的下限既是给风险权重设定下限, 同时也是考虑到银行在检验概率时所面临的困难。巴塞尔委员会在第三次征求意见稿中对客户的违约定义为:若出现以下一种情况或同时出现以下两种情况, 债务人将被视为违约。

(1) 银行认定, 除非采取追索措施, 如变现抵押品(如果存在的话) , 借款人可能无法全额偿还对银行集团的债务;

(2) 债务人对于银行集团的实质性信贷债务逾期90天以上。若客户违反收稿日期:2004-06-15

基金项目:国家自然科学基金/WT O 与中国商业银行的改革与创新0(70373012)

作者简介:于立勇(1974-) , 男, 山东黄县人, 北京大学光华管理学院博士后流动站研究人员;

詹捷辉(1979-) , 男, 哈尔滨工业大学金融研究所助理研究员。#

财经研究2004年第9期

了规定的透支限额或者新核定的限额小于目前的余额, 各项透支将被视为逾期。上述标准只是一个参考定义, 为了选取样本和建立判别模型, 还必须制定一个切实可行的违约与非违约企业的界定标准。企业违约集中和突出地表现为财务违约。以违约、无偿付能力或破产为显著特征和具体表现形式。从企业财务违约表现入手, 通过分析财务违约的显著特征, 就可以对企业是否违约进行准确划分。违约、无偿付能力或破产在实务中都表现为企业无法按贷款合同约定偿还银行本金和利息, 因此企业能否按时偿还银行贷款本息可以作为企业违约与否的界定标准。

从统计学角度看, 常用来对企业信用风险进行分析的数学工具主要包括判别分析、Logistic 回归分析、主成分分析和神经网络等四种类型。主成分分析可以从变量的相互影响关系中提取出主要因素, 并根据各要素所含信息的多少确定变量关系和计算方法, 一般不能单独使用, 而是用来做数据的预处理; 神经网络扬弃了传统预测函数的变量是线性并且相互独立的假设, 能深入挖掘预测变量之间隐藏的关系, 正在成为非线性违约预测函数的重要工具, 但违约概率不是可以直接观察的, 不能直接用来作为神经网络的学习样本; 判别分析中的Bayes 判别分析和Log istic 回归分析均可用来进行违约概率分析, 但Bayes 判别分析需要对所研究的对象已有一定的认识, 即需要用到先验概率, 而国内银行信用风险度量为时不长, 缺乏相应的数据积累, 这种先验概率缺乏充足的说服力, 如果给定的先验概率获取较为困难, Bayes 判别法可能会导致错误的结论。Logistic 回归分析是一种非线性分类的统计方法, 也适用于因变量中存在定性指标的问题, 而且Log istic 判别函数的建立方法) ) ) 极大似然估计法有很好的统计特性。本文尝试用Logistic 回归模型来研究违约概率, 以期为定量衡量信用风险提供一种建模方法。

二、Logistic 模型与信用风险评估

线性回归模型(linear reg ression model) 在定量分析中是非常流行的统计分析方法, 但在考虑计算PD 模型时, 由于因变量是一个二分类变量(/正常0或者/违约0, 也可记为/00与/10) , 而不是一个连续变量, 所以对于二分类因变量的分析需要使用非线性函数。

事件发生的条件概率P(y i =1|x i ) 与x i 之间的非线性关系通常是单调函数, 即随着x i 的增加单调增加或者减少。一个自然的选择便是值域在(0, 1) 之间有着S 形状的曲线, 这样在x i 趋近于负无穷时有E(y i ) 趋近于0, 在x i 趋近于正无穷时有E(y i ) 趋近于1。这种曲线类似于一个随机变量的累积分布曲线。在二分类因变量分析中曾使用多种分布函数, 最常用的函数是logistic 分布。假设有一个理论上存在的连续反应变量y i 代表事件发生的可能性, 其值域为负无穷至正无穷。当该变量值跨越一个临界点c(不妨令c=0) , 便导*

于立勇、詹捷辉:基于L ogistic 回归分析的违约概率预测

财经研究2004年第9期

作用也很小, 然而在中间阶段对应的可能性增加很快, 但是在E i 值增加到一定程度后, 可能性就保持在几乎不变的水平了。这说明, E i 在P(y i =1|x i ) 接近于0或1时的作用要小于当P(y i =1|x i ) 处于中间阶段时的作用。这种非线性函数的形式有助于解决线性概率模型所不能解决的问题。比如, 在企业违约问题中, 净资产收益率对企业违约的影响, 并不一定净资产收益率增加到一定量, 非违约概率就会固定地增加到一定量。实际的情况是, 净资产收益率在某一段水平内变化时对违约概率影响较大, 而较低或较高的净资产收益率对违约概率的变化影响都不大。

由Logistic 函数到基于Log istic 回归分析的信用风险评估模型, 首先需要重新定义E i , 此时, E i 被定义为一系列影响违约概率因素的线性组合, 即:

E i =A +k=1E B k x ki , P(y i =m 1|x i ) =1+exp -

m A +k=1E B k x ki m (7) 上述的非线性函数用Logit 变换可以转变为线性函数:p i ln =A +1-p i k =1E B k x ki (8)

将Log itP 看成因变量, Logistic 回归就与多元线性回归模型形式是一致的, 不同的是:(1) Log istic 回归模型中因变量y 是二分类的, 而不是连续的, 其误差的分布不再是正态分布而是二项分布, 且所有的分析均建立在二项分布的基础上。(2) 也正是基于上述原因, Log istic 回归系数的估计不再用最小二乘法, 而要用极大似然法。系数及模型检验也不是t 检验和F 检验, 而要用似然比检验和Wald 检验等。

三、信用风险评估指标体系的确立

通过综合考虑信用风险的各影响因素, 借鉴我国财政部统计评价司的企业效绩评价指标体系和国有商业银行企业资信评估指标体系以及国内外有关文献的相关指标, 在分类、汇总、整理的基础上, 同时兼顾数据的可获取性原则和可量化原则, 依次选取经济性质、流动比率、速动比率、超速动比率、营运资金/总资产、资产负债率、流动资产周转率、有形净值债务率、营运资本负债率、净资产收益率、资产收益率、销售净利率、销售收入/总资产、销售毛利率、营运资金/销售净收入、存货周转率、应收账款周转率、总资产周转率、产权比率、固定资产周转率等21项指标。通过这些指标可以较为全面地反映企业的盈利能力、偿债能力、运营效率和盈利能力等层面的信息。同时, 也应该看到这些指标之间存在一定的相关性与可替代性, 需要在一定统计水平上加以挑选。常用的选择方法有:(1) 正向逐步选择法(forw ard stepwise) :即在截距模型的基础上, 将符合所设置水平的自变量一次一个地加入模型; (2) 反向逐步

于立勇、詹捷辉:基于L ogistic 回归分析的违约概率预测

选择法(backw ard stepw ise) :在模型包括所有候选变量的基础上, 将不符合保留要求显著水平的自变量一次一个地删除掉; (3) 混合逐步选择法(combined stepwise) :它将正向选择和反向选择结合起来, 根据所设的显著性标准分别将变量加入到模型中去或剔除掉。这种方法既可以由正向选择法开始, 也可以由反向选择法开始。以上三种方法主要在设计程序上的算法不同, 处理结果一般是一致的。笔者利用SAS 完成这一过程, 选用正向逐步选择法。以某国有商业银行为例, 选择同一行业(制造业) 的企业客户为研究对象, 构建了容量为132个样本的样本集, 其中包括35个正常类贷款企业和97个发生不同贷款损失的违约类贷款企业。

在正向逐步选择过程中, Score 统计量用来做加入选择, Wald 统计量用来做删除选择。在正向逐步选择的第0步(Step 0) , 只有一个常数(即截距in -tercept) 加入模型。残差V 2统计值可以用来检验所有不在模型中的变量系数都为0的零假设。由于残差V 的p 值很小(p

表1 正向选择过程参数表Summary of Forw ard Selection

Step

5Effect Entered x 6x 1x 3x 14

x 4DF 11111Number In 12345Score Chi-Square 2. 98692. 98962. 90872. 79193. 0247Pr>ChiSq 0. 08390. 08380. 08810. 09470. 0822

需要做出说明的是, 以/select=0120为筛选变量的标准, 没有采用常用的检验标准, 比如0105, 原因在于如果不选择大一点的显著水平, 就有可能遗漏掉某些重要的自变量。他们很有可能在简单分析时显示与结果变量的弱相关, 而在多元分析时就成为重要的自变量。所以选择一个足够大的水平, 以保证将有可能成为重要预测变量的候选者都纳入到多元分析中。

由于变量X 7的Pr>ChiSqure 值为012139, 与筛选标准012相差不大, 同时考虑到解释变量的充分性, 也将其纳入到模型中。

经过以上测算与分析, 筛选出6个自变量, 分别为:经济性质、速动比率、超速动比率、资产负债率、流动资产周转率和净资产收益率。剔除掉与速动比率相关性较强的超速动比率后, 剩余5个自变量, 这些指标涉及了经济性质、运营效率、偿债能力、盈利能力等四个方面的内容, 可以较为科学地反映贷款企业的信贷风险。

财经研究2004年第9期

四、违约概率的测算

综合考虑了Logistic 回归模型对样本构成的要求, 在上文构造的训练样本集基础上, 构建了容量为51个贷款企业的测试样本集, 其中包括11个正常类贷款企业和40个发生不同贷款损失的违约类贷款企业。

在处理上, 首先直接把5个自变量纳入模型, 经级大似然估计得出的系数存在较大的标准误差, 且某些指标不能通过统计检验。通过分析5个自变量, 发现偿债能力指标与违约风险之间并非存在完全的线性关系, 即资产负债率对企业财务状况的影响, 并非资产负债率越高越好, 也不是越低越好。实际情况是, 合适的资产负债率有助于财务的稳健性并起到有利的财务杠杆作用。过高意味着高举债经营, 财务风险偏高, 不够稳健; 过低则未能充分发挥财务杠杆的作用, 未能达到企业价值最大化, 因此资产负债率对企业违约风险的影响应该是非线性的, 考虑纳入其平方值, 使其对因变量的影响变为开口朝下的抛物线形状。

表2 Pearson 卡方和Deviance 拟合优度检验Criterion

Devi ance

Pearson Deviance an d Pearson Goodness-of-Fit Stati stics DF Val ue Value/DF 125136. 31. 0902125131. 21. 0499

Number of unique profiles:132Pr>Chi-Square 0. 23120. 3335

由表2可知, Pearson 卡方和Deviance 统计量结果都表明统计显著性不是很强。在本文的算例中, 由于自变量含有连续变量, 协变类型数量很大, 因此每个协变类型所对应的观察案例并不多, 指标Deviance 和Pearson 卡方不能有效评估拟合优度, 所以采用Hosmer-Lemeshow (HL) 检验(见表3) 。该方法根据模型预测概率的大小将数据分成规模大致相同的10个组, 然后根据每一组中因变量各种取值的实测值与理论值计算Pearson 卡方。通常用于自变量很多, 或者自变量中包含连续性变量的情况。HL 的检验结果见表3, p=015772, 统计不显著, 不能拒绝关于模型拟合数据较好的假设。

表3 Hosmer-Lem eshow 拟合优度检验H osmer and Lemeshow Goodness-of-Fi t Test

Y=1

Group

10Y=0Expected 7. 525. 633. 893. 503. 061. 981. 340. 83Total Observed Expected Observed 1345. 4891377. 37613119. 11213109. 50313119. 942131011. 023131011. 663151514. 170

Goodness-of-fit Statistic=6. 6287w ith 8DF (p=0. 5772)

于立勇、詹捷辉:基于L ogistic 回归分析的违约概率预测

模型V 2统计(Model Chi-Square Statistic) , 定义为零假设模型与所设模型之间在-2LL ^上的差距。LL ^为模型的最大似然值取对数, 似然比统计量近似地服从V 2分布(Hanushek 和Jackson, 1977; Aldrich 和Nelson, 1984; Greene, 1990) 。似然比统计量如下:

G S =-2ln 0=-2(lnL ^0-lnL ^s ) =2LL ^s -2LL ^0L ^s (9)

实际上, 模型V 2检验与多元线性回归中的F 检验十分类似, 这里零假设为除常数项外的所有系数都等于0。从表4可以看出, 显著性水平为010117, 模型V 2统计较为显著, 所以认为自变量所提供的信息是有用的。

表4 模型卡方统计以及信息测量指标M odel Fi tting Information and Testing Global Null Hypothesis BETA=0

Criterion

AIC

-2LOGL Intercept Only 154. 691157. 574152. 691Intercept and Covariates 150. 281170. 460136. 28116. 441w ith 6DF (p=0. 0117) Chi-Square for Covariates 类似于线性回归中的确定系数, R-Square 为一般线性模型的确定系数, M ax -rescaled R-Square 为回归的调整类确定系数, 模型输出中R-Square 为016301, Max-rescaled R-Square 为018134。数据变异中被解释的比例为81134%。

在线性回归中, 估计未知总体参数时主要采用最小二乘法, 极大似然估计法是统计分析中另一常用模型参数估计方法。与最小二乘法相比, 极大似然估计法既可以用于线性模型, 也可以用于更为复杂的非线性估计。由于Lo -g istic 回归是非线性模型, 因此本文采用极大似然估计方法, 结果见表5。

表5 极大似然估计分析Anal ysis of M aximum Likeli hood Estimates

Variable

INT ERCPT

X 1

X 2

X 3

X 4X 5

X 6DF 1111111Parameter Estimate 5. 4470. 998-1. 3165-11. 47734. 90610. 0263-2. 003Standard Error 2. 84630. 51420. 72485. 64342. 80850. 01781. 1173W ald Ch i-S quare Pr>Chi-Square 3. 66233. 76683. 29954. 13613. 05162. 18323. 21390. 05570. 05230. 06930. 0420. 08070. 13950. 073 对Logistic 回归模型与预测准确性之间的第二种测量方法是建立在观测的反应变量和模型预测的条件事件概率之间的关联基础上。序次相关指标(rankcorrelation index ) 测算结果见表6, 共有3395对数据对, 其中和谐的占7017%, 不和谐的占2910%, 其他占013%。

财经研究2004年第9期

表6 预测概率与观测值之间的关联A ssociation of P redicted Probabilities and Observed Responses

Concordant

Discordant

T ied

(3395pairs) 70. 7%29. 0%0. 3%Somers . D G amma T au-a c 0. 4170. 4180. 1640. 708

五、测试结果及分析

基于上述分析与测算, 可得出Log istic 回归分析方程为:

LogitP=5. 447+0. 998x 1-1. 317x 2-11. 477x 3+4. 906x 4

+0. 026x 5-2. 003x 6(10)

自变量分别为:x 1经济性质, x 2速动比率, x 3资产负债率, x 4资产负债率的平方, x 5流动资产周转率, x 6净资产收益率。通过Logit 变换, 把测试样本带入方程, 即可得出属于正常组及违约组的概率, 样本预测准确性见表7。正常组正确判别率为80%, 违约组正确判别率为9217%。由于篇幅有限, 各个企业具体发生违约概率未能给出。

表7 预测结果Y

Frequency

T otal P redict 1220%3892. 7%400880%37. 3%11T otal 10100%41100%51

本文系统探讨了Logistic 函数与模型作为预测贷款企业违约概率的理论基础, 并给出了构建模型解释变量的统计方法及分析方法, 同时结合商业银行实际数据运用Log istic 回归模型对企业违约概率进行了实证分析。研究结果表明, Logistic 模型是一种较为理想的企业违约概率预测工具。然而, 模型的实证过程中也存在一定的不足, 如出于对指标量化的考虑, 本文所构建的指标体系主要集中于财务指标, 尚未充分考虑非财务因素对贷款企业信用风险的影响与作用。Logistic 模型自身也存在一定不足, 如对线性可分的样本不可采用级大似然估计, 样本的数量不宜太少, 这些都是需要进一步研究改进的方向。

参考文献:

[1]Cebenoyan, A. Sinan; Str ahan, Philip E. Risk management, capital str ucture and lending

at banks[J]1Journal of Banking and Finance. 2004, 28(1) :19~43.

于立勇、詹捷辉:基于L ogistic 回归分析的违约概率预测

[2]M urphy , Austin. An empirical analysis of the structure of cr edit r isk premiums in the Eu -

robond market[J]1Journal of International Mo ney and Finance. 2003, 22(6) :865~885.

[3]于立勇, 曹凤岐1论新巴塞尔资本协议与我国银行资本充足水平[J]1数量经济技术经

济研究12004, (1) 1

[4]于立勇1商业银行信用风险评估预测模型的研究[J]1管理科学学报12003, (10) 1

[5]于立勇1基于具有吸收态马尔可夫链的商业银行信贷风险管理研究[J]1数量经济技

术经济研究12000, (1) 1

[6]王春峰, 万海晖, 张维1组合预测在商业银行信用风险评估中的应用[J]1管理工程学

报, 1999, (1) 1

[7]于立勇1信用风险评估中贷款风险度的波动性分析[J].数量经济技术经济研究,

2002, (3) 1

[8]于立勇1商业银行信用风险衡量的一种新标准[J]. 数量经济技术经济研究. 2002, (9) 1

[9]沈沛龙, 任若恩1新巴塞尔协议资本充足率计算方法剖析[J]1金融研究, 2002, (6) 1

[10]张玲, 曾维火1基于Z 值模型的我国上市公司信用评级研究[J]1财经研究,

2004, (6) .

[11]张维, 李玉霜1商业银行信用风险分析综述[J]1管理科学学报, 1998, (9) .

[12]王春峰, 康莉1基于遗传规划方法的商业银行信用风险评估模型[J]1系统工程理论

与实践, 2001, (2).

A Research on Probability of Default prediction

Based on Logistic Regression Analysis

Y U Li-yong , ZHAN Jie-hui 12

(1. Guanghua School of M anagement, Peking University , Beij ing 100871, China;

2. H ar bin I ns titute of T echnology , H ar bin 150001, China)

Abstract:Internal rating -based approach is one of the main contents of New Basel Accord, w hile calculating clients . probability of default is a key pro -cedure of practicing internal rating -based approach. Based on the practical data of China . s state-owned commercial banks, this paper constructs a rather scien -tific credit risk evaluating system by forw ard stepw ise, and predicting models of probability of default by log istic regression model. Experimental results prove that this model can serve as an ideal predicting instrument.

Key words:internal rating based approach; probability of default; logistic #

基于Logistic回归分析的违约概率预测研究

相关文章