金融机构信用评级模型构建的方法论
一、基本方法概述
信用评级的方法是指对受评客体信用状况进行分析并判断优劣的技巧,贯穿于分析、综合和评价的全过程。按照不同的标志,信用评级方法有不同的分类,如定性分析法与定量分析法、主观评级方法与客观评级法、模糊数学评级法与财务比率分析法、要素分析法与综合分析法、静态评级法与动态评级法、预测分析法与违约率模型法等,除上述的分类外还有各行业的评级方法。
首先,应当注意的是,在建立模型前必须要收集一定数量的数据,因为数据是模型最基本的要素。数据来源应为公开市场信息和尽职调查信息。搜集数据的基本要求是客观、精确、多元以及具备典型性。
其次,还需要考虑到:不同情形下对于金融机构信用评级应当适用不同的模型,以做到最大程度的精准与可视化。假定样本有明确且充分的Y,有标准化的X,可以适用计量模型方法如逻辑回归法,建立财务模型和征信模型等;假定样本有充足却模糊的Y,有标准化的X,也可以计量模型方法如影子评级,建立债券模型和金融机构模型等;假定样本有不充足的Y,非标准化的X,可以适用专家打分法如层次分析法,建立定性模型和专业贷款模型等。
最后,在建立模型前还应当考虑到挑选合适的建模软件。目前市场上的数据建模软件包括scikit-learn、statsmodels、seaborn、powerdesigner、matplotlib以及PDMan等。其中,PDMan属于入门级别的建模软件,会给用户予以demo示例,支持目前主流数据库且对各类系统兼容、能导出各类型文件,对于新手比较友好。除此之外,scikit-learn软件则构建于现有的NumPy(基础n维数组包)、SciPy(科学计算基础包)、matplotlib(全面2D/3D画图)、IPython(加强的交互解释器)、Sympy(数学符号)以及Pandas(数据结构和分析)之上,并可以简单通过Python语言进行机器学习,也属于易学且高效的数据挖掘、数据分析的工具,statsmodels亦是如此。不过,seaborn和matplotlib虽然属于静态可视化的必备技能库,但由于api很多,学起来则不太容易。
二、金融机构信用评级建模的主要方法
(一)专家打分法
1.专家打分法的概念
专家评分法(ExpertsGradingMethod)是一种定性描述定量化方法,它首先根据评价对象的具体要求选定若干个评价项目,再根据评价项目制订出评价标准,聘请若干特定领域的代表性专家凭借自己的经验按此评价标准给出各项目的评价分值,然后对其进行结集。专家分析法的优势在于:第一,简便。根据具体评价对象,确定恰当的评价项目,并制订评价等级和标准。第二,直观性强。每个等级标准用打分的形式体现。第三,计算方法简单,且选择余地比较大。第四,将能够进行定量计算的评价项目和无法进行计算的评价项目都加以考虑。
2.专家打分法的行为步骤
专家打分法的步骤如下:
第一步,数据的收集。在这一阶段,首先要确定收集数据的方法。详细描述收集数据的方法(例如访谈法、观察法、文献资料法等),从而帮助读者了解该研究数据的潜在充分性(如对每一位被调查者不仅只是一次访谈,还在研究过程中进行了长期细致的观察),其次,要明确谁收集数据。汇报数据收集者的信息,以及他们是否接受过相关定性研究训练等简要的背景信息。如何保证数据准确度。数据是否经过三角校正(triangulation,即有三个以上研究人员对定性数据和结果进行相互检验与核查)。假如是单个研究人员在单个时间点收集的数据,则应标注此研究局限。再次,要说明研究中是否采取了特殊的数据收集方法。详细介绍这些特殊的方法,解释为什么选择此方法,或是此方法与其他方法相比的优势之处。又次,明确“在哪”及“何时”收集的数据。标注数据收集的地点,以及数据收集的时间。最后,如果采用了多种数据收集方法,那么还需要汇报不同方法之间是如何相互补充的。
第二步,数据的清洗和整理。与行内专家针对长清单进行讨论并搜集相关意见。在此基础上对样本依次进行异常值分析、区分能力分析、变量经济含义,从而对长清单进行筛选,确定入模指标。在这其中,异常值分析需要做缺失率统计、极大值和极小值统计以及异常值填;区分能力分析需要计算AR值和KS值;变量经济分析要求变量值与风险之间的关系符合业务逻辑。
第三步,单变量分析。主要集中在单变量的描述和统计推断两个方面,单变量的描述反映出大量样本资料所容纳的基本信息,描述样本数据中的集中或离散趋势,单变量统计推断则是从样本资料来推断总体的情况,主要包括区间估计和统计假设检验。统计假设检验方法包括T检验和Wilcox-on秩和检验。
第四步,模型开发与验证。使用层次分析法(AHP,analyticHierarchyProcess)确定指标权重,并结合专家意见进行调整。当模型初步开发后,对样本进行排序,并开始基准测试。测试完毕后,专家再根据业务经验对模型结果进行调整,并确定最终进入模型的指标及权重。在违约客户数较少的低违约敞口,或使用打分卡来进行评级时,通常可以使用AHP方法建模。该方法将人的主观判断用数量形式进行表达与处理,即通过对指标间的重要程度进行比较、得到各指标的权重,以判断每个指标对整体评价的贡献度,基于每个敞口选定的指标,形成三层次结构:定性/定量部分-风险维度-风险因子。使用AHP方法的步骤为:汇总各专家打分情况→统计并对指标重要性程度进行排序→得到入模指标的排序情况→计算排序差距→计算判断矩阵→计算权重→一致性检验→专家意见调整模项→得到最终权重。
第五步,主标尺开发。在开发信用风险评分卡模型后,得到的是不同风险等级客户对应的分数,此时还需要将分数与违约概率和评级符号联系起来,以便差异化管理证券公司各面临信用风险敞口的客户,因此就必须对证券公司各面临信用风险敞口业务中的个人客户开发一致的主标尺。主尺标即为违约概率和信用等级之间的映射关系。主标尺的操作方式是根据违约概率从低到高分为不同的区间,将证券公司需承担信用风险敞口的不同业务中的个人客户划分到不同的信用等级,形成各项业务中个人客户的信用等级分布差异、信用风险分布高低。由逻辑回归方程原理的分析可知,客户的违约概率p=Odds/(1+Odds),由式Score=A-Blog(Odds)中得分与违约概率和Odds之间的对应关系,便可计算出客户得分对应的违约概率。再根据标准评分卡的违约概率表,简单地将每10分对应一个信用等级,并用每相邻得分对应的违约概率(这种方法计算得出的违约概率只能用作风险排序,而不是客户的真实违约概率)的算术平均值作为该信用风险等级对应的平均违约概率,得到最终的主尺标及其内部信用等级对照表。
第六步,模型验证与校准。主标尺和内部信用等级确定后,接下来还需要进行模型的区分能力、预测准确度和稳定性等模型的验证工作。回顾模型开发的过程,在模型开发时采用随机抽样的方法将数据分为样本集和测试集,并用样本集开发模型,用测试集做模型验证。因此在做模型验证时,应当首先用开发好的模型对测试集中的每一个样本评级一遍,并根据评级结果来计算模型的区分能力和预测准确度。模型验证采用ROC作为模型区分能力的验证指标,采用AR(accuracyratio,准确率)作为模型预测准确性的验证指标,并且两者存在AR=2×ROC-1的关系式。
理论上,信用评级并无法给出主体是否违约的判断,只能给出主体违约的概率,而评级符号对应的就是主体发生违约的平均违约概率。但对评级结果的实际应用中,确实存在评级结果是否“准确”的质疑。那么,通常情况下如果某主体被评级为投资级(BBB及以上),但发生了违约则被认为“不准确”或者“误判”。如果某主体被评级为投机级(BB及以下),且发生了违约,则被认为“预测准确”。如果被评级为投机级的主体没发生违约事件(并不是每个被评级为投机级的主体都会发生违约),则可以用概率去解释,那就是“大概率事件并不一定发生,小概率事件也并不一定不发生”。
(二)要素分析法
1.要素分析法的概念
要素分析法是典型的定量分析方法,通过定义数据的要素并将其客观量化,能够很好地表达数据模型的开发目的。
2.要素分析法的分类
根据不同的方法,对要素有不同的理解,主要有下述几种方法。
5C要素分析法:主要分析以下五个方面信用要素:借款人品德(Character)、经营能力(Capacity)、资本(Capital)、资产抵押(Collateral)、经济环境(Condition)。
5P要素分析法:个人因素(PersonalFactor)、资金用途因素(PurposeFactor)、还款财源因素(PaymentFactor)、债权保障因素(ProtectionFactor)、企业前景因素(PerspectiveFactor)。
5W要素分析法:即借款人(Who)、借款用途(Why)、还款期限(When)、担保物(What)及如何还款(How)。
4F法要素分析法:4F法要素分析法主要着重分析以下四个方面要素:组织要素(OrganizationFactor)、经济要素(EconomicFactor)、财务要素(FinancialFactor)、管理要素(ManagementFactor)。
CAMPARI法(优质贷款原则),即对借款人以下七个方面分析:品德,即偿债记录(Character)、借款人偿债能力(Ability)、企业从借款投资中获得的利润(Margin)、借款的目的(Purpose)、借款金额(Amount)、偿还方式(Repayment)、贷款抵押(Insurance)。
LAPP法:分析以下要素:流动性(Liquidity)、活动性(Activity)、盈利性(Profitability)和潜力(Potentialities)。
骆驼评估体系(CAMEL),骆驼评估体系包括五个部分:资本充足率(Capitaladequacy)、资产质量(AssetQuality)、管理水平(Management)、收益状况(Earnings)、流动性(Liquidity)
上述评级方法在内容上都大同小异,是根据信用的形成要素进行定性分析,必要时配合定量计算。他们的共同之处都是将道德品质、还款能力、资本实力、担保和经营环境条件或者借款人、借款用途、还款期限、担保物及如何还款等要素逐一进行评分,但必须把企业信用影响因素的各个方面都包括进去,不能遗漏,否则信用分析就不能达到全面反映的要求。传统的信用评级要素分析法均是金融机构对客户作信用风险分析时所采用的专家分析法,在该指标体系中,重点放在定性指标上,通过他们与客户的经常性接触而积累的经验来判断客户的信用水平。另外,美国几家信用评级公司都认为信用分析基本上属于定性分析,虽然也重视一些定量的财务指标,但最终结论还要依靠信用分析人员的主观判断,最后由评级委员会投票决定。
3.要素分析法的步骤
第一步,定义选定数据的要素。参考上述要素分类。
第二步,数据收集与清洗。数据收集有很多方式,如可通过调查问卷的方式获得一手数据,也可通过专门负责数据统计的网站(国家统计局、各省市统计局、大数据报告网站等等)获得二手数据等。收集到的数据,一般不能直接拿来进行分析,而是需要对数据进行初步的处理,也即“数据清洗”的过程。因为收集到的数据可能存在一些遗漏、缺失,或者无效等原因,所以在这一步必须要对数据进行初步的筛选,以保证分析过程“代码不会出现Error”、分析结果“符合预期”。筛选的方法也有很多,如果数据量较小,我们可以直接在数据原表中进行操作,删除无效、不符合要求的数据等,形成小样本分析,同时要做出数据典型性说明;如果数据量较大,则应当利用统计软件来处理。
第三步,数据的深度处理。在对数据进行深度处理过程中,数据、方法、分析逻辑是很关键这部分,又称为“数据与变量”,“研究设计”,就是要明确数据标的、数据来源、变量说明(包括被解释变量、控制变量等)、分析方法(如基本款的logistic回归、聚类、因子分析等、高阶版的PSM-DID、工具变量、断点回归、SVM等、还有混合款的SNA、QCA等)、分析逻辑(分析逻辑需要自洽,要能串联数据与分析方法)。
第四步,数据分析与建模。数据分析是定量研究过程最重要的一步,也是影们报告输出的关键步骤,宗旨就是利用客观数据来检验说明所提观点的对错与否!首先根据不同的数据类型,需要选择不同的研究方法和模型。按照特定的方法步骤构建好模型后便可以代入之前处理好的数据,对数据进行描述性统计,分析数据的表层特征;然后进行相关性分析、回归分析、拟合分析,分析数据的内在特征等。之后,还需要考虑“研究工具”即数据模型软件,如SPSS、Stata、R语言等。R语言除了能够实现基本的统计分析功能外,它的一个明显的特点是可以处理“大数据”,特别是金融数据。如果用SPSS或Stata来处理金融数据,会出现操作时间长、卡顿等问题,但R语言可以在很短的时间实现。还有专门用于做结构方程模型的Amos软件、以及实现爬取第三方网站数据的Python软件等等。每一种统计软件都有其优势和特点,要根据具体情况进行选择。
第五步,模型验证与纠偏。通过代入处理好的数据从而建立起模型后,还应当对模型进行进一步的验证,以纠偏存在的误差值,完善开发的模型。
(三)加权评分法
这是目前信用评级中模型应用最多的一种方法。一般做法是根据各具体指标在评级总目标中的不同地位,给出或设定其标准权数,同时确定各具体指标的标准值,然后比较指标的实际数值与标准值得到级别指标分值,最后汇总指标分值求得加权评估总分。
加权评分法的最大优点是简便易算,但也存在三个明显的缺点。具体而言:
第一,未能区分指标的不同性质,会导致计算出的综合指数不尽科学。信用评级中往往会有一些指标属于状态指标,如资产负债率并不是越大越好,也不是越小越好,而是越接近标准水平越好。对于状态指标,加权评分法很容易得出错误的结果。
第二,不能动态地反映企业发展的变动状况。企业信用是连续不断的,加权评分法只考察一年,反映企业的时点状态,很难判断信用风险状况和趋势。
第三,忽视了权数作用的区间规定性。严格意义上讲,权数作用的完整区间,应该是指标最高值与最低值之间,不是平均值,也不是最高值。加权评分法计算综合指数时,是用指标数值实际值与标准值进行对比后,再乘上权数。这就忽视了权数的作用区间,会造成评估结果的误差。如此,加权评分法难以满足信用评级的基本要求。
(四)隶属函数评估法
这种方法是根据模糊数学的原理,利用隶属函数进行综合评估。一般步骤为:首先利用隶属函数给定各项指标在闭区间[0,1]内相应的数值,称为“单因素隶属度”,对各指标作出单项评估。然后对各单因素隶属度进行加权算术平均,计算综合隶属度,得出综合评估的向指标值。其结果越接近0越差,越接近1越好。
隶属函数评级方法较之加权评分法具有更大的合理性,但该方法对状态指标缺乏有效的处理办法,会直接影响评级结果的准确性。同时,该方法未能充分考虑企业近几年各项指标的动态变化,评级结果很难全面反映企业生产经营发展的真实情况。因此,隶属函数评估方法仍不适用于科学的信用评级。
(五)功效系数法
功效系数法是根据多目标规划原理,对每一个评估指标分别确定满意值和不允许值。然后以不允许值为下限,计算其指标实现满意值的程度,并转化为相应的评估分数,最后加权计算综合指数。
由于各项指标的满意值与不允许值一般均取自行业的最优值与最差值,因此,功效系数法的优点是能反映企业在同行业中的地位。但是,功效系数法同样既没能区别对待不同性质的指标,也没有充分反映企业自身的经济发展动态,使得评级结论不尽合理,不能完全实现信用评级所要实现的评级目的。
(六)多变量信用风险二维判断分析评级法
对信用状况的分析、