远程信息处理在预测建模中的应用.doc-淘文阁

资源描述

《远程信息处理在预测建模中的应用.doc》由会员分享，可在线阅读，更多相关《远程信息处理在预测建模中的应用.doc（10页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、序言预测建模已广泛用于定价，准备金分析与风险量化等保险精算应用中。预测建模的核心是使用过去的数据来预测将来结果的概率。在精算界，预测建模已经成为广义线性模型GLM: Generalized Linear Model的代名词。其他广泛应用的模型还包括聚类分析(Clustering)、分类与回归树CART: Classification and Regression Tree、随机森林RF: Random Forest以及神经网络模型ANN: Artificial Neural Network等。作者希望通过例子介绍预测建模的应用与最新开展。简介随着远程信息技术的迅速开展及其在车辆里程保险

2、UBI: Usage Based Insurance与驾驶员行为分析中的应用，车险的定价与风险评估变得更为准确，也更为复杂。远程信息技术通过车载设备与手机应用搜集车辆行驶的数据。搜集的数据中包括非传统的地理定位数据，这些数据是非构造化的，不能直接在预测模型中使用。如果能将这些数据转化成可以使用的变量，那么可以对驾驶行为进展更加个性化的分析，从而使车险业务的风险评估变得更全面，更可信。比方：在每辆车的驾驶纪录中，一般是由投保人驾驶的，偶尔会有他人驾驶的，但是无法确定哪些纪录是非投保人驾驶的。在统计学上，我们称之为无监视学习(Unsupervised Learning)。由于投保人与其他人的驾驶习

3、惯不同、对车的熟悉程度不同，因此驾驶风险存在差异，有必要加以研究。本文探讨将预测建模与远程信息技术相结合，把地理定位数据构造化，并使用随机森林模型来测算由非投保人驾驶投保车辆的概率。在车险定价中，这些信息对于了解车辆的使用，风险评估，确定保险费率与良好驾驶折扣等都有非常好的帮助。文章最后还提供了核心R程序供大家参考。数据我们从驾驶行程的特点差异入手来判断哪些是投保人的驾驶、哪些是其他人的驾驶。本文使用了Kaggle竞赛提供的庞大的分析数据库，包含了由车辆每秒的地理坐标位置组成的车辆驾驶行程的详细信息。表1列出了一条驾驶行程的一小局部数据。驾驶起点坐标为0,0，每行为车辆每秒的坐标。例如

4、，一秒钟后，车辆移动到-7.4，-7.5，即距离起点南7.4米，西7.5米。通过驾驶起点归零的方式，我们把实际的经度与纬度数据转变为标准化数据，以去除敏感信息。每个投保人都有相对应的200条驾驶行程数据。图1画出了一位驾驶员的200条驾驶行程。数据处理原始数据库包含复杂的地理位置信息，很难直接在预测建模中使用。数据分析的第一步是从数据中提取可以使用的特征，将非构造化的数据构造化。比方根据驾驶行程数据计算出最大速度、最小速度、平均速度等等。本例使用了表2中列出的特征。在具体实践中，还可以提取其他特征来解决其他的问题。在实际业务中，投保车辆是否由投保人驾驶，或者哪些行程由投保人驾驶，在大局部

5、情况下都是未知的，这是精算与风险管理中很少见的无监视学习的问题。大多数预测模型无法解决无监视学习的难题。为了能够使用模型预测与识别某个行程的驾驶员，需要将无监视学习变成监视学习，在训练数据中明确标识行程是否由投保人驾驶。为了解决这个问题，我们在每个驾驶员行程数据集中参加一些其他驾驶员数据集中的行程数据。这些添加的行程根本上不可能是由此驾驶员驾驶的。在模型校准中，我们假设在该驾驶员自身的数据集中所有的行程都属于该驾驶员，所有随机参加的行程都不属于该驾驶员。在本文的例子中，对于每个驾驶员，我们随机从其他车手的数据中抽取500条行程数据，并标记为错误的行程。通过这样的数据处理，无监视学习问题成了一个

6、包含少量数据错误的监视学习Supervised Learning问题。图2演示了本文例子中使用的训练数据的组成。每个驾驶员均有各自的训练数据与预测模型。随机森林模型(Random Forest Model) 随机森林模型是分类回归树CART的组合模型Ensemble，是一个用随机方式建立的，包含多个回归树的分类器。对于每一个分类回归树，我们用随机抽取的数据样本进展校准。根据这些校准后的分类回归树，最终预测按照分类回归树结果中的大多数来决定。图3展示了随机森林模型的根本架构。首先从训练数据库中产生n个随机样本。在本文的例子中，针对每个驾驶员的训练数据，随机抽取了50组样本数据，每组样本数据大约

7、为总样本数据的60%。然后每个样本用来校准一个分类回归树。在驾驶行程识别的例子中，只需要识别是否由某一驾驶员驾驶，所以分类回归树实际上是一个分类树。每个分类树上的节点根据新产生特征进展分类，产生新的分支，直至最终节点没有进一步的划分。每个最终节点都会显示频率最高的可能情况作为预测结果。例子中，Y=0代表此驾驶行程不是由该驾驶员驾驶；Y=1代表此驾驶行程是由该驾驶员驾驶。最终预测由所有分类树的结果投票决定。例子中，Y=1获得了177票，占绝对优势，所以判断此驾驶行程是该驾驶员完成的。随机森林模型在运算量没有显著增加的前提下提高了预测精度，比广义线性模型GLM的预测精度高很多，而且随机森林对多元

8、共线性不敏感，结果对缺失数据与非平衡的数据比拟稳健，预测结果波动性也较小，可以很好地预测多达几千个解释变量的作用。预测利用上面介绍的随机森林模型，我们可以预测行程属于该驾驶员的概率。为提高正确率，我们可以进展屡次重复计算。每轮计算中都将重新随机抽取错误行程，并重新校准随机森林模型。最终，根据每轮模型结果计算出的平均概率被用来做预测结论。如果平均概率小于0.5，那么判断此行程不属于该驾驶员。图4显示了某驾驶员数据集的预测结果。在给出的200个行程中，有6个行程预测概率小于0.5，意味着这些行程不属于该驾驶员。验证校准之后的模型可用于测试随机抽取的其他驾驶员的驾驶行程。比方说我们可以从其他

9、驾驶员的数据中随机取样200次驾驶行程，看有多少行程被错误的预测为由该司机驾驶。如果预测的正确率低，那么说明校准模型的准确率低。但是使用这种方法，高的正确预测率并不一定意味着校准模型的高精度。例如，如果模型预测结果显示所有随机抽取的其他驾驶员行程都不是由该司机驾驶的，那么该模型可到达100的正确率。但同时模型对于由该司机自己驾驶的真正行程的预测结果也可能都是错误的。另一个相对合理的方法是将驾驶数据分为训练数据与验证数据。比方，训练数据可以由该驾驶员行程数据的75%，加上500条其他司机的随机行程数据构成。同时，验证数据可以由该驾驶员行程数据剩余的25，加上200条随机选取的其他司机的行程数据

10、。基于这样的训练数据得到的校准模型可以预测验证数据中的正确行程由该驾驶员驾驶与错误行程有其他驾驶员驾驶。这样不但可以检验此模型预测错误行程的能力，也可以检验其预测正确行程的能力。图5演示了在这种方法下驾驶员1的训练数据与验证数据的构成。表4列出了用于验证模型的混淆矩阵。根据实际的混淆矩阵，我们可以使用以下几个指标来评估预测的准确性。查全率Precision用来衡量第一类统计错误。查准率recall用来衡量第二类统计错误。F-Measure是查全率与查准率的调与平均数，可以视为检验第一类与第二类错误的一个综与指标。例子中查全率、查准率与F-Measure均大于70%，可以推断模型预测的准确

11、度较高，两类统计错误都比拟小。然而，这种方法的主要缺点是训练数据中正确行程数据量会减少。由于每个驾驶员只有较小的数据集，它可能会显著影响模型校准的可信度。结论通过特征提取等非传统的数据处理方法，可以将非监视学习问题转变为监视学习问题，从而使得远程信息技术采集的地理定位数据用于模型预测，大大提高风险识别的全面性与准确性。另外，模型开发及验证过程中的创意调整，可以改善模型的性能，提高模型结果的应用价值。核心R程序下面列出了用于实现随机森林模型的R程序。 #例子中使用R package “randomForest. library(randomForest) #建立随机森林模型的公式 #数据

12、库FeaturesDataset包含从地理定位数据中提取的所有新特征 Xnames - colnames(FeaturesDataset) #去除不需要的解释变量 driver no与trip no以及预测变量“indicator，建立解释变量矩阵。 Xnames - Xnames!Xnames %in% c(driverno,trip,indicator) #设置公式 f=0.5,1,0)FeaturesDatasetseq(i-1)*200+1, i*200 ),indicator=indicator_predTripProbTotalseq(i-1)*200+1, i*200 )=TripProb第 10 页

展开阅读全文