自行车驾驶员交通行为方式判定研究(2)

来源：中国司法鉴定 【在线投稿】栏目：期刊导读时间：2021-04-24

作者:网站采编
关键词:
摘要：1.2.3 ANN特征选择方法 ANN模型具有分类精度高、鲁棒性好，自主学习水平高，非线性拟合能力强等特点。为避免线性分类模型不足，考虑到样本量较小和尽

1.2.3 ANN特征选择方法

ANN模型具有分类精度高、鲁棒性好，自主学习水平高，非线性拟合能力强等特点。为避免线性分类模型不足，考虑到样本量较小和尽可能去发现特征间更为复杂的关系，笔者采用多层感知器(muti-layer perceptron, MLP)算法的ANN模型进行比较分析。

1.3 模型评价

实验方案流程如图1。其中：采用10折交叉验证法(10-fold cross-validation)进行分类性能评价，每次选择一折案例作为测试集，其余样本作为训练样本集，从而以尽可能多的利用样本数据，评价不同分类模型的预测精度。分类器效能评估，最常用和最重要的指标是分类准确率(accuracy)，但仅考虑准确率有时不够全面。受试者工作特征曲线(receiver operating characteristic curve, ROC曲线)是一种非常有效的模型评价方法[14]。将真阳率(True positive Rate, TPR)设为纵坐标，假阳率(False Positive Rate, FPR)设为横坐标，可得到ROC曲线。ROC曲线越靠近左上角，实验准确性就越高。曲线下面积(area under curve, AUC)大小代表了模型优劣，其值越接近1说明该算法效果越好；另一方面，当数据集中出现类不平衡(class imbalance)现象时，ROC曲线具有保持不变的良好特性，非常适用于本研究；最后，ROC曲线多用于二分类判别效果评价，通过对类别标签进行二值化处理，笔者将ROC曲线扩展到多分类问题判别中。

图1 实验方案流程Fig. 1 Experimental scheme flowchart

2 实验准备

2.1 数据采集

笔者所采用的127起机动车与自行车交通事故案例数据来源于某市交通事故司法鉴定机构，数据采集和使用过程符合我国相关法律规定，不涉及个人隐私。通过建立事故特征调查统计表，基于VBA编程对事故碰撞类型、机动车类型、机动车损伤特征(21项)、自行车损伤特征(35项)和人体损伤特征(14项)、交通行为方式鉴定结论等共计73项重点事故信息进行批量采集并数字化处理，最终构建原始交通行为判定数据集。由具有多年司法鉴定工作经验的司法鉴定专家对案例结论进行复核，确保案件检材数据准确可信，确定最终鉴定结论骑行91起，推行6起，无法确定30起。

2.2 特征构建

自行车交通方式判定除了事故现场查勘时所见损伤特征外，还可将某些特征予以组合作为鉴定依据[10]。故分别针对车辆左侧、中部、右侧部位，自行车左侧、右侧、前后轮胎、前后车叉、前后轴头、自行车与人体等部位损伤特征构建组合特征。考虑到交通事故多样性和复杂性，特征构建时既采用基于特征数量的构建策略，还可采用机动车或非机动车前后均有损伤的组合特征构建策略。

2.3 数据不平衡处理

鉴于交通事故样本总量较小，笔者采集对象虽为某市全样本数据，但鉴定结论为推行的案例依然远小于骑行案例，为更全面进行对比研究，对数据进行不平衡处理。常用的不平衡处理算法有抽样、权重调整和核函数修正等方法。SMOTE(synthetic minority over-sampling technique)是用于解决小类中样本数量过少的一种向上采样方法，采用该方法可避免过适应问题，且扩展小类的决策边界进一步向大类方向移动，使少类样本拥有更大的泛化空间和特征属性[15]。

3 实验结果

3.1 数据预处理

考虑到原始数据集案例特征均为机动车、自行车和人体损伤的单一部位特征，为更好描述事故特征，以司法部颁布的技术标准为指导，进一步构建组合特征。例如，对自行车前轮左侧轴头和后轮左侧轴头的痕迹特征进行逻辑“与”计算，定义为“左轴头与”特征，表征在事故发生瞬间，自行车左侧前、后轮的轴头均受到撞击而损坏。与之类似，构建组合特征18项，与原始数据集72项特征组成组合数据集。

其次，考虑到原始数据集和组合数据集中不同鉴定结论的事故案例数量极不均衡，为此引入SMOTE过采样算法对原始数据集和组合数据集的推行案例进行不平衡处理，尽量避免案例不均衡对分类精度产生影响。并与未进行不平衡处理的数据集同时参与测试，从而综合比较不同分类算法在不同数据集的分类性能。本研究采用的测试数据集如表1。

表1 预处理后的数据集Table 1 Data set after preprocessing个数据集样本样本个数特征个数骑行案例推行案例不确定案例原始数据集组合数据集原始过采样集0组合过采样集0

3.2 模型结果

3.2.1 特征个数选择与分类结果(图2)

图2中：针对上述4种数据集合，依次选择卡方检验评分最高的1～20个特征变量，基于不同算法进行分类，用交叉验证法进行分类准确率评价。结果表明：对SVM依据OVR和OVO原则构建的多分类器分类结果相同。当选择4个特征变量时，即变量为：车座损伤、车座旋转、机动车类型和车把旋转时，SVM(kernel=linear)算法具有78.76%的最佳分类准确率；当选择19个特征变量时，ANN算法具有83.81%的最高准确率。随着特征选择个数增加，除ANN算法变化较大外，其他算法分类准确率基本都逐步提高，并趋于稳定。在其他数据集上进行特征选择研究同样发现：随着特征选择个数增加算法分类准确率逐步提高，并趋于稳定。

文章来源：《中国司法鉴定》网址: http://www.zgsfjdzz.cn/qikandaodu/2021/0424/502.html

上一篇：建设工程造价司法鉴定的理论与实践的研究
下一篇：道路交通事故车辆制动失效原因探讨