机器学习算法，检验人诊断肺癌的新武器_技术前沿

肺癌在病理上可分为非小细胞肺癌（NSCLC）和小细胞肺癌（SCLC），其中NSCLC占所有肺癌的80%~85%。NSCLC主要分为3种类型：肺腺癌（LUAD）、肺磷癌（LUSC）和大细胞癌（LCLC）。肺癌的治疗方式与其病理类型密切相关，其中分子靶向治疗对部分未吸烟的年轻肺腺癌患者有较好的治疗效果，肺鳞癌患者则多用手术治疗，小细胞癌患者大多选择化疗。既往研究结果表明，联合使用多种生物标志物及临床指标可以极大地提高诊断准确性。采用ML技术，并通过结合多种生物标志物构建用于模式识别的数学模型，预测或诊断新的临床样本和患者，则有助于提高肿瘤等疾病的诊断准确率。在本研究中，我们拟利用R语言的Caret函数包建立5种肺癌病理鉴别诊断模型，并对建立的模型进行性能评价和样本验证。

我们的样本来源于通过电子病历系统收集2015年1月至2020年12月解放军总医院第五医学中心收治的肺癌患者共计2000例，剔除数据不全或不符合条件的病例，纳入研究样本共780例，其中男526例，女254例，年龄26~85岁。所有病例均经肺组织活检确定病理分型，其中NSCLC 616例（79%），SCLC 164例（21%）。616例NSCLC中，LUAD 427例（54.8%），LUSC 186例（23.8%），LCLC 3例（0.38%）。

根据测试结果，以病理组织活检结果作为金标准，采用ROC曲线对模型性能进行评价，并计算曲线下面积（AUC）和95%可信区间，同时采用Kappa检验评价模型诊断与病理组织活检结果之间的一致性。

1. NSCLC 与SCLC模型：5种模型ROC曲线下面积(AUC)分别为0.9359、0.9582、0.9576、0.9346和0.9562，其中RF模型的诊断性能好。Kappa一致性检验的Kappa值分别为0.7113、0.8402、0.7993、0.7207和0.8282。5个模型一致性均较好（Kappa指数>0.4），RF模型为佳。

2.LUAD 与LUSC模型：5种模型ROC曲线下面积(AUC)分别0.8608、0.8614、0.7059、0.8193和0.8649，其中GBM模型性能好。Kappa值分别为 0.5748、0.5067、0.1371、0.3878和0.5565，除NN和SVM模型外，其他模型一致性均较好，GLM模型为佳。

基于机器学习算法的建模技术在恶性肿瘤和其他疾病的诊断和预后评估中已被广泛应用，如Naresh Khuriwal 团队采用神经网络模型（ANN）和Logistic 回归模型进行乳腺癌的诊断，其准确率达到 98.5%。在本研究中，我们分别采用了GLM、RF、NN、SVM、GBM5类算法对肺癌病理组织类型进行分类。在NSCLC与SCLC的分类模型，各类算法模型准确率均超过90%，取得了很好的分类效果。

而LUAD 与 LUSC模型的分类准确率均在70%~80%。两类诊断模型的效果差异主要来自于变量的选择，ProGRP是SCLC的特异标志物，主要用于SCLC的诊断、预后评估及疗效监测，也是SCLC单个指标中诊断特异性高的。

在本研究中，LUAC与LUSC肺癌诊断模型诊断效能不理想，除了与自变量的特异性有关外，也可能与纳入的自变量过多，导致的过度拟合有关。而其中GBM模型表现较好，这可能与梯度提升决策树模型中数量或迭代次数有关。

省市代理商名录

（7940家）

全国总代理商名录

（2105家）

代理商留言

（312485条）

生产厂家名录

（21379家）

机器学习算法，检验人诊断肺癌的新武器

行业资讯

相关资讯

相关文章