【专家论坛】机器学习助力检验医学发展

中华医学网2018-12-25 07:19:39


本文来源:中华检验医学杂志, 2018,41(8) : 627-630.


从2016年Google旗下DeepMind公司开发的基于深度卷积神经网络和蒙特卡洛树搜索算法的围棋程序AlphaGo战胜世界级棋手Lee Se-dol(李世石),到2017年IBM公司以认知计算为核心的Watson Health落户中国多家医院,这些计算机人工智能(artificial intelligence,AI)的实现,主要得益于其背后支撑技术——机器学习取得的瞩目发展。


机器学习发展简介

机器学习(machine learning)最初始于IBM的Arthur Samuel,他在20世纪50年代设计了著名的跳棋程序,并于1956年在达特茅斯会议上为其定义为"非显式编程地赋予计算机学习能力的研究领域"。直到1986年,著名的反向传播(Back Propagation,BP)算法以及基于此算法的卷积神经网络(convolutional neural network, CNN)模型被成功地用于英文手写体识别,使得机器学习研究与应用进入快速发展期。1997年,卡内基梅隆大学的Tom Mitchell教授作出了更为广泛的定义:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习"。"经验"在计算机中以"数据"形式存在,若将数据视为客观事实的表征,隐藏于表征中的模式定义为信息,则从数据中提取信息的过程又被称为"模式识别"(pattern recognition)。90年代后,统计学习迅速成为主流,其代表性技术支持向量机(support vector machine,SVM)、核方法已成为今日机器学习的基本内容之一。到了21世纪初,曾经发明BP算法的Geoffrey E. Hinton再次掀起以"深度学习"(deep learning)为名的多层神经网络应用热潮,使得无人驾驶、语音助手、人脸识别、商品推荐等这些智能技术受到万众瞩目。


2016年,美国国立图书馆(NLM)的医学主题词表(MeSH)首次收录"Machine Learning"(ID: D000069550),其定义为"计算机收到新数据时自主启动学习的一种AI",下设"Supervised Machine Learning"(监督学习)与"Unsupervised Machine Learning"(无监督学习)两个子类。监督学习使用有标记的数据训练计算机建模,常见的算法有线性回归、决策树、随机森林、朴素贝叶斯、K-近邻、SVM、BP算法等,对这些算法在同一数据集上的分类性能作以可视化比较,将有助于非计算机专业读者获得感性认识。无监督学习使用无标记的数据找寻其内在分布结构,应用于聚类,常见的算法有各种聚类分析、主成分分析、受限玻尔兹曼机、稀疏自编码、深度置信网络等。简单地理解,机器学习中的"机器"即为数学模型,"学习"就是用数据来拟合模型。


医疗大数据需要机器学习

近两年,国家先后发布了《"健康中国2030"规划纲要》与《"十三五"全国人口健康信息化发展规划》,将健康信息化和医疗大数据的建设应用提升到国家信息战略高度。然而结构化(大多检验结果)、非结构化(放射影像、细胞形态、诊疗记录)、半结构化(病理报告、电子病历)格式混合,特征高维、冗余和高度相关是医疗数据有别于其他行业的特点与难点,传统数据仓储策略已难以满足大数据分析需求。故此,"数据挖掘"(data mining)概念则应运而生,重在强调以知识为产品的数据驱动型发现,其技术流程围绕数据存储、处理与分析而展开。无论是当前依靠人工专家进行的循证医学研究,还是今后基于大数据挖掘的计算机认知开发,都是实现数据向知识转化的技术路径。而以数据中产生模型的算法(即学习算法)为主要研究内容的机器学习,迅即成为计算机模拟人类学习过程中智能数据分析技术的创新源泉。


机器学习与检验医学

为了解机器学习在医学及其检验医学领域的研究概貌,分别以"'machine learning’[tiab]AND (medical[tiab]OR clinical[tiab]OR medicine[tiab])"与"'machine learning’[tiab]AND (medical[tiab]OR clinical[tiab]OR medicine[tiab]) AND laboratory[tiab]"(注:[tiab]是指检索范围限定在文题与摘要字段中)为检索式查询PubMed,并统计文献数量(查询截至2017-12-06)。与医学有关的机器学习文献已逾3 000篇,收录最早的一篇发表于1986年,此后一度冷寂,至2013年开始激增,2017年度发表量达850篇,主题涉及辅助诊断、病情分级、预后评估、死亡预测、医疗决策、资源配置、个体化诊疗等,而与医学及实验室有关的文献仅134篇。以"机器学习"为检索词,在万方数据库中不限定检索字段,查得2014至2016年度共计文献738篇,其中工业技术学科发表551篇占据文献来源第一位,医药卫生类仅15篇。以下将按检验数据类型,分别从非结构化图像型、结构化数值型、结构化文本型与结构混合型4个方面,试述机器学习在检验医学中的应用。


在检验图像识别方面,早在20世纪60年代,结合自动显微镜拍照与数字化图像识别的商业系统LARC (Leucocyte Automatic Recognition Computer)与Heniatrak,被用于白细胞Romanowsky染色镜检的自动分类,其分类原理并未公开。1979年,Smit等使用上述商业化数字图像识别软件采集镜下白细胞图像灰度与几何参数,在一种名为ISPAHAN的交互式模式识别软件中生成高维数据空间,应用线性判别分析(linear discriminant analysis,LDA)对已知白细胞图像数据进行学习建模用于自动白细胞分类。虽然仅获得了85%的准确度,但已显示出计算机自动图像识别的应用潜能。同期,Technicon.公司最先开发出基于流式细胞化学法的五分群血细胞分析仪,以其快速、简便、低廉及高效的优势迅速成为市场主流,以致细胞图像识别法到20世纪80年代后期已销声匿迹,但同时也带来了因仪器报警不完善甚或忽视镜检所致阳性漏检。进入20世纪90年代,CCD图像传感器成熟商用、计算机进入多媒体时代以及机器学习领域划时代的BP算法问世,基于人工神经网络(artificial neural network,ANN)算法的白细胞图像分类系统走上市场,如瑞典Cellavision AB公司开发的自动显微镜独立阅片系统。该系统模仿人工镜检流程,在低倍镜下扫描血涂片并定位对焦白细胞,再于油镜下进行图像采集,运用ANN算法实现细胞预分类,操作者只需复核预分类结果或在显示屏上对疑难细胞进行人工分类,国内报道其与人工镜检的总符合率为88%,可在一定程度上减少人工成本、缓解形态学检验人员匮乏的现况。系统提供的参考图谱与数字化图像管理也便于形态学室间质评与职业教育的开展,这将有助于解决长久以来形态学检验变异度高、难于标准化、人员培训周期长等难题。类似地,用于检测自身抗体的细胞免疫荧光核型自动判读系统,如德国Aklides、EUROPattern、Helios、美国Image Navigator、NOVA View、意大利Zenit G-Sight等相继上市,其不精密度(1.99% ~ 25.2%)均小于人工判读法(39.1%),识别阳性样本的准确度可达95%,但对6种常见核型的识别正确率只有52% ~ 79%。可见,在保证不漏检阳性样本的基础上,核型识别率尚有待提升。计算机自动图像识别是模式识别主要研究方向,也是近年来最为广泛与成熟的AI应用,随着其技术核心——机器学习算法的不断发展完善,图像识别率也在屡屡刷新。可以预见图像自动分析系统装备我国检验科,将是机器学习研究在医疗行业最具现实性与可行性的应用转化。


临床化学最先实现自动化检测后,结构化的数值型数据产出占据了现今医学检验科的几乎全部业务。在检验结果从数值数据走向实现病理生理机制的临床解读目标中,伴随着自经典的反馈式程序控制到结合知识库与统计推理的专家系统,再到以模拟人脑结构——ANN为代表的机器学习这些数据分析手段的更迭与交织。检验报告的计算机自动审核,即是实验室内数据综合处理的最早运用场景。1988年,Valdiguie等开发了生化检验报告自动审核专家系统——VALAB,该系统运用人工专家创建的超过4 000条规则(IF-THEN语句)进行逻辑判断以发现异常或错误报告,其规则所涉及的参数并非兼具普适性,且其建立过程依赖经验与实践。国内专家也仅就生化免疫项目的自动审核程序在制订卫生行业标准,而对规则的参数设置尚无统一标准。最近,Demirci等将包括历史结果比较、深静脉置管取样、纤维蛋白凝块致取样误差、误用EDTA、送检延误、人体极值等多条规则的临床化学人工审核报告作为训练集,首度采用ANN构建自动审核程序,其正确拒审报告的敏感度为91%、特异度为100%,在保障患者安全的前提下,推算每年可节省人工审核时间近1个月。若将检验结果视为患者的数字式采样,其中蕴藏着的数据模型则可在一定程度上推理还原出本体。Luo等对血常规与生化数据使用多种机器学习方法进行铁蛋白结果预测的报道支持了笔者的这一推论,该研究使用随机森林回归法预测铁蛋白数值,其与铁蛋白实测值的相关系数达0.732,随后采用logistic回归预测铁蛋白是否低于参考范围,其ROC曲线下面积(AUC)高达0.97。这一研究结果,无疑昭示着机器学习将为检验数据的深度挖掘带来令人遐想的广阔空间。另一项应用机器学习对头颈部鳞癌患者是否感染HPV的预判研究中,基于年龄、性别、人种、吸烟、性行为、经济收入、教育等人口统计数据的学习算法,其预判性能一般(PPV为75%,NPV为68%),研究者认为该方法不能替代现有的HPV感染诊断金标准——原位杂交法。可见,数据模型推理不能任意而为,还需基于专业与逻辑的考量。


医学实验室中的文本型数据类似于医学病历中的病程记录,如颜色、性状与细胞形态学描述等,虽然在检验数据中占比最少,却往往极具临床价值,其包含的信息常模糊且难以量化。这正是自然语言处理(natural language processing,NLP)技术要解决的问题,NLP已被广泛应用于网络信息检索等领域,但因医疗记录涉及患者隐私、专业医学术语标注成本过高、忽略医疗机构实际需求等问题,导致NLP在医学领域的应用存在巨大障碍,在中文医学领域更是研究甚少。北京大学医学信息中心的雷建波博士,对目前应用于英文NLP的4种主流学习算法在中文病历的命名实体识别(named entity recognition)任务中进行了比较,结果显示结构化SVM在入院记录与出院小结识别中的F-measure(注:信息检索领域常用于评价分类模型性能的统计量)分别为90.01%和93.52%,优于2010年i2b2/VA NLP英文临床命名实体识别挑战赛记录85.23%,这为中文医学病历的语言识别工作打开了光明的前景,并为检验医学所需混合型数据结构的机器学习应用提供一线曙光。


对疾病相关生物标志物的评价与使用,是检验医学研究的最重要任务之一。生物组学研究中的宏量数据较早地被采用贝叶斯、SVM、聚类等学习算法进行分析,最近受到了临床检验研究人员的关注。将机器学习用于miRNA、lncRNA与基因突变这类新颖分子标志物的临床诊断可见陆续报道。Buj等利用已发表的甲状腺乳头状癌组织中激肽释放酶(KLK)、BRAFRAS基因表达与突变数据,采用决策树C4.5算法在鉴别出BRAFRAS突变的患者中,新发现了一群预后较好的亚类。香港一项对社区卫生机构中13万多名2型糖尿病患者的5年随访研究,利用患者基本信息与常规生化结果建立决策树模型进行5年后发生心血管病的预测,并将高危患者按风险度递增5%细分出5个层级。可见,在机器学习的临床应用中,更为重要的是它带来了一种全新的数据解读方式,为研究者提供一种迥异于传统研究手段的新思路。


机遇与挑战

近两年,权威医学期刊NEJM、Lancet、JAMA等纷纷发表社论,在热捧机器学习广泛应用的同时,也对诸如不恰当预测、重分析轻数据质量、依赖机器后医生水平下降、医学自身存在不确定性、机器学习"黑盒"等问题表示关注。当然,任何事物皆具两面性,须全面认识以取其利去其弊。机器学习方法日益更新且用途广泛,但其理论艰深,易使人只关注于应用,导致"按图索骥"之"套路"化。要让机器学习应用于医疗诊断此类重要问题,我们就需要一个能被人类理解和信任的系统,尤需避免将学习算法看作是"黑盒",若不能理解盒中运转原理,也就无从对"黑盒"进行选择与优化。当然作为大多数并不具备数理统计理论知识的应用人员,无需具有构建"盒子"的技能。好比检验人员虽然不精通化学知识,不具备试剂研发能力,但必须理解实验原理以对检验结果进行合理解读。机器学习技术的应用重点主要是两个方面:(1)数据集的质量,即独立同分布与数据量;(2)模型的质量,即模型评估与算法优化。一项对50株感染、25株定植及25株皮肤来源的表皮葡萄球菌测序数据建立模型的研究中,使用树回归、SVM、近邻法共3种学习算法以判断临床分离株是否来自感染,结果预判准确度最高仅为73%,作者析其原因是用于临床细菌鉴定的测序数据未能包含区分感染的有关信息。总之,相比大数据之"器"与机器学习之"术",数据的质乃为"道",对其"道"逼近"自然"的程度则依于研究者之"法"。


现代医学模式从分析转向整体,检验与临床间更需密切沟通,其中凸显的问题则是双方信息不对称,而基于机器学习的数据挖掘手段将有望成为填补这种专业间信息鸿沟的得力助手,并促进临床医学与检验医学的共同发展。

Copyright © 温县电话机虚拟社区@2017