腾讯工程师颜克洲：如何用AI技术解决乳腺癌难题_技术前沿

近日，腾讯架构平台部的工程师颜克洲向外介绍了腾讯AI lab在乳腺癌的病例图像识别以及钼靶识别方面的研究进展。
为什么选择乳腺癌这个方向？

他说，对于中国女性群体来说，乳腺癌是发病率高的恶性肿瘤之一。据相关数据统计，我国每10万人中就有40多个人罹患乳腺癌。基于此，腾讯AI lab发力该领域，希望能够利用技术攻破治疗难题，以惠及更多普通人群。
在乳腺癌的检查及研究方面，腾讯AI lab选择了两个具体方向。一、钼靶；二、病理学。
对于钼靶来说，它是一种非常常见的筛查手段，它能够普惠到基层医院。但目前很多医生在钼靶方面的研究和熟悉程度有所欠缺。因此，腾讯AI lab希望可以借助AI技术，帮助到基层医院的一些医生在钼靶方面做一些提升。
对于病理学检查方向。在颜克洲看来，该方向用计算机处理会比人类更加适合。病理学研究“区域”非常广泛，它可能有10万×10万个小细胞。如果依靠医生肉眼去看，全是密密麻麻的小细胞，这将是个非常痛苦且有巨大挑战的过程；如果用计算机去执行就会变得相对简单，它就可以将这些细胞进行拆分，做高并发研究。
腾讯AI lab在病理学图像识别的进展
在病理学图像的识别上，腾讯AI lab将其分为两个步骤。
一、在手术中或者手术后，将病人的淋巴结切下，观察癌细胞的位置及大小；
二、然后对此癌细胞进行组织学分析。组织学分析是将癌变的组织切下来，观察它的分化程度，然后来确定方案。
据颜克洲介绍，腾讯AI lab早期就做过淋巴结切片的分析。对于这个切片，从病理学图片的识别来看存在一些难点。
医学上的病理切片分析需要的是波片扫描的数据，但是目前该数据量非常少，因为它需要把整个波片全部数字化。如今很多医院都还没有普及数字病理机；另外，很多医生由于在医学院从一开始接触的就是显微镜，因此他们比较抵触使用这些机器。其实使用数字病理机只是把原先用显微镜看到的东西数字化而已。
该切片是张超级大型的图片，达到了10万×10万像素，这无论是对于人还是计算机来说，对此图片做识别和分析都有一定难度及挑战。
细胞形态非常类似。癌细胞与淋巴结上的一些巨噬细胞在形态上非常相象，但这两类细胞与普通的淋巴结细胞又有比较大的区别。
针对以上三个难点，腾讯AI lab提出了相应解决方案。
对于医疗机器的应用难题，后期可以给机器增加一些辅助功能。比如说能够帮助医生大概预估治疗结果等，这也许会逐步提升医生对于这些机器的好感；

对于超大型图片，可以化整为零，把它切成了多个patch去做分析；
而对于细胞形态，可以采用多数据融合的方式去分析，这个过程可以分为三个部分。
首先做一个浅处理，把切片中有用的部分全部切出来；

再者是进行分类。由于癌细胞与巨噬细胞非常相像，腾讯AI lab采用了一种激活的训练手段训练了两种网络：个是普通的正常和癌变细胞的网络；第二个是针对巨噬细胞跟癌变的一个有特别分辨能力的网络；之后又将这两个网络用一个权重进行融合得到细胞病变的概率。
得到概率之后，可以利用病灶膨胀阀过滤掉一些传统的计算机识别的特征，包括细胞核个数、假阳性的组织等等；然后再融合它原本的一些计算机视觉的特征。比如说这个小片里面细胞的密度以及细胞的一些颜色的浮动，这些信息终用一个概率图模型来输出，紧接着处理成一张热力图；形成热力图之后，经过一些降噪的手段将其变得更加精确；后把它的病灶点进行聚类，再确定病灶大小，给它进行N分级。
雷锋网AI掘金志了解到，在近的一次对于甲状腺的研究实验中，它的病灶召回率在0.83左右，而人类的水平大概在0.7左右。
腾讯在钼靶图像识别上的进展
接下来颜克洲还介绍了一下腾讯AI lab在钼靶图像识别上的一些进展。他表示，腾讯AI lab之前对众多医生进行了一些调研，在钼靶图像这块总结出两个痛点：

一、医生很容易漏掉癌症的病变组织，也许是根本没有找到；

二、找到一块病灶组织，但分不清楚它的良/恶性概率是多少。
颜克洲透露，腾讯AI lab有尝试去解决这些痛点，但发现其中也有一些难点。
没有大量的数据和标注去训练神经网络。
这类图片与普通图片不太一样，用普通的神经网络算法在医学中应用不太可行。
钼靶图片有其特殊之处——同病理。在钼靶图像识别率这个领域，单看一张图根本不知道患者有什么疾病。医生诊断的时候通常会对比患者的左胸和右胸图片，它的组织是基本对称的，后来确定患者到底是不是有问题。
针对这三大难题，腾讯AI lab也做了一些探索。
数据获取方面。在数据不够的情况下，机器很大程度上在学习医生在平时诊断时的做法。它将医生的办法抽象成一个数学方法，利用医生的知识把一些可疑的病灶进行判断，然后将这些知识提取出来，应用到神经网络中去进行辅助分析。
设计专门的医用神经网络，针对非标准图片去做。
模仿医生看片的流程，在方法上做了多图对比的一个过程。
实现框架主要也有三大块：

利用NLP把标签拿到。利用NLP技术把病人的钼靶报告和病理报告拿到以后，提取它的标签，然后利用这些标签对整图做训练。
做全处理。对于此步骤，腾讯AI lab会重点根据医生的一些相应知识去做处理。
拿到label和image后，再结合与医院拿到的一些数据标记，做神经网络训练，后分辨它属不属于癌细胞。
这其中也包含三个过程：
步是把钼靶报告和病理报告里面的结构化信息利用NLP技术提取出来；然后用计算机视觉的方法找到一些疑似的病灶（当然这些病灶不一定是真正有用的病灶，或者是真正癌变的病灶，但是至少可以大大缩减分析范围），把无用的一些地方去掉；再者用计算机语言来找到它的ROI，找到这些ROI以后，后面在做神经网络的分类或者训练就会相对容易得多。
第二步是进行多图对比。将两张图片利用医学图像的技术做对齐；对齐以后再做一个差分；差分完了以后，再将结果返回到刚才的步做循环，去找到那个关键的、感兴趣的组织。
第三步也是关键的步骤，拿到了ROI以后，将它放到神经网络里面去训练，训练它是或者不是癌变细胞，但是正如前面所言，其实目前的标注量用来训练神经网络是远远不够的。因为神经网络的训练一定是需要成千上万张这样的一个级别，因此一定要融入一些其他的医学知识。
融入哪些医学知识呢？

一、一些计算机视觉特征的知识。将病灶放到神经网络里面去，其实会丢失很多特征。比如说在原图位置的特征、大小特征、毛刺特征等等。然后将这些特征用另外一条通路把它描述出来；
二、医生在给患者做诊断时所依赖的一些特征。值得注意的是，还要对患者的年龄、性别、以及既往病史作了解并进行处理，后用概率图模型将这些特征做融合，得到良/恶性的概率。
颜克洲补充说，腾讯AI lab目前在研究良/恶性病灶方面也有一些进展。在疑似病灶的地方，腾讯AI lab大概在每张图有1.5个假阳性的情况下可以获得80%的病灶覆盖率，该水平已经超过了人类。
他透露，接下来腾讯AI lab对于乳腺癌这个方向在诊断方面一定会融合尽量多的医学信息，尽量把患者的一些病历数据、影像数据、基因数据做多数据的融合，后对病人做出一个综合的诊断，而不仅仅是把它当成一个图像工程去做。
如今基于AI的相关技术正联合各项应用及研究走进人们的生活，来到人们的身边。正如AI应用于乳腺癌识别一样，这一切都是为了让人人都享受更好的医疗服务，期待相关企业和机构在乳腺癌项目上的研究能够尽快有所突破，造福普通患者。

省市代理商名录

（7940家）

全国总代理商名录

（2105家）

代理商留言

（312354条）

生产厂家名录

（21377家）

腾讯工程师颜克洲：如何用AI技术解决乳腺癌难题

行业资讯

相关资讯

相关文章