在全世界新发癌症病例中,结直肠癌占第三名,而死亡人数的占比更是到达了第二名,仅次于“双料第一”的肺癌[1]。想要扭转这个局面,除了注意预防,高风险人群定期的筛查也是很有必要的。
目前,结直肠癌筛查的金标准是结肠镜检查,在检查过程中发现的癌前病变——腺瘤性息肉可以在检查的同时被切除,这降低了结直肠癌的发生率和死亡率[2-4]。
然而实际上,有高达27%的息肉都没有被检查出来,这可能是由于息肉较小、较隐蔽,或是医生的个人原因造成的[5,6]。虽然有研究显示,在检查中增加一位医生可以增加息肉检出率(PDR),但是这种策略是否也能同时增加腺瘤检出率(ADR)还是不确定的[7-9],而ADR才是结肠镜筛查的主要质量指标。
多一个医生行不行不知道,但是多一个AI,说不定可以哦。
本月,在胃肠病学领域的顶尖期刊Gut上,来自四川省人民医院的刘晓岗主任带领团队,与哈佛医学院贝斯以色列女执事医疗中心的研究人员合作发表了一篇文章[10]。
他们在一项前瞻性随机对照临床试验发现,与标准结肠镜相比,AI系统辅助的结肠镜检查,查出的ADR增加了近50%!每位患者检出的平均腺瘤数也增加了,这主要是因为AI检查出了更多的较小腺瘤。
这是全球首个使用「基于深度学习的计算机辅助检测系统」的前瞻性随机对照临床试验,辅助结肠镜息肉检查,具有开辟性的意义。
这项研究在四川省人民医院进行,研究共纳入1058例患者,他们被分为随机分为2组,一组接受标准结肠镜检查(536例),另一组接受AI系统(实时自动息肉检测系统)辅助的结肠镜检查(522例)。
在AI组中,结肠镜连接到AI系统,监视器上会显示用蓝色空心框圈出的息肉位置,同时发出警报声,医生主要负责盯好监视器,在警报声提示检测到息肉时对息肉进行评估,判断它是否是息肉,是否是腺瘤性息肉。
这次研究所用的AI系统是在深度学习架构上开发的,2018年,刘晓岗主任的团队在《自然·生物医学工程》杂志上发表研究[11],介绍了这个系统。系统的建立基于2007年-2015年间,1290名患者的5545张结肠镜检查图像,其中有3634张是检查出息肉的。
研究人员共使用了4个数据集对这个系统的识别能力进行了验证。数据集1和2使用的是结肠镜检查图像,其中系统的敏感性可达到94.38%,特异性达到95.92%,受试者工作特征曲线下面积(AUROC)为0.984(评价统计模型预测准确性的指标,越接近1,说明准确性越高)。
与1和2不同,数据集3和4使用的不是检查图像,而是检查视频,数据集3是包含息肉的检查录像片段,4则是经多名专家确认无息肉的患者的全部检查录像。从静态到动态,这对于系统来说无疑是增加了难度,但另一方面,这种检验也更加贴近实际的临床应用。
结果依然没有让研究人员失望,数据集3中视频的逐帧敏感性仍能达到91.64%,而对息肉检查的敏感性更是达到了100%!数据集4的特异性也高达95.40%。
而且,通过多线程处理系统,AI对实时视频的处理速度能够达到每秒至少25帧,延迟时间为76.80±5.60毫秒,可以说是将图像实时输出了,不会影响医生的操作。总的来说,就两个字:优秀。
在这些结果的加持下,研究人员开展了这次临床试验,我们可以从几个角度来评价。从检查所需时间上来说,AI组所需的时间为6.89分钟,仅比对照组的标准结肠镜组长0.5分钟,也都没有出现与肠镜检查相关的并发症。
从息肉的检查结果上来说,两组共检出了767个息肉,其中有422个腺瘤,对照组和AI组的PDR分别为0.29和0.45,差距明显。在检测出腺瘤的患者中,对照组和AI组检测到的平均腺瘤数分别为0.31和0.53,ADR分别为0.20和0.29,增加了45%。两组间的差距主要是由于AI组检测出的小腺瘤较多(185vs.102),较大腺瘤的检出数量虽然也有差距,但是不具有统计学意义。
看来,AI组在正面结果的对比上还是展现了优势的,那么负面结果,也就是漏检和错检的结果如何呢?经过研究人员的统计,AI系统一共有39次错误警报,平均到每次结肠镜检查上大约是0.075次,错误率还是比较低的,而且也没有出现漏检。
总而言之,这个临床试验表明,在AI的辅助下,结肠镜检查能够发现更多的腺瘤,尤其是小腺瘤,这也与传统观点,即“在视野内更容易遗漏小息肉而不是大的突出的息肉”相符。尽管小腺瘤相对来说恶变的风险较小,但是总体腺瘤检出率的提高最终可能会降低肠癌的风险,这个“终极目标”的实现还需要通过进一步的长期随访研究来进行验证。