在完成分割任务需要开展大量标注工作,这既耗时又费力。如何充分利用未标记数据来辅助训练深度学习模型近年来已成为研究热点。本文以内窥镜手术中的器械分割为背景,探讨如何更合理和有效地使用未标记数据进行半监督学习。课题组提出了一种基于扰动程度的自适应梯度校正方法,以提高分割准确性,并将SAM与半监督学习相结合,充分利用大模型的优势,增强模型的零样本能力。相关成果于2025年4月以“Semi-supervised instrument segmentation for endoscopic spinal surgery”为题,被期刊《CAAI Transactions on Intelligence Technology》接收。
所提出的方法基于强弱一致性法则,设计不同程度的扰动创建样本。扰动程度对模型训练过程的影响应不同,因为扰动是随机的,这可能会导致弱扰动和强扰动图像之间的差异非常小。理论上,它们相应的输出的损失应该很小,但在梯度反向传播过程中,相应的损失比率通常是相等的或其他固定的比率。针对这个问题,课题组引入了自适应梯度校正,以解决传统一致性框架的关键限制。如上图右上角所示,扰动估计模块旨在估计弱扰动图像和两个强扰动图像之间的相似性,再通过损失函数的形式加入模型训练。
半监督分割模型可以充分利用未标记的数据进行分割,但考虑到标记数据非常少,它们的性能通常落后于监督学习。通过手动设置关键点,将每张原始图像输入到 SAM 中,也能产生出色的分割结果。因此,本文考虑设计一种可以充分利用 SAM 来辅助半监督分割模型的方法。较新的网络SemiSAM在训练过程中加入了SAM,需要对原始代码进行较大的改动,繁琐且不利于代码移植。从另一个角度来看,由于SAM参与了损失计算,因此它基于对SAM的足够信任。事实上,SAM在某些方面的性能不如为特定任务设计的监督学习所达到的性能。因此,本文设计了如上图所示的分割框架,通过定量(mIoU对比与推理速度对比)与定性的实验证明了本文设计方法的有效性。其中,定量实验对比了不同数量的带标签图像、不同的相似度评估函数、不同的拟合方程的阶数。
上图中首列为内镜下图像,第二列是半监督分割结果,第三列是SAM的分割结果,最后一列是本文设计方法的输出,左下角是置信度阈值,通过与原图对比可以看出本文的分割结果更贴近于实际情况。