Multiscale Frequency-Guided Image Analyses for Mixed-Modality Medical Image Segmentation
发表于:2025-07-28 | 分类: 多模态医学图像分割
字数统计: 4.1k | 阅读时长: 14分钟 | 阅读量:

广东工业大学

摘要

Medical images generated by different imaging instruments often have different modalities. An architecture that can bridge the instrument gap and provide unified training for different modalities of images is the development direction of medical image segmentation. However, existing methods seldom pay attention to the mutual interference caused by the distribution differences of features between different modalities, which is a key factor in the training of mixed-modality datasets. Differences in diseases and imaging methods result in variations in the distribution of lesion size and frequency information. When training with data from different modalities mixed together, these differences typically lead to a decrease in network performance. To address this, we propose a mixed-modality segmentation network (MMSNet), which consists of three key components: multiscale frequency guidance (MSFG), modality feature adaptor (MFA), and frequency enhancement prompt (FEP). The MSFG refines the process of spatial feature extraction by incorporating multiscale frequency features. Moreover, MFA is designed to adjust pre-trained patch embeddings and transformer layers to reduce the cost of acquiring unknown modality features. Finally, FEP captures multiresolution frequency features of the image and fuses them with the frequency feature map of the image, which can enhance the network’s ability to extract frequency information across multiple spatial domains to a certain extent. In addition, we also introduced Mix1 and Mix2, which are composed of medical images from four different modalities to test the segmentation performance of MMSNet. Our experiment demonstrates that MMSNet can effectively alleviate the interference caused by differences in image frequency distribution, ultimately improving the segmentation quality of medical images. Our code will be made public at https://github.com/linzijin1238/MMSNet.

翻译

不同成像仪器生成的医学图像通常具有不同的模态。能够弥补仪器间差距并为不同模态图像提供统一训练的架构是医学图像分割的发展方向。然而,现有方法很少关注由于不同模态特征分布差异导致的相互干扰,这在混合模态数据集的训练中是一个关键因素。疾病和成像方法的差异导致病变大小和频率信息分布的变化。当混合不同模态的数据进行训练时,这些差异通常会导致网络性能下降。为了解决这一问题,我们提出了一种混合模态分割网络(MMSNet),由三个关键组件组成:多尺度频率引导(MSFG)、模态特征适配器(MFA)和频率增强提示(FEP)。MSFG通过结合多尺度频率特征完善空间特征提取过程。此外,MFA旨在调整预训练的补丁嵌入和Transformer层,以降低获取未知模态特征的成本。最后,FEP捕获图像的多分辨率频率特征,并将其与图像的频率特征图融合,能够在一定程度上增强网络跨多个空间域提取频率信息的能力。此外,我们还引入了由四种不同模态医学图像组成的Mix1和Mix2,以测试MMSNet的分割性能。我们的实验表明,MMSNet可以有效缓解由于图像频率分布差异导致的干扰,最终提高医学图像的分割质量。我们的代码将在https://github.com/linzijin1238/MMSNet公开。

研究背景

在医疗领域,不同成像仪器生成的医学图像具有不同模态,当前主流医学分割模型多针对单模态图像分析,支持多模态的网络也多以灰度图像融合形式呈现。不同成像方法在捕获感兴趣区域上存在差异,会干扰网络对空间域信息的判断,导致不同领域医生使用的数据缺乏相关性,给临床实践带来不便。

因此,训练单一的混合模态数据集来处理多模态分割任务是未来分割模型的发展方向和关键挑战。混合模态训练的主要困难在于克服不同模态图像间病变大小和频率信息分布的差异,这些差异会导致图像纹理、亮度等信息不同,严重影响网络对病变敏感区域的判断。

尽管已有能处理多模态医学图像的网络,如U - Net及其变体,但U形架构在处理混合模态数据集时不够鲁棒;基于注意力机制的模型虽有发展,但大多聚焦空间域特征分析,忽略了不同模态间频率信息的差异,且在样本数量较少时无法解决特征分布混乱的问题。所以,本文旨在设计一个专注捕捉混合模态图像差异的网络,以增强其应对复杂模态训练的能力。

研究现状

  • 多尺度频率分割:多尺度信息在语义分割领域愈发重要,如特征金字塔结构、高效多尺度点卷积等都体现了多尺度的作用,部分研究还将多尺度与注意力机制结合。但当前医学图像分割方法多侧重单一方面,在混合模态数据集上表现不佳。
  • 视觉提示调优:视觉变换器使提示概念扩展到视觉领域,如视觉提示调优(VPT)等方法提升了模型性能。然而,这些提示常需手动标注,依赖人类先验知识,限制了网络实际性能。
  • 适配器:适配器最初用于自然语言处理,后应用于计算机视觉,如ViT Adaptor能使常规ViT执行下游任务,但此前未用于频率引导的模型微调。

提出的模型

文章提出了一种用于混合模态医学图像分割的网络模型——混合模态分割网络(Mixed - Modality Segmentation Network,MMSNet),该模型由模态特征适配器(Modality Feature Adaptor,MFA)、频率增强提示(Frequency Enhancement Prompt,FEP)和多尺度频率引导(Multiscale Frequency Guidance,MSFG)三个关键组件构成。

  1. 模态特征适配器(MFA)
    • 设计目的:不同模态的图像特征存在显著差异,MFA旨在通过微调的方式,从预训练的视觉Transformer(ViT)中学习不同模态的医学图像特征,以优化图像特征提取过程。
    • 具体步骤:分为特征提取调整、图像嵌入调整和适配器三个步骤。特征提取调整模块用混合模态医学图像微调预训练模型,提取图像特征并学习额外的块嵌入层;图像嵌入调整模块对预训练视觉Transformer中的图像嵌入进行微调;适配器将图像嵌入和频率元素的特征结合,生成每个对应Transformer层的信息传递结果,并添加到主干各阶段提取的图像特征中,生成编码器的输出。
  2. 频率增强提示(FEP)
    • 设计目的:为解决混合模态数据集中频率分布混乱的问题,FEP通过将图像从空间域转换到频率域,生成额外的频率信息,促使网络关注特定频率分量,减少不同模态之间的干扰。
    • 具体方法:采用拉普拉斯金字塔(LP)和方向滤波器组(DFB)级联的轮廓波变换方法,将输入图像分解为低通和高通子带,高通子带再通过方向滤波器进一步分解为多个方向子空间,实现多尺度和多方向的频率分解,为网络捕捉图像的边缘、细节和纹理信息提供有效提示。
  3. 多尺度频率引导(MSFG)
    • 设计目的:使网络能够识别不同模态之间病变大小和频率的细微差异,提高模型在混合模态分割中的性能。
    • 具体步骤:分为尺度分解、频率通道引导和多尺度空间引导三个步骤。尺度分解通过多个路径对特征图进行降采样,提取多尺度属性;频率通道引导利用二维离散余弦变换(2D DCT)将信号从空间域转换到频率域,生成通道注意力图,对特征图进行重新校准;多尺度空间引导引入可学习参数控制前景和背景之间的信息流,引导网络关注不同尺度的前景区域,为病变检测提供更可靠的判别边界线索。

Snipaste_2025-07-28_17-27-36

实验设置

  1. 评估指标:使用Dice相似度系数(DSC)、交并比(IoU)和平均绝对误差(MAE)这三个标准指标,来衡量模型的分割准确性。
  2. 数据集设置:
    • Mix1数据集:涵盖眼底(ORIGA数据集,500张训练图像、150张测试图像)、结肠镜检查(Kvasir数据集,1450张训练图像、100张测试图像)、超声(BUSI数据集,547张训练图像、100张测试图像)和皮肤镜检查(ISIC2018数据集,2594张训练图像、1000张测试图像)四种模态。
    • Mix2数据集:同样包含四种模态,分别为眼底(REFUGE数据集,320张训练图像、80张测试图像)、结肠镜检查(CVC - 300数据集,1450张训练图像、60张测试图像)、超声(Thyroid - tn3k数据集,2879张训练图像、614张测试图像)和皮肤镜检查(ISIC2017数据集,2000张训练图像、600张测试图像)。所有图像均调整为352×352分辨率,训练时将四种模态的训练图像组合成包含5091张图像的混合模态训练集,训练完成后在各模态的测试集上验证模型性能。
  3. 实现细节:
    • 硬件与优化器:实验在单张NVIDIA RTX 4090(24G内存)上进行,使用AdamW优化器,学习率设为5e - 4,最大训练轮数为50,训练集批量大小为8。
    • 模型设置:MMSNet使用SegFormer - B4作为预训练编码器;在训练SAM相关模型时,为降低计算成本,不训练编码器部分,使用vit - b作为编码器权重,随机选取掩码内的点作为输入提示以模拟临床环境。其他超参数遵循原作者默认设置。
  4. 超参数选择:
    • MFA中的参数r:对比不同r值(从8到1),发现r减小时各模态的准确率提高,但需训练的参数数量也增加。考虑到7.51M训练参数相对多数医学分割模型不算多,选择r = 1作为默认超参数较为合理,r = 4时模型仍具一定竞争力。
    • 频率分量数量K:研究发现,在单模态分割任务中K = 16时网络性能最佳,但在混合模态数据集上,K = 32时MMSNet的平均性能最优。

Snipaste_2025-07-28_17-29-35

实验(Compared with SOTA)

  1. 与现有模型对比:
    • 与U形网络对比:MMSNet在四种模态评估中均优于U - Net、U - Net++及其变体DCSAUNet、UACANet和M2SNet。U形架构在眼底和皮肤镜检查中表现较好,但在结肠镜检查和超声模态中,因缺乏对频率信息的多尺度分析,易受频率差异导致的分布混乱影响,而MMSNet能收集多尺度的频率信息,准确分割不同大小的病变。
    • 与SAM架构对比:Self - prompt SAM在混合模态训练中因依赖单一线性像素分类,需大量同分布样本构建优秀分类器,难以实现;传统SAM因主要处理光谱域信息,缺乏频率信息的获取和处理,易受不同模态特征干扰。MMSNet通过引导和关注多尺度频率信息,解决了模态特征信息缺失问题,在除皮肤镜检查外的模态中优于SAM - Med2D,且无需手动标注。

Snipaste_2025-07-28_17-30-12

Snipaste_2025-07-28_17-30-16

Snipaste_2025-07-28_17-30-35

Snipaste_2025-07-28_17-30-44

实验(Ablation Experiments)​​

  • MSFG:对比有无MSFG的网络变体,发现缺少多尺度频率信息提取能力时网络性能不佳,MSFG能有效捕捉不同模态的尺度和频率差异,减轻不同尺度下疾病大小和频率不规则分布导致的性能下降。通过设计四种配置(SFG - SSG、MFG - SSG、SFG - MSG、MFG - MSG),验证了频率通道引导和多尺度空间引导的必要性,最终选择MFG - MSG作为MSFG的最终设计。
  • FEP:使用FEP训练模型在各模态的DSC指标上高于仅集成MFA和MSFG或不使用FEP的情况。对比不同自提示生成方法(快速傅里叶变换、小波变换、轮廓波变换),发现使用轮廓波变换作为自提示生成方法性能最佳,证明了FEP在混合模态医学图像分割中的潜力。
  • MFA:去除MFA后,模型在不同模态的得分明显下降,表明MFA对转移预训练知识和提取多尺度频率信息至关重要。与全调优编码器相比,除皮肤镜检查模态外,使用SegFormer编码器作为骨干并全调优在其他三种模态中无显著改进,且会大幅增加训练参数数量,因此使用MFA进行微调更高效。
  • 激活映射分析:不使用MFA微调冻结编码器时,网络无法准确定位病变;仅使用MSFG时,网络在某些模态能部分完成分割任务,但在眼底模态中注意力无法聚焦目标区域;缺少FEP组件时,网络对图像边缘判断模糊,这是由于缺乏FEP的高频信息提示,导致不同病变的轮廓信息丢失。

Snipaste_2025-07-28_17-31-28

不确定性分析

基于预测分割结果,使用蒙特卡罗Dropout估计不确定性。观察模型推理过程中产生的不确定区域和最终预测结果,发现模型在高度不确定区域的最终预测有明显模糊现象,但在一些有争议区域,模型虽有一定不确定性,但未将其分割为病变区域,表明模型具有一定的抗干扰能力。临床实践中,专家仍需关注高不确定性区域,重新标注这些区域有助于模型自我纠正预测权重。

结论

作者基于混合模态训练设置的实验结果,从三方面总结了MMSNet的有效性:

  1. MSFG的作用:在混合模态训练中,MSFG对医学图像分割的多尺度频率信息引导至关重要,能有效应对不同模态下疾病大小和频率分布的差异,提升网络性能。
  2. MFA的功能:MFA集成了针对混合模态医学图像的特征提取和优化的预训练块嵌入,可微调预训练编码器,实现对混合模态医学图像特征的自适应编码。
  3. FEP的能力:FEP能增强网络捕捉图像频率特征的能力。将其作为自提示融入MFA生成的特征图,可确保网络在处理复杂高频细节图像时具有强鲁棒性。

不足
MMSNet在分割小病变区域时表现不佳,可能是由于网络在下采样过程中未能有效关联多尺度信息,导致小病变区域的特征信息丢失或难以准确提取。

展望
增强特征图间信息共享:研究如何在降采样过程中增加不同分辨率特征图之间的信息共享,以提高网络对小病灶区域的分割能力。例如,可以探索引入关键节点来整合不同层次的特征,从而更好地捕捉小目标的复杂边缘特征。
自适应调整频率分量:目前频率分量的最佳数量是通过实验确定的。未来希望能够将该超参数调整为可学习的参数,使网络能够自适应更复杂的混合模态情况,从而在更广泛的模态范围内保持良好的性能。
探索频率分量适应方法:研究频率分量的适应方法,增强网络的鲁棒性,使其能够更好地应对不同模态图像的频率差异。
自主区分不同模态图像:虽然本文主要关注缩小不同模态图像的特征差距以提高网络性能,但未来可以探索利用频率信息引导网络自主区分不同模态的图像,并使用不同的网络骨干进行学习,以避免特征之间的纠缠和干扰。

上一篇:
Entropy-aware dynamic path selection network for multi-modality medical image fusion
下一篇:
A Novel 3D Unsupervised Domain Adaptation Framework for Cross-Modality Medical Image Segmentation