“经验猜”到“智能算”:AI如何重塑微观组织分析底层逻辑

发布时间: 2026-01-27

基于人工智能(AI)技术的微观组织识别及定量化兼具高精度和高效率的优势,有力推动了高通量组织分析技术的发展。本文聚焦AI辅助金属材料组织图像分析这一新兴领域,以微观组织由定性分析逐步向精细定量分析的发展为脉络,系统综述了传统机器学习分类算法、深度学习分类算法、目标检测算法、语义分割算法在金属材料微观组织分类、识别以及定量化方面的研究进展,尤其重点论述了广泛采用的语义分割算法的研究现状;同时,针对AI算法在材料微观组织图像分析领域面临的组织复杂度高、标注样本匮乏等瓶颈问题,介绍了数据增强、模型架构改进等方面的创新策略及其应用效果。最后,总结和展望了基于AI的微观组织图像分析方法目前存在的不足以及未来的发展方向。

在金属材料研发中,微观组织一直扮演着如同基因图谱般的核心角色,为精准指导高性能合金设计及物理机制深化,实现微观组织的精确识别及其定量化尤为重要。早期的显微组织识别与定量化主要依赖于光学显微镜(OM)、扫描电镜(SEM)等设备的组织图像,并结合图像处理软件对其中定量组织信息进行统计分析。为了实现微观组织的高精度分析,以电子背散射衍射(EBSD)为代表的基于晶体学的表征技术逐渐兴起并得到了广泛应用。

随着大数据与AI时代的到来,基于数据驱动的材料研发范式得到了业内学者的广泛关注与认可,也为金属材料微观组织的高通量精准分析提供了全新的技术路径。如图1所示。

1 金属材料微观组织分析中常用的AI技术及其特点

基于数据驱动的显微组织分析已由传统机器学习(ML)算法逐渐过渡到深度学习(DL)算法,相应地,建模过程中组织图像特征提取也由浅层手动特征转变为基于卷积操作的深层次自动特征,进而提升了微观组织分析模型的识别精度。同时,随着模型算法的迭代更新,微观组织分析也由最初的定性研究逐渐完善为精细的定量统计。然而,数据驱动技术在材料微观组织分析领域的应用也同样充满挑战。此外,微观组织图像中需要识别的物相信息量通常较大,数据标签的创建需要耗费较大人工成本,致使标注数据较为匮乏,同时微观组织图像中各类物相比例通常差距显著,导致样本类别不平衡,上述因素均严重制约了AI模型的精度与鲁棒性。

针对上述挑战,业内学者在数据集构建、模型网络结构设计等方面提出了相应的应对策略,较大程度提升了AI技术在材料组织图像分析领域的应用效果。

1、基于非ML算法的微观组织图像分析研究

AI技术兴起之前,传统的微观组织图像数据分析方法多依赖人工经验操作或晶体学表征技术。然而,受限于人类视觉的有限分辨能力,该人工经验主导的分析方法通常仅可准确应用于较为简单的微观组织。晶体学表征技术的快速发展有效解决了金属材料中复杂微观组织的识别与定量分析。但上述表征技术通常实验效率较低、实验成本较高,并不适用于组织图像数据的大规模、高通量分析,进而制约了所得定量结果的统计意义。

综上所述,传统组织分析方法难以兼顾高精度与高效率,亟需结合新兴的AI技术探索全新的组织图像分析范式,实现其精准高效分析,进而推进新材料研发。

2、基于ML算法的微观组织图像分类研究

以监督学习为代表的ML可以通过挖掘训练数据获得一个参数化的函数近似,从而建立起输入与输出之间的定量映射关系,为微观组织图像的分类预测研究提供了全新的技术路径。常用的ML分类算法包括支持向量机(SVM)、人工神经网络(ANN)、随机森林(RF)等,表1中给出了各分类算法的简介及其优缺点。

1 常用ML算法简介

由于ML算法无法直接处理图像数据,因此该研究阶段主要采用人工预处理的手动提取的微观组织特征,通过ML分类算法建立其与组织类别之间的映射关系。图2中给出该阶段的常用建模思路。在获得特征参数之后,需要通过归一化等方法对数据进行预处理,消除不同特征之间的数值维度差异,并通过特征工程方法筛选高关联度特征,用以构建最终的分类预测模型。该工作通过将参数化微观组织信息与ML模型相结合,实现了可靠的组织分类,在数值型数据层面上建立组织特征参数与相类别之间的关系,形成了基于早期ML算法的组织图像数据分析范式。

2 基于ML算法的微观组织分类模型构建及应用

通过合理地提取微观组织关键特征,ML分类算法有能力搭建起组织特征及类别之间的关系,实现相类别的可靠分类。此外,该类模型还具有较好的物理机制可解释性,可根据所建模型逆向分析出不同类别组织中最为核心的微观结构特征。此外,数据是ML建模的基础,由于该阶段的ML算法结构相对简单,所含超参数的数量也较少,因此模型训练过程中对数据量的要求较低。然而,该类模型的精度与合理性高度依赖于手工提取的微观组织特征,而组织特征的提取又高度依赖于操作者经验、图像质量等因素,因此导致该类人工主观经验主导的图像分类方法难以可靠地应用于复杂的微观组织,此外,由于人工干预引起的数据质量差异还会导致该类模型的鲁棒性和泛化能力较差。

综上所述,基于ML的组织分类模型的物理可解释性强,数据依赖性较低,但其模型精度与合理性严重依赖于基于主观经验的特征工程,使其难以有效地处理复杂微观组织,仍需发展更为客观、智能的无损失图像特征提取技术,用以提升复杂组织图像数据的分类精度。

3、基于DL算法的微观组织图像分类研究

随着AI技术的快速发展,以卷积神经网络(CNN)为代表的DL算法在金属材料微观组织分析中获得了广泛应用。目前,DL组织图像分类模型的主流建模思路如图3所示,主要分为2条技术路径:

其一,利用CNNDL网络自动提取图像核心特征,随后利用局部特征聚合描述符(VLAD)等特征表示方法将高维特征转化为特征向量,最后再利用传统ML分类方法建立起特征向量与组织类别之间的关系;

其二,利用现有的CNN架构,在卷积层后面直接连入全连接层,利用全连接层建立起CNN特征与组织类别之间的关系。

3 DL组织图像分类模型的主要建模策略

CNNDL模型的应用标志着组织图像数据分析正式迈入了智能时代,摒弃了微观组织分析对人工经验的依赖性。

此外,由于DL算法中采用多层卷积操作,使其可以深度感知目标图像中各物相的形貌、纹理等局部特征,构建出由低级到高级的层次化特征表示,从而高效捕获图像的核心模式与空间结构,进而有效克服了前文所述ML算法对复杂图像处理能力不足的困境,大幅提升了AI技术对复杂组织图像的处理能力,从而获得了优于人工经验的图像分类精度,是当前进行组织图像分类研究的首选技术之一。

此外,目前分类模型功能过于单一,仅可对组织图像进行简单定性分类,无法对图像中的定量组织信息开展深入分析,严重制约了微观组织智能分析对理解组织性能关系乃至成分工艺设计的指导意义。

因此,亟需在现有DL模型基础之上,通过采用计算机视觉领域的其他类别算法,实现微观组织图像的定性及定量分析。

4、基于目标检测算法的微观组织图像分析研究

传统的组织定量分析多依赖人工经验主导的图像分析软件,但其较低的人工操作效率仍会大幅制约图像数据的处理分析数量,进而降低了所得定量结果的统计意义。此外,相似于图像分类领域所面临的困境,人工经验指导的图像定量分析仍难以应用于复杂组织。

为了在组织定性分析的基础上实现初步定量分析,DL技术仍是实现该目标的有效途径。目标检测是DL领域的核心任务之一,可通过标记边界框实现目标物体的精准定位以及类别识别,在医疗、自动驾驶等诸多领域应用广泛。具体算法方面,YOLOyou only look once)系列是目标检测领域最为常用的算法之一,表2是不同版本的YOLO算法的简介。如图4所示,Shen等应用YOLOv3模型对FeCrAl合金中辐照缺陷的位置与尺寸演化进行检测,获得了与人工标注基本一致的检测及定量精度;在他们的另一个工作中,采用区域卷积神经网络(RCNN)模型对TEM图像中缺陷进行了更为细致的分类检测及其定量分析。

2 不同版本YOLO算法的简介

4 基于目标检测算法的微观组织分析与定量化

目前,主流的目标检测算法多以监督学习为主,模型训练之前需要事先对组织图像中目标物体进行人工标记,形成数据集。然而,不同于交通、医疗等领域的目标检测任务,材料组织图像中通常含有极高数量密度的目标相,并且尺寸细小,这大大增加了标签图的创建成本,致使当前材料领域的目标检测往往面临着标注样本量不足的问题。

为了缓解上述瓶颈问题,近些年的研究也提出了数据增强、模型架构改进等策略。尽管该工作将迁移学习思想应用于小样本下的YOLO语义分割模型,但其对基于YOLO网络架构的目标检测任务仍具有较高的指导意义。目标检测算法也同样难以可靠应用于复杂微观组织图像,造成该问题的根源是数据集构建过程中的主观人工标注。针对该问题,Jacobs提出建立具有共识性的图像数据标签,旨在通过较大规模学者的集体投票来产生更可靠、更为共识的数据标签,从而克服个人标注的主观性,建立起高可靠性模型。

受制于目标检测算法应用边界框标定物相的特点,使得该算法仅可应用于气孔、缺陷、颗粒等离散分布的物相,难以应用于连续交错分布、形态复杂的物相(例如复相钢中各类相);此外,定量组织信息提取方面也仅能基于边界框获得粗略的尺寸数据,无法对物相的精细轮廓进行检测,难以获取更为精细的含量、形貌信息。

因此,在目标检测算法基础上,还需引入对物相边界轮廓分析能力更强的计算机视觉算法,以实现对微观组织信息的全面、精细定量描述。

5、基于语义分割算法的微观组织图像分析研究

为了实现对材料中各类相、析出颗粒、缺陷等微观结构的统一分析,语义分割算法成为处理该问题的不二选择,是当前微观组织识别与定量分析领域应用最为广泛的机器视觉技术,也是我们的论述重点。

语义分割算法同样基于卷积操作自动提取组织图像的核心特征,采用端到端网络结构,训练模型可输出与输入图像相同尺寸的预测图像,该图中不同物相被标记不同颜色,通过对输出图像进行细致的像素分析,便可得到系统的组织定量信息。

目前,图像分割算法在多类金属材料的多样微观结构识别与定量化工作中得到了普遍应用,大幅加速了组织图像数据的处理效率,但在进一步深入应用过程中也不断暴露出材料领域组织图像复杂、样本量有限等瓶颈问题。

语义分割算法是计算机视觉领域的重要分支之一,其核心目的在于对输入图像中各个像素点进行分类,实现目标对象形态与边界的像素级精细预测,最终输出与输入图像尺寸一致的预测图像。图5给出了基于语义分割算法的显微组织识别与定量化操作流程。对于语义分割算法,目前绝大多数研究均采用监督学习算法,典型的算法包括全卷积神经网络(FCNN)、UNetSegNet等,表3中给出了各类语义分割算法的简介。

5 基于语义分割算法的显微组织识别与定量化流程

3 常用语义分割算法的简介

除了常见的相识别之外,该类语义分割算法还被应用于晶界识别、重结晶组织分析、碳化物识别、增材制造样品中冶金缺陷识别、TEM图像中的物相识别等多个场景。基于模型输出的预测结果图,通过对各类目标的像素信息进行统计计算,便可获得丰富的显微组织定量信息。

相较于目标检测算法,图像语义分割算法可获得像素级的精确位置信息和轮廓形貌信息,具有更强的边缘与细节处理能力,因此可获得丰富的微观组织信息。然而,由于语义分割算法可获得像素级的识别精度,使其相较于目标检测算法需要消耗更高的计算资源;极高的标注成本引起了严重的小样本问题;此外,复杂微观组织中晶界、相界模糊不清、难以辨别,对语义分割算法的像素级精细识别提出了巨大挑战,使得当前该方法对复杂微观组织的识别效果并不理想。

5.1 语义分割算法在复杂组织图像分析方面的应用

目前,学界对于复杂显微组织识别的研究多关注于如何结合高精度表征手段创建准确可靠的标签图像。针对这个问题,Shen等在前期工作中提出了EBSD指导下的DL建模方法,并将其成功应用于具有复杂显微组织的实际工程钢种。

如图6所示,该方法的核心思路在于通过SEMEBSD原位表征实验,实现了对复杂微观组织的像素级精准标定,进而建立起高质量数据集。该方法创新性地采用EBSD分析精准标定复杂钢铁组织中各类相,攻克了复杂组织智能识别中精准标签获取难的瓶颈。基于获得的高质量数据集,便可训练得到适用于复杂微观组织的图像识别模型,为高复杂度微观组织的智能识别提供了普适性的建模框架。

然而,该类方法需要依赖较为复杂的原位表征实验,同时标签数据的获取成本也较高,使其更适用于构建针对特定钢种体系的小数据集,难以扩展应用至建立复杂、多材料体系的大规模数据集。

6 提升复杂显微组织识别能力的常用策略

除了提升标签图像精度,改进语义分割模型计算框架也是提升其对复杂组织识别能力的有效途径(图6)。目前,结合图像分类模型与语义分割模型是常用手段之一。Zhao等通过结合图像分类模型与分割模型准确识别与定量分析了钛合金微观组织。

Ackermann等也通过2阶段DL框架可靠识别了贝氏体钢中复杂的马氏体−奥氏体混合组织(MA island),该计算框架中首先应用分类模型将马奥岛根据形貌特征进行分类,随后针对不同形貌的马奥岛建立各自的语义分割模型。除了联用不同算法,对已有算法的网络结构进行改进设计也可以提升模型对复杂组织的识别效果。

综上所述,针对复杂显微组织识别难题,历过多年发展,材料领域学者借助专业知识,在高质量数据集构建、模型结构设计等方面均取得了创新进展,提升了语义分割算法对工程金属材料微观组织的识别精度。而对于大规模、多材料体系的复杂组织识别任务,模型架构设计则是更优选择。

5.2 语义分割算法在小样本组织图像分析方面的应用

语义分割算法在材料领域应用还面临着严峻的小样本问题,该问题主要来源于极其耗时的人工标注。尽管通过组织表征可以快速收集大量的组织图像数据,但由于图像中通常含有较高比例的相界和晶界,使得单张图像的标注工作量极大。标注数据的匮乏将严重影响模型训练过程中特征学习的多样性以及评价指标的稳定性,最终降低了模型的精度和泛化能力。

如图7所示,针对小样本问题,运用计算模拟手段合成大量仿真的图像数据、扩充数据集,是最为直接且有效的手段。目前,最为基础且有效的数据增强方法为图像几何操作,该方法通过将原始训练图像及其标签进行同步操作(水平翻转、镜像翻转等),进而生成新图像数据,快速扩充数据集。在常规图像几何操作的基础上,将其与材料领域的物理冶金原理相结合,还可以实现不同条件显微组织的模拟生成。尽管基于图像几何操作的数据增强方法可以快速扩充训练样本数据,但所谓的生成图像均来自原有有限的训练样本,本质上并未增加新的数据信息,仍会制约模型的鲁棒性和扩展应用能力。

7 提升小样本数据下模型微观组织识别能力的常用策略

为实现复杂组织的可靠模拟,近年来,以GAN为代表的生成式AI算法成为一种有力工具。Han等应用HPVAEGAN模型生成了高仿真的超高碳钢显微组织,且通过结合真实数据与模拟数据提升了组织图像分类模型的精度,验证了生成组织图像数据的可靠性。Cao等利用GAN模型生成了不同工艺参数下的增材制造钛合金组织,生成图像的定量组织信息与真实组织图像基本一致。

然而,现有的GAN模型只能生成组织图像数据,并无法生成组织图像所对应的标签图像,仍然无法解决语义分割任务中的小样本问题。为此,Shen等提出了一种可以同时生成组织图像及其标签图的两步GAN模型架构。该方法被成功应用于小样本数据下的增材制造钢铁显微组织识别任务,并且证实了生成数据对语义分割模型精度的提升作用。综上所述,基于图像几何变换操作的图像增强方法本质上并无法引入新信息,对模型泛化能力的提升效果有限,但是优点在于操作简单,实践门槛较低。

除了数据增强外,算法开发或模型架构改进也是提升小样本数据下模型能力的有效途径,如图7所示。基于涂鸦标注的弱监督模型可大幅降低语义分割模型对数据量的需求,Na等提出了一种结合弱监督语义分割算法与主动学习策略的高普适性显微组织分割模型,使用最小的标注成本获得了最优的模型性能。Stuckner等应用迁移学习策略构建了适用于镍基合金等多类材料的微观组织识别模型。Alrfou等同样利用迁移学习策略,结合CNNSwin Transformer预训练权重,实现了组织图像的特征提取及其精准分割。Ma等通过结合SAM大模型与领域知识,在无需额外模型训练的条件下,建立起了具有优异泛化能力的合金组织分割模型,并获得了与传统监督模型极为接近的识别精度。Li等基于SAM视觉大模型开发出MatSAM模型,证实了视觉大模型技术的有效性。

综上所述,弱监督学习、迁移学习以及视觉大模型均可提升AI技术对小样本组织图像数据的识别精度。相较之下,视觉大模型凭借极大规模数据的预训练使其获得了强大的泛化能力,显著提升了小样本下组织识别的精度,是语义分割领域未来的重点发展方向之一。

6、总结与展望

近年来,基于数据驱动的AI技术在金属材料微观组织识别与定量化研究方面取得了令人瞩目的进展。随着图像分类、目标检测、语义分割等AI算法的不断应用,促使组织图像数据的智能分析完成了由浅层定性分类向深度定量统计的转变。然而,金属材料领域中标注数据的稀缺性以及组织图像的高复杂性长期制约AI技术的应用效果。

针对小样本问题,学者在样本生成、模型架构改进等方面做出了多种创新性工作,颠覆了传统监督学习算法的建模范式,极大程度降低了建模对数据的依赖性。针对组织图像复杂度高的问题,学者从高质量数据集构建、模型改进等方向着手提出应对策略,更有利于发挥材料领域学者的专业优势,是解决该类问题的首选策略。

从图像智能分析技术发展而言,材料图像数据智能分析在未来发展中应紧跟AI领域前沿技术,将最近的算法、理念应用于本领域,实现事半功倍的效果。目前,SAM等语义分割大模型的应用极大缓解了标注数据稀缺的难题,有望替代传统监督学习算法。

此外,在图像识别算法结构中融入物理冶金学知识,也是未来极具前景的发展方向。除了上述结合,材料领域知识还可以嵌入或指导损失函数设计、模型架构改进等方面,形成物理机制约束。将领域知识与AI模型相结合可有力提升AI模型的性能和合理性,发展出材料科学领域特有的智能组织识别与定量化体系。

从指导新材料研发的角度而言,材料图像数据智能分析在未来发展中应进一步加强与现有材料集成计算设计体系的结合。微观组织智能分析在后续发展可关注于如何将该计算工具合理地嵌入材料研发体系,切实指导新材料开发。通过将图像智能分析模型与现有的集成计算设计框架进行结合,实现金属材料领域多模态数据的深度挖掘,进而更好地指导原型合金设计。

此外,在后续原型合金向工程构件转化过程中,可考虑应用图像识别技术对不同尺寸(原型合金、中试级、工业级)样品中微观组织进行精细分析,定量不同尺寸下组织信息差异,并将其与工艺参数信息、力学性能进行关联,揭示微观组织的尺寸效应规律并加速工程转化效率。

本文作者:沈春光、孙硕、徐伟、郑士建

作者简介:沈春光,河北工业大学高性能轧辊材料与复合成形全国重点实验室、河北工业大学天津市材料层状复合与界面控制技术重点实验室,副教授,研究方向为基于人工智能的钢铁材料计算设计;徐伟(通信作者),东北大学数字钢铁全国重点实验室,教授,研究方向为金属材料基因工程;郑士建(共同通信作者),河北工业大学高性能轧辊材料与复合成形全国重点实验室、河北工业大学天津市材料层状复合与界面控制技术重点实验室,教授,研究方向为金属材料。

文章来源:沈春光, 孙硕, 徐伟, . 人工智能在金属材料组织图像识别与定量分析中的应用[J]. 科技导报, 2025, 43(24): 4460.