基于Kmean的乳腺肿块检测方法

  摘要:乳腺癌是一种常见的恶性肿瘤,早期诊断和治疗是降低乳腺癌死亡率的关键。肿块是乳腺癌在X线图像上的一个主要表现,本文提出了一种基于Kmean的乳腺肿块检测方法。该方法包括四个步骤:首先是图像预处理,该阶段包括去除背景、标记、胸肌和噪声,以及乳腺分割;其次利用Kmean方法找到感兴趣区域(ROI);然后提取能够表征肿块的特征;最后根据提取到的特征将肿块和正常组织分离开来。通过在MIAS数据库中乳腺X线图像的测试实验,得到的检测肿块的准确率为93.2%,结果表明,该方法能够有效的检测出肿块。

  引言

  乳腺癌是女性最常见的恶性肿瘤之一,严重威胁着妇女的健康甚至生命。肿块和钙化簇是乳腺癌最常见的特征。本文的目的就在于研究并提出一种能够在乳腺X线图像中自动检测出肿块的方法。一般的计算机辅助检测系统大都包括以下几个部分:首先输入原始图像;然后进行预处理;然后提取感兴趣区域(ROI);再对这些ROI进行特征提取;最后根据这些特征,经过分类,得到肿块和正常组织。大多学者注重研究如何提出乳腺图像中的可能病灶区域以及如何对这些感兴趣区域(ROI)区域进行进一步判断。

  对于感兴趣疑似病灶的提取,Matsubara等人[2]提出了一种自适应阈值技术来检测;而Petrick等人[3]则是通过一种自适应灰度加权对比度增强滤波器(DWCE)来实现的。对于ROI区域的分类,Sahiner等人[4]在提取出了感兴趣区域的纹理特征后,采用一种卷积神经网络的方法进行分类;Wei等人[5]则通过计算基于灰度共生矩阵的纹理特征,利用线性误差分类器进行分类;而Kupinsk等人[6]根据几何特征、灰度特征以及梯度特征采用一种正规化神经网络进行分类。

  检测方法

  本文提出的方法分为以下几步:(1)预处理;(2)提取感兴趣区域;(3)特征提取;(4)肿块检测。其流程图如图1所示。

  预处理

  在预处理阶段,我们手动去除了图像的背景、胸肌(斜侧位图像中存在胸肌)、标记以及噪声,并且将图像中的乳腺分割出来。如图2所示,(a)为一幅斜侧位乳腺X线原图像,(b)为经过预处理之后的图像。整个预处理过程是在医生的监督下进行的。

  乳腺分割

  在对图像进行了去除背景、胸肌、标记以及噪声后,为了更好的提取乳腺区域的特征,我们需要将乳腺区域提取出来。

  本文提取乳腺区域的方法是:首先,将图像在垂直方向上等间隔分成11份;其次,在水平方向上的每一个间隔内每隔50个像素从背景区域向乳腺区域进行搜索,直到找到离乳腺区域最近的点;然后,将每个间隔内得到的点按照三次样条插值连接起来,这样就将乳腺区域的边界找出来了;最后,根据一定的阈值将边界外的背景区域去除,以此完成乳腺区域的分割。

  提取感兴趣区域

  为了得到感兴趣区域(ROI),本文采用了无监督聚类方法Kmean。起初我们对每幅图像应用Kmean时采用的K值是不同的,是根据经验值得到的。通过这些经验值得到的结论是:如果肿块的面积比较大且灰度值比较大,则采用的K值较小,反之,如果肿块的面积比较小,则采用的K值比较大。为此,我们采用的是一种自适应K值的Kmean聚类方法。

  传统Kmean算法

  Kmeans算法[7]的工作过程如下:首先从n个数据对象任意选择K个对象作为初始聚类中心,而对所剩下的其他对象,则根据他们与这些聚类中心的相似度,分别将他们分配给与其最相似的聚类。然后,再计算每个所获新聚类中心,不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数,具体定义如下:

  其中,p代表对象空间中的一个点,mi为聚类的均值。

  改进的Kmean算法

  杨善林[8]等人构造了距离代价函数,并以距离代价最小准则求解最佳聚类数K。距离代价函数为:

  其中,m为全部样本的均值,p代表对象空间中的一个点,mi为聚类的均值

  该方法的原理是:首先,根据经验规则计算和确定最优解的上界,其中n为输入的数据个数;其次,用Kmean算法实现所有数目下的空间聚类;然后,根据距离代价函数分别计算不同聚类数目K下的F(S,K)值;最后,搜寻距离代价函数最小的F(S,K),并记下相应的K值。

  提取ROI

  由于肿块的灰度值与正常组织不同,所以我们提取的特征包括每个像素点的灰度值以及以该像素点为中心的4,8连通区域的均值,窗口内的均值。将这些特征作为Kmean的输入,K值根据改进的Kmean方法获得。根据肿块亮度比较大的特点,将每幅图像中灰度值比较大的簇提取出来,作为感兴趣区域(ROI)。

  经过Kmean聚类后得到的感兴趣区域如图3所示。其中红色曲线表示得到的感兴趣区域。由图可以看出来,提取的ROI中均存在假阳性区域。

  特征提取

  由于通过Kmean得到的ROI并不都是肿块,所以需要提取可以表征肿块的特征。形态学特征已广泛应用于医学图像的目标检测。因此,通过对得到的ROI的二值图像中的独立区域提取形态学特征,将ROI进行进一步的分类。在本文中我们主要用的特征包括:面积(Area),离心率(Eccentricity),圆形度(Circularity),可靠性(Solidity)以及占空比(Extent)。

  肿块检测

  根据经验值,肿块的面积一般在40~90000像素之间,而离心率一般大于0.3,圆形度大于0.735,可靠性大于0.79,占空比大于0.26。根据这些阈值得到的区域,我们认为是肿块。经过检测后的结果如图4所示。

  实验结果及分析

  本文为了验证提出的乳腺图像中肿块检测方法的有效性,利用临床实际图像进行了测试实验。实验数据来自英国的MIAS数据库。MIAS 数据库包含161 位患者的左右乳腺图像, 共计322 幅, 每幅图像均为8位,大小为1024*1024,包括208 幅健康图像、63 幅良性乳腺癌及51 幅恶性乳腺癌图像, 病变区域的边界已由专家标定。另外,本实验用Matlab2010a作为所提算法的仿真验证平台。

  本文在MIAS数据库中抽取了44幅含有肿块的图像作为实验数据。在对这44幅图像进行Kmean聚类后,得到的疑似区域中包含真阳性区域42个和假阳性区域232个,即平均每幅图像有5.27个假阳区域。另外,有两幅图像没有得到正确的感兴趣区域(ROI),原因是肿块在图像中的灰度值并不是最大的。如图5所示,图(a)中的红线表示医生所标注的肿块的位置,图(b)中的红线表示经过Kmean聚类后的ROI。

  经过肿块检测后,得到的肿块个数是41个,假阳性区域为0.18个/幅。因此,本文所提方法的准确率为41/44=93.2%,能够有效的检测出乳腺图像中的肿块。

  结论

  乳腺癌是一种严重威胁妇女生命健康的恶性肿瘤,只有尽早的发现并治疗,才有可能使患者得到救治。本文提出了一种基于Kmean的肿块检测方法。首先利用Kmean获得感兴趣区域,然后利用肿块的形态特征将肿块和正常组织分离开来,其准确率为93.2%,与传统方法相比具有一定的优势。

  参考文献:

  [1] 丁丽央,陈坤,沈高飞等.乳腺癌危险因素病例对照研究[J].中国慢性病预防与控制,1998.6,(6):283-285

  [2] T.Matsubara, H.Fujita, T.Endo, et al. Development of Mass Detection Algorithm Based on Adaptive Thresholding Technique in Digital Mammograms[J].Proc.3rd Int. Workshop on Digital Mammography.1996:391-396

  [3] N.Petrick, H.P.Chan, B.Sahiner, et al. An Adaptive Density-Weighted Contrast Enhancement Filters for Mammographic Breast Mass Detection[J]. IEEE Trans. Med. Imag. 1996,15,(1):59-67

  [4] B. Sahiner, H.-P.Chan, N. Petrick, et al. Classification of Mass and Normal Breast Tissue: a Convolution Neural Network Classifier with Spatial Domain and Texture Images.[J] IEEE Trans. Med. Imag. 1996.15,(5):598-610

  [5] D. Wei, H.P.Chan, M.A.Helvie, et al. Classification of Mass And Normal Breast Tissue on Digital Mammograms: Multiresolution Texture Analysis[J]. Medical Physics. 1995,22,(5):1501-1513

  [6] M.A.Kupinski and M.L.Giger. Investigation of Regularized Neural Networks for the Computerized Detection of Mass Lesions in Digital Mammograms[C]. Proceedings of the IEEE Engineering Medicine and Biology Conference.IEEE.1997:1336-1339

  [7] L McLaughlin. Automated Programming the Next Wave of Developer Power Tools[J]. Journal of the ACM, 2003, 50,(1):41-57

  [8] 杨善林,李永森,胡笑旋,潘若愚.K-means算法中的K值优化问题研究[J].系统工程理论与实践,,2006,(02)

  王梦珍 刘立 张惠慧 天津大学电子信息工程学院(天津300072)

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: