人类甲状腺组织蛋白质图像亚细胞定位预测

2022-09-27

一、引言

根据近几年的中国癌症统计数据, 甲状腺组织的癌症发病率呈现指数增长的趋势。因此, 对甲状腺组织的癌症预警系统构建的研究刻不容缓。而现在对癌症的预警系统的研究都是基于蛋白质的亚细胞定位预测。因为蛋白质是生命活动的主要承担者, 是构成一切细胞组织的重要成分。他们必须在正确的时间出现在细胞中正确的位置, 找到正确的与之结合的分子, 以行驶其功能来完成一系列微观生命活动, 一旦其中任意一个环节出现问题都将导致严重的后果。因此, 对甲状腺蛋白质亚细胞定位研究对甲状腺组织的研究和抗癌药物的研究有重大的现实意义[1]。准确掌握蛋白质亚细胞的位置信息可以深入研究蛋白质的功能, 有助于揭示蛋白质在细胞中如何实现其功能并解释其发生原因。同时还能筛选潜在的癌细胞标记物, 协助研发抗癌药。

随着成像技术的发展, 获取高分辨率的蛋白质图像变得更加容易, 从而对蛋白质亚细胞预测从氨基酸序列研究转向蛋白质图像的研究, 并结合图像理解和高效机器学习[2]开展蛋白质亚细胞预测变得更加合理。基于以上研究现状, 本文以人类甲状腺组织蛋白质化学染色图像信号为研究对象, 针对细胞图像采用Haralick纹理特征算子, 再借助于图像处理领域的高性能局部特征算子, 再经由合理的图像处理手段量化编码为可供后续预测系统所识别的有效数字化特征。尽管全局特征和局部特征强化和细化了对IHC图像的特征描述, 提升了特征空间的多样性, 这也导致了特征空间的冗余, 这种冗余会使模型中的分类器发生混淆, 因此必须进行特征降维, 经过实验的验证, 使用特征选择的降维方法更合理。设计决策层的动态阈值准则, 经由合理的迭代停止条件, 完成整个预测系统框架体系的强效和精准运转。

二、研究方案与技术线路

本文着眼于实际的社会需求, 以生物问题为导向进行理论模型设计, 技术路线如图1所示。蛋白质图像信号的亚细胞定位预测工作要处理其所具有的独特生物特征、图像信号数据量庞大、特征描述算子计算消耗大以及集成机器学习框架下决策层融合设计合理性等复杂情况, 不能简单移植现有模式识别算法因此。因此, 有针对性的研究和设计相关理论模型和算法是解决这些问题的前提与基础, 是实现精准预测蛋白质图像亚细胞位置的关键。

三、图像数据与预处理

本项目图像取自人类蛋白质图谱库 (Human Protein Atlas, HPA) HPA图像的分辨率为3000*3000*3, 用RGB格式存储。HPA为确保在获取组织图像时细胞器交叠现象, 运用了组织微阵列技术, 把某种组织制成多个切片, 并且对每个切片的某种特定的蛋白质进行染色[4]。蛋白质被染成棕色, 蛋白质被染成紫色, 如图2所示。

HPA数据库通过Reliability Score指标对图片标注的可信赖度进行监控。因此, 本项目选取了Reliability Score参数为Enhance, Supported的蛋白质图片作为基准数据集图片。由于细胞图片中存在DNA和蛋白质, 因此图片中蛋白质的染色质量水平分别被标注为High, medium, low, Not detected, 代表了细胞图片在使用免疫组织化学染色方法的情形下, 图片中蛋白质的表达程度高低。因此, 我们选取的全部图片的蛋白质染色质量均为High。最后, 我们整理的数据集情况如表1所示。

因此对于每一张HPA图片, 分离时所选取的颜色基矩阵都不相同。在本项目中, 我们选取非负矩阵分解 (Non-Negative Matrix Factorization, NMF) 的盲源信号分离方法[5]。NMF在基于整个图像强度下提供了非负的贡献。这种方法已经被证明对于信号分离方面十分有效, 特别是对于明亮区域图像中双染色的分离。原始图像是m×n×c个像素, c为RGB颜色数3.将图像写成 (m×n) ×c的列图像形式V然后用V表示V的每一行。给定一个颜色基矩阵Wc×r (因为只有两种颜色, r=2) , 将DNA与蛋白质各自分离出一个数据源, 共两个染色源[3]。我们需要找到一个矩阵H与V是相同维数, 然后将H写成最终分离后的蛋白质图片H。

我们将图像的分离阶段称为图像的预处理。首先初始化颜色基矩阵, 通过V与W*H的L2范数迭代的方式, 求取最小误差时的非负因子W和H。其中H即为我们所求的分离后图片。

四、特征提取和选择

在传统的蛋白质亚细胞位置特征 (subcellular location features, 简称SLFs) 中, Haralick纹理特征算子是基于空间灰度级共生矩阵的统计产生, 是被广泛用于蛋白质亚细胞定位预测的最有效全局特征之一。由于本项目存在需要得到图像的纹理信息问题, 所以必须引入局部特征算子对图像局部信息细节信息进行挖掘。本项目采用LBP算子。Haralick纹理特征算子[6]:在N度级样本图片中, 通过对一个确定性角度和一个确定性距离d, Haralick纹理特征算子分别从4个方向上进行共生矩阵的基本统计, 即:水平方向, 垂直方向以及正反对角线方向 (θ取值分别为0°、45°、90°、135°) , 图像在一个特定方向上被量化为13维特征, 即对角二阶距、对比度、相关性、平方和、逆差距、求和均值、方差和、和熵、熵、差熵、差分方差、相关性1度量、相关性2度量。LBP (Local Binary Pattern) [7]:局部二值模式, 是一种经典的特征描述算子。由Timo Ojala等人在1996年提出, 用于纹理特征的提取。LBP算子的定义如图3所示。用一个3*3的九宫格模板对图像的每个像素进行处理, 设中间像素值设为阈值, 比较相邻八个像素值与中间阈值的大小, 如果相邻元素像素值大于或等于中间阈值, 则标记为1, 否则标记为0.这对相邻八位数值按顺序排列进行二进制编码, 得到一个二进制数, 并将其转换为十进制赋值给当前像素, 用这个值来反映该区域的纹理信息。

五、实验结果

本文选取6个细胞器分别为:Cytosol, Endoplasmic reticulum, Golgi apparatus, Mitochondria, vesicles。我们应用了支持向量机 (SVM) 作为分类器, 它可以通过网址 (https://www.csie.ntu.edu.tw/~cjlin/libsvm/) 下载, 使用10重交叉验证, 最后得到了分类准度为Accuracy=58.53% (445/761) (classification) 的混淆矩阵, 如表2所示。

六、总结

蛋白质亚细胞的准确定位对于理解蛋白质的功能尤为关键。得益于人类蛋白质图谱数据库的建立, 我们可以获取大量的细胞图片可以作为基准数据集, 通过使用这些细胞图片能够帮助我们建立机器学习预测系统, 对蛋白质亚细胞位置进行预测。在我们的实验中, 通过选取了来自6个不同亚细胞种类的蛋白质图片 (图片中的蛋白质染色质量为High, 图片标注可信赖度为Enhance和Supported) 以及计算图片的全局特征 (Haralick特征、DNA特征) 和局部LBP特征, 然后训练SVM分类器模型, 最后对蛋白质的亚细胞位置进行预测。实验结果表明我们可以得到一个较好的结果。

摘要:近年来, 甲状腺癌发病率呈指数增长, 在社会关注度与日俱增的同时, 针对人类甲状腺组织的蛋白质亚细胞位置信息的注释已经成为生物信息学领域的研究热点。近年来, 随着成像技术的突飞猛进, 更加容易的获得高分辨率显微图片。传统的基于氨基酸序列的蛋白质亚细胞预测研究的成本昂贵、耗时长, 工作量大, 因此建立一种自动分析亚细胞模式预测系统来对蛋白质进行研究势在必行。基于这一点, 本文着眼于人类甲状腺组织蛋白质图像, 从人类蛋白质图谱库中整理出165个蛋白质中的761幅蛋白质图像的基准数据集进行实验。首先, 对蛋白质图像中的蛋白质通道与DNA通道信号分离;然后, 将分离出的蛋白质图像信号进行特征提取和特征选择, 最后, 训练基于支持向量机的分类器模型实现模式分类。实验结果表明, 分类模型的识别精度高于现有文献报道的模型, 预测准度为58.53%;另一方面, 基于图像信号的蛋白质亚细胞定位预测可以很好地以辅助或代替人工注释工作, 并具有辅助临床判断、缩短新型药物开发周期以及保障全民健康的宏观意义。

关键词:蛋白质图像,免疫组织化学染色,甲状腺组织,亚细胞定位,机器学习

参考文献

[1] 张春霆.”人与其他生物基因组若干重要问题的生物信息学研究, ”自然科学进展, 2004, vol.14, no.12, pp.1367-1374,

[2] 张学工.”生物信息学, ”2010-2011控制科学与工程学科发展报告, 2011.

[3] Murphy, R.F.Systematic Description of Subcellular Location for Integration with Proteomics Databases and Systems Biology Modeling, In Proceedings of the 2007 IEEE International Symposium on Biomedical Imaging, 2007, pp1052-1055.

[4] Uhle´n, M.;Ponten, F.Antibody-based proteomics for human tissue profiling.Mol.Cell.Proteomics, 2005, 4 (4) :384–393.

[5] Boland, M.V.and. (2001) A neural network classifier capable of recognizing the patterns of all major subcellular structures in fluorescence microscope images of He La cells.Bioinformatics, 17, 1213–1223.

[6] Nanni, L.et al. (2010a) Novel features for automated cell phenotype image classification.In:Advances in Computational Biology.Springer, New York, pp.207–213.

[7] T.Ojala, M.Pietikäinen, and D.Harwood (1994) , “Performance evaluation of texture measures with classification based on Kullback discrimination of distributions”, Proceedings of the 12th IAPR International Conference on Pattern Recognition (ICPR1994) , vol.1, pp.582-585.

上一篇:人力资源档案管理问题和应对措施探析下一篇:EXCEL在工程测量中的应用