机器学习|机器学习系统,需要从图像计算出的数值特征

机器学习|机器学习系统,需要从图像计算出的数值特征

文章图片

机器学习|机器学习系统,需要从图像计算出的数值特征

文章图片

机器学习|机器学习系统,需要从图像计算出的数值特征

文章图片


迪康最初的重点是在 2 个设备之间传输图像数据;因此 , 原始规范中不包含文件格式 。 即使在今天 , 大部分迪康标准都侧重于图像数据的传输而不是存储 。 然而 , 对于如何存储图像数据 , 有一个 迪康标准 , 它本质上是标题和正文的序列化 。 大多数情况下 , 每个二维图像都存储为单独的迪康文件 , 尽管多维和多时间点图像都存在标准 。 这些字母格式的采用一直很缓慢 。 特别是在这些多维格式存在之前 , 医学成像研究人员开发了自己的图像存储格式 。 早期流行的格式之一称为analyze23 格式 。 它有一个用于描述图像数据的标题信息文件 , 而另一个文件是实际的像素数据 。 神经影像信息学技术倡议 格式扩展了分析格式以在标题中提供更多信息 , 并将 2 个组件连接到 1 个文件中 。 还有其他格式 , 例如 mhd 和 nrrd , 它们与 NIfTI 类似 , 并且由一些特定的软件包支持 。


机器学习系统需要从图像计算出的数值特征 。当将 1 个示例的多个此类值放在一起时 , 它们被称为特征向量 。对于要学习的系统 , 必须为每个示例给出答案 , 并且必须给出合理数量的示例 。所需的数量取决于特征中信号的强度以及使用的机器学习方法 。特征是机器学习的真正起点 。在医学图像的情况下 , 特征可能是实际像素值、边缘强度、区域中像素值的变化或可从像素计算的其他值 。也可以使用非图像特征 , 例如患者的年龄以及实验室测试的结果是阳性还是阴性 。例如 , 当所有这些特征组合在一起时 , 这称为特征向量或输入向量 。


尽管这些特征听起来像是可以简单地将原生像素值用作特征 , 但实际上这种情况很少见 。强度通常是矢量的 1 部分 , 但通常会使用其他特征 , 例如边缘强度、区域强度、区域纹理等 。确定应该使用什么以及如何从医学图像中计算这些是特征工程 。良好的特征工程需要了解医学图像属性以及可以提取可能有用的特征的图像处理算法的知识 。
【机器学习|机器学习系统,需要从图像计算出的数值特征】

一般来说 , 机器学习受益于为每个示例提供更多数据以学习任务 。 然而 , 情况也是如此 , 包括无助于进行预测的特征或与其他特征重叠可能会导致性能下降 。 因此 , 通常希望删除非贡献特征以及那些没有显着贡献的特征 , 这一过程称为特征缩减和特征选择 。 特征缩减具有降低推理时计算成本的额外好处 。 用于实现特征缩减的方法有 3 类:过滤器方法、包装器方法和嵌入方法 。 基于过滤器的方法使用一些度量来确定给定特征的独立预测程度 , 并选择那些最具预测性同时又独立于其他特征的特征 。 皮尔逊相关和卡方是两种流行的过滤方法 。 包装器方法搜索那些在删除某些功能时导致性能降低最少的功能 。 随着包装器方法的进行 , 它会不断尝试删除特征 , 删除那些不可预测或与其他特征显着重叠的特征 。 一些学习方法内置了特征缩减 , 因此嵌入了术语 。 嵌入式方法的示例包括套索和随机森林 , 其中训练过程包括删除不会显着提高性能的特征 。



在讨论实际的机器学习技术之前 , 应该解决术语模型的使用 。模型可以指机器学习方法的一般形态 , 例如决策树或支持向量机 , 也可以指深度学习网络的具体形式 。模型也可以指机器学习工具的训练版本 , 因此读者必须从上下文中推断出模型的含义是调查者的意思 。因为本文没有描述任何经过训练的版本 , 所以模型总是指架构而不是经过训练的版本 。 逻辑回归是一种成熟的技术 , 尽管它的名字 , 它更普遍地用作分类器 。逻辑回归模型具有固定数量的参数 , 这些参数取决于输入特征的数量 , 并且它们输出分类预测 。它类似于线性回归 , 其中几个点被拟合到一条线上 , 从而最小化诸如均方误差 (MSE) 之类的函数 。逻辑回归将数据拟合到从 0 到 1 的 函数 , 并且当输出小于 0.5 时 , 将示例分配给一个类 , 否则它是另一个 。决策树之所以得名 , 是因为它们会做出一系列二元决策 , 直到做出最终决策 。 在最简单的情况下 , 尝试了一系列值 , 并且最佳阈值是获得最多情况正确的阈值 。 通常只有 1 个这样的分支对于实际用途来说太简单了 。 训练过程包括确定对哪个特征做出决定和标准是什么 。 用于选择特征的度量通常是分类决策树的基尼指数或熵 。 或回归树的平均误差或 MSE 。 这些指标都集中在寻找最能提高预测效果的特征上 。 一旦确定了该特征 , 就会计算阈值/决策标准 。 这个寻找特征和标准的过程被递归地应用于每个组 , 这些组是由应用分割产生的 , 直到满足某个停止标准 。 决策树的一个重要优点是它们易于解释 。 尽管其他机器学习模型接近于黑匣子 , 但决策树提供了一种图形和直观的方式来理解 ML 模型的作用 。