LIDC-IDRI肺结节公开数据集Dicom和XML标注详解

来源：互联网发布：创建文件夹 python 编辑：程序博客网时间：2024/04/20 00:30

数据来源

　　数据集采用为 LIDC-IDRI （The Lung Image Database Consortium），该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。该数据是由美国国家癌症研究所(National Cancer Institute)发起收集的，目的是为了研究高危人群早期癌症检测。
　　该数据集中，共收录了1018个研究实例。对于每个实例中的图像，都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。在第一阶段，每位医师分别独立诊断并标注病患位置，其中会标注三中类别：
　　1) >=3mm的结节
　　2) <3mm的结节
　　3) >=3mm的非结节
　　（官网描述： “nodule > or =3 mm,” “nodule <3 mm,” and “non-nodule > or =3 mm” 详见 Summary）。
　　在随后的第二阶段中，各位医师都分别独立的复审其他三位医师的标注，并给出自己最终的诊断结果。这样的两阶段标注可以在避免forced consensus的前提下，尽可能完整的标注所有结果。

这里写图片描述

解析结果

1.图像矩阵像素信息

　　模块处理的数据为slicer rows cols大小的三维矩阵D。D中第z个切片y行x列的元素对应的位置为：
　　(z rows cols+ y cols + x) sizeof(data_type) 。
　　其中rows表示图像的行数，cols表示图像的列数，默认均为512，data_type代表数据类型，默认为short。具体见：肺结节检测说明文档。

eg: 对于病例LIDC-IDRI-0001，即为133512512的矩阵，一共133张切片，每张大小512*512，依次按顺序存入二进制文件，每个像素大小为2字节（对应C中short类型）。

2.结节区域类型标注信息

第一行： slicers rows cols data_type pixel_space_x pixel_space_y slice_thickness

slicer ： 切片个数；rows ： 矩阵行数，默认512；cols ： 矩阵列数，默认512；data_type ： 数据类型标签。为以下枚举类型中的一种（默认SHORT_TYPE，4）：enum DATA_TYPE { CHAR_TYPE, UCHAR_TYPE, INT_TYPE, UINT_TYPE, SHORT_TYPE, USHORT_TYPE, FLOAT_TYPE, DOUBLE_TYPE }；pixel_space_x ： x线列扫描步长，单位：毫米；pixel_space_y ： x线行扫描步长，单位：毫米；slice_thickness ： z轴扫描步长(即切片厚度)，单位：毫米。

其他行： Type num x1 y1 z1 x2 y2 z2 … xi yi zi ... xn yn zn

Type： “1”表示”nodules”， “2”表示”small_nodules”，”3”表示”non_nodules”；
num：该行x,y,z数字的个数（由于一个点有三个坐标，所以num为3的倍数）；
Xi, Yi, Zi：该肺结节第i个点的空间坐标，Zi为切片序号；

数据分析

文件结构

目前测试一共1012个病例数据，每个病例文件夹对应结构：
LIDC-IDRI-XXXX / Study Instance UID / Series Instance UID / .dcm .xml

XXXX : 从0000到1012；
Study Instance UID : 每个病例对应的检查实例号；
Series Instance UID ：不同检查对应的序列实例号；
.dcm ，.xml ：解析见LIDC-IDRI图像标注处理记录。

图像Dicom格式

图像文件为Dicom格式，是医疗图像的标准格式，其中除了图像像素外，还有一些辅助的元数据如图像类型、图像时间等信息。
一张CT图像有 512x512 个像素点，在dicom文件中每个像素由2字节表示，所以每张图片约512KB大小。图像中每个像素都是整数，专业名称为 Hounsfield scale 或 CT Number，是描述物质的放射密度的量化值(参考Wikipedia)。下表为常见物质的HU值。

这里写图片描述

除了像素图以外，元数据中有一些其它主要Tag (参考DICOM的常用Tag分类和说明)

这里写图片描述

Dicom重要信息说明

eg : LIDC-IDRI-0001（GE MEDICAL SYSTEM公司）中000001.dcm如下：（详见 DICOM的常用Tag分类和说明）

可以看到不同公司所做的检查存储信息的格式不太一样，但一些主要信息都还是有的：

SOP Instance UID 用于唯一区分每一张dcm切片，其中Study Instance UID，Series Instance UID上面已经提过，分别用于区分检查号和一次检查对应序列号。Modality 表示检查模态，有MRI，CT，CR，DR等；Manufacturer 表示制造商，经分析共有"GE MEDICAL SYSTEMS"（最多）， "SIEMENS"， "TOSHIBA"， "Philips"四家制造商提供数据。详见：/baina/sda1/data/lidc_matrix/information.txt；Slice Thickness 表示z方向切片厚度，经统计有GE MEDICAL SYSTEMS：2.50， 1.25，SIEMENS：0.75，1.0， 2.0，3.0，5.0，TOSHIBA：2.0， 3.0， Philips：2.0，1.0，1.5，0.9；Instance Number 表示一组切片的序列号，这个可以直接用来将切面排序，在实际CT扫描时，是从胸部靠近头的一侧开始扫描，一次扫描到肺部最下，得到的instance number依次增加，对应的Image Position中的z依次减小，而对应的Slice Location是相对位置，绝大多数情况与Image Positon中的z值相同，依次减小，部分不同公司，如TOSHIBA则Slice Location可能与Image Position中的z不同，由于是相对位置，其Slice Location值为正，并且和Instance Number的变化趋势相同。为了在实际分析是不出现错误，不能仅仅采用Slice Location来对切片进行排序，而应使用Instance Number或者Image Position中的z，此次实验使用的是Instance Number。Image Position表示图像的左上角在空间坐标系中的x,y,z坐标，单位是毫米，如果在检查中，则指该序列中第一张影像左上角坐标；Slice Location为切片z轴相对位置，单位毫米，大多情况与Image Position中的z相同，但TOSHIBA公司提供的数据里面不同，所以不能仅仅根据这个值来对所有切片进行统一排序；Photometric Interpretation：光度计的解释,对于CT图像，用两个枚举值MONOCHROME1，MONOCHROME2.用来判断图像是否是彩色的，MONOCHROME1/2是灰度图，RGB则是真彩色图，还有其他；Pixel Spacing 表示像素中心间的物理间距；Bits Allocated表示存储每一位像素时分配位数，Bits Stored 表示存储每一位像素所用位数；Pixel Representation 表示像素数据的表现类型:这是一个枚举值，分别为十六进制数0000和0001，0000H = 无符号整数，0001H = 2的补码。

HDF文件格式

在之后的数据处理中可能还会用到hdf格式的数据，下面介绍一下hdf文件格式：

HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心（NCSA）创建的，以满足不同群体的科学家在不同工程项目领域之需要。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为：

自述性：对于一个HDF文件里的每一个数据对象，有关于该数据的综合信息（元数据）。在没有任何外部信息的情况下，HDF允许应用程序解释HDF文件的结构和内容。通用性：许多数据类型都可以被嵌入在一个HDF文件里。例如，通过使用合适的HDF数据结构，符号、数字和图形数据可以同时存储在一个HDF文件里。灵活性：HDF允许用户把相关的数据对象组合在一起，放到一个分层结构中，向数据对象添加描述和标签。它还允许用户把科学数据放到多个HDF文件里。扩展性：HDF极易容纳将来新增加的数据模式，容易与其他标准格式兼容。跨平台性：HDF是一个与平台无关的文件格式。HDF文件无需任何转换就可以在不同平台上使用。

XML重要信息说明

这里写图片描述

本文转自：

http://blog.csdn.net/dcxhun3/article/details/54289598

http://www.jianshu.com/p/c4e9e18195eb

http://www.jianshu.com/p/9c1facf70b01

0 0