LIDC-IDRI肺结节公开数据集Dicom和XML标注详解
来源:互联网 发布:创建文件夹 python 编辑:程序博客网 时间:2024/04/20 00:30
数据来源
数据集采用为 LIDC-IDRI (The Lung Image Database Consortium),该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。该数据是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期癌症检测。
该数据集中,共收录了1018个研究实例。对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。在第一阶段,每位医师分别独立诊断并标注病患位置,其中会标注三中类别:
1) >=3mm的结节
2) <3mm的结节
3) >=3mm的非结节
(官网描述: “nodule > or =3 mm,” “nodule <3 mm,” and “non-nodule > or =3 mm” 详见 Summary)。
在随后的第二阶段中,各位医师都分别独立的复审其他三位医师的标注,并给出自己最终的诊断结果。这样的两阶段标注可以在避免forced consensus的前提下,尽可能完整的标注所有结果。
解析结果
1.图像矩阵像素信息
模块处理的数据为slicer rows cols大小的三维矩阵D。D中第z个切片y行x列的元素对应的位置为:
(z rows cols+ y cols + x) sizeof(data_type) 。
其中rows表示图像的行数,cols表示图像的列数,默认均为512,data_type代表数据类型,默认为short。具体见:肺结节检测说明文档。
eg: 对于病例LIDC-IDRI-0001,即为133512512的矩阵,一共133张切片,每张大小512*512,依次按顺序存入二进制文件,每个像素大小为2字节(对应C中short类型)。
2.结节区域类型标注信息
第一行: slicers rows cols data_type pixel_space_x pixel_space_y slice_thickness
slicer : 切片个数;rows : 矩阵行数,默认512;cols : 矩阵列数,默认512;data_type : 数据类型标签。为以下枚举类型中的一种(默认SHORT_TYPE,4):enum DATA_TYPE { CHAR_TYPE, UCHAR_TYPE, INT_TYPE, UINT_TYPE, SHORT_TYPE, USHORT_TYPE, FLOAT_TYPE, DOUBLE_TYPE };pixel_space_x : x线列扫描步长,单位:毫米;pixel_space_y : x线行扫描步长,单位:毫米;slice_thickness : z轴扫描步长(即切片厚度),单位:毫米。
其他行: Type num x1 y1 z1 x2 y2 z2 … xi yi zi ... xn yn zn
Type: “1”表示”nodules”, “2”表示”small_nodules”,”3”表示”non_nodules”;
num:该行x,y,z数字的个数(由于一个点有三个坐标,所以num为3的倍数);
Xi, Yi, Zi:该肺结节第i个点的空间坐标,Zi为切片序号;
数据分析
文件结构
目前测试一共1012个病例数据,每个病例文件夹对应结构:
LIDC-IDRI-XXXX / Study Instance UID / Series Instance UID / .dcm .xml
XXXX : 从0000到1012;
Study Instance UID : 每个病例对应的检查实例号;
Series Instance UID : 不同检查对应的序列实例号;
.dcm ,.xml : 解析见LIDC-IDRI图像标注处理记录。
图像Dicom格式
图像文件为Dicom格式,是医疗图像的标准格式,其中除了图像像素外,还有一些辅助的元数据如图像类型、图像时间等信息。
一张CT图像有 512x512 个像素点,在dicom文件中每个像素由2字节表示,所以每张图片约512KB大小。图像中每个像素都是整数,专业名称为 Hounsfield scale 或 CT Number,是描述物质的放射密度的量化值(参考Wikipedia)。下表为常见物质的HU值。
除了像素图以外,元数据中有一些其它主要Tag (参考DICOM的常用Tag分类和说明)
Dicom重要信息说明
eg : LIDC-IDRI-0001(GE MEDICAL SYSTEM公司)中000001.dcm如下:(详见 DICOM的常用Tag分类和说明)
可以看到不同公司所做的检查存储信息的格式不太一样,但一些主要信息都还是有的:
SOP Instance UID 用于唯一区分每一张dcm切片,其中Study Instance UID,Series Instance UID上面已经提过,分别用于区分检查号和一次检查对应序列号。Modality 表示检查模态,有MRI,CT,CR,DR等;Manufacturer 表示制造商,经分析共有"GE MEDICAL SYSTEMS"(最多), "SIEMENS", "TOSHIBA", "Philips"四家制造商提供数据。详见:/baina/sda1/data/lidc_matrix/information.txt;Slice Thickness 表示z方向切片厚度,经统计有GE MEDICAL SYSTEMS:2.50, 1.25,SIEMENS:0.75,1.0, 2.0,3.0,5.0,TOSHIBA:2.0, 3.0, Philips:2.0,1.0,1.5,0.9;Instance Number 表示一组切片的序列号,这个可以直接用来将切面排序,在实际CT扫描时,是从胸部靠近头的一侧开始扫描,一次扫描到肺部最下,得到的instance number依次增加,对应的Image Position中的z依次减小,而对应的Slice Location是相对位置,绝大多数情况与Image Positon中的z值相同,依次减小,部分不同公司,如TOSHIBA则Slice Location可能与Image Position中的z不同,由于是相对位置,其Slice Location值为正,并且和Instance Number的变化趋势相同。为了在实际分析是不出现错误,不能仅仅采用Slice Location来对切片进行排序,而应使用Instance Number或者Image Position中的z,此次实验使用的是Instance Number。Image Position表示图像的左上角在空间坐标系中的x,y,z坐标,单位是毫米,如果在检查中,则指该序列中第一张影像左上角坐标;Slice Location为切片z轴相对位置,单位毫米,大多情况与Image Position中的z相同,但TOSHIBA公司提供的数据里面不同,所以不能仅仅根据这个值来对所有切片进行统一排序;Photometric Interpretation:光度计的解释,对于CT图像,用两个枚举值MONOCHROME1,MONOCHROME2.用来判断图像是否是彩色的,MONOCHROME1/2是灰度图,RGB则是真彩色图,还有其他;Pixel Spacing 表示像素中心间的物理间距;Bits Allocated表示存储每一位像素时分配位数,Bits Stored 表示存储每一位像素所用位数;Pixel Representation 表示像素数据的表现类型:这是一个枚举值,分别为十六进制数0000和0001,0000H = 无符号整数,0001H = 2的补码。
HDF文件格式
在之后的数据处理中可能还会用到hdf格式的数据,下面介绍一下hdf文件格式:
HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心(NCSA)创建的,以满足不同群体的科学家在不同工程项目领域之需要。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为:
自述性:对于一个HDF文件里的每一个数据对象,有关于该数据的综合信息(元数据)。在没有任何外部信息的情况下,HDF允许应用程序解释HDF文件的结构和内容。通用性:许多数据类型都可以被嵌入在一个HDF文件里。例如,通过使用合适的HDF数据结构,符号、数字和图形数据可以同时存储在一个HDF文件里。灵活性:HDF允许用户把相关的数据对象组合在一起,放到一个分层结构中,向数据对象添加描述和标签。它还允许用户把科学数据放到多个HDF文件里。扩展性:HDF极易容纳将来新增加的数据模式,容易与其他标准格式兼容。跨平台性:HDF是一个与平台无关的文件格式。HDF文件无需任何转换就可以在不同平台上使用。
XML重要信息说明
本文转自:
http://blog.csdn.net/dcxhun3/article/details/54289598
http://www.jianshu.com/p/c4e9e18195eb
http://www.jianshu.com/p/9c1facf70b01
- LIDC-IDRI肺结节公开数据集Dicom和XML标注详解
- LIDC-IDRI肺结节公开数据集Dicom和XML标注详解
- LIDC-IDRI肺结节数据集xml解释及读取
- LIDC数据集肺区分割
- DICOM命令集和数据集解析
- DICOM命令集和数据集解析
- DICOM命令集和数据集解析
- Hibernate高级技巧:数据过滤器-使用XML和标注
- 肺结节评估
- 公开课 | 用CNN识别CT影像诊断肺癌结节+从GitHub社交数据中挖掘人才+量化投资中的数据处理,3场直播连击
- JSON数据和xml数据详解
- 公开大数据集
- 公开数据集
- 公开大数据集
- 公开数据集整理
- 天池大数据竞赛第一名,上海交通大学人工智能实验室如何用AI定位肺结节
- 关于dicom参数信息和数据读写的理解
- android 解析并显示dicom文件的数据和图像
- ARM Linux启动流程分析——start_kernel前启动阶段(汇编部分)
- java中数组的定义
- 白话分布式系统
- 机器学习三要素
- 闭包分析
- LIDC-IDRI肺结节公开数据集Dicom和XML标注详解
- 未来国内中端手机市场竞争将如何演绎?
- 老男孩Linux高薪运维23期完整版
- 没有Internet访问权限如何解决
- android定时关机
- Leetcode 149
- ubuntu管理PPA (Personal Package Archive-个人软件包存档)
- (转)Android Studio:如何使用Android Studio与夜神模拟器开发调试
- spring mvc 服务端接收httpclient post 参数无法接收问题