LIDC-IDRI肺结节数据集xml解释及读取
来源:互联网 发布:二次元手机ar软件 编辑:程序博客网 时间:2024/04/26 06:33
LIDC-IDRI 链接
这篇博客也有介绍
下边介绍该数据集的xml格式及用python读取.
xml_path = ‘xml说明文件绝对路径’with open(xml_path, 'r') as xml_file: markup = xml_file.read()xml = BeautifulSoup(markup, features="xml")
使用 BeautifulSoup对其解析.
得到的markup内容为:
观察markup,根据xml的格式读取其内容.
提取步骤为:
一:提取患者号,患者号的标识符为< SeriesInstanceUid >
patient_id = xml.LidcReadMessage.ResponseHeader.SeriesInstanceUid.text
二:提取专家对该病例做出的诊断,标识符为< readingSession >
reading_sessions = xml.LidcReadMessage.find_all("readingSession")
三:在每一个 readingSession里边找结节信息,包括< unblindedReadNodule >和< nonNodule >
(一).先找< unblindedReadNodule >
1.
for reading_session in reading_sessions: nodules = reading_session.find_all("unblindedReadNodule") for nodule in nodules: nodule_id = nodule.noduleID.text
2.找到结节编号noduleID
nodule_id = nodule.noduleID.text
3.再找< characteristics >,如果找到,则表示此结节为大结节,则可提取 CT号,然后搜索< roi >,每个< roi >< /roi >之间即为结节的坐标信息.
< characteristics >中内容为:
内容说明为:
4.找到< roi >
rois = nodule.find_all("roi")
5.提取< roi >< /roi >中的坐标信息.
每对< roi >< /roi >中的< imageZposition >< /imageZposition >中的数据表示层位置,结节坐标位置则在每对< roi >< /roi >中的< edgeMap > < /edgeMap >中,< imageSOP_UID >< /imageSOP_UID >中的数据是每张CT图像唯一的UID标识.
6.如果只找到< roi >没有找到< characteristics >,则表示小结节,只需提取中心坐标即可.
(二).再找< nonNodule >
表示非结节,找到所需的非结节信息.
当然也可以根据< roi >< /roi >的个数来确定是属于< unblindedReadNodule >或者< nonNodule >.因为< nonNodule >里边只有一个< roi >< /roi >,而< unblindedReadNodule >里边大于1个< roi >< /roi >.
- LIDC-IDRI肺结节数据集xml解释及读取
- LIDC-IDRI肺结节公开数据集Dicom和XML标注详解
- LIDC-IDRI肺结节公开数据集Dicom和XML标注详解
- LIDC数据集肺区分割
- 肺结节评估
- Python 读取.xml数据集
- 天池大数据竞赛第一名,上海交通大学人工智能实验室如何用AI定位肺结节
- js读取xml 数据
- XML读取数据
- javascript 读取xml 数据
- Silverlight读取*.XML数据
- ExtJs 读取 Xml 数据
- 读取xml数据
- XML读取数据同步
- 读取XML的数据
- JS读取XML数据
- JS读取XML数据
- 读取xml数据
- ubuntu / uboot /源码官网
- 第10章 继承
- D
- 学习淘淘商城第七十六课(nginx负载均衡)
- 2.linux
- LIDC-IDRI肺结节数据集xml解释及读取
- C#165课的主要内容
- 机器学习实战—第1章
- Java 中的 HashMap 的工作原理是什么?
- Java基础语法(一)—标识符、关键字、常变量、数据类型
- 合并石子
- FastReport通过sql语句为数据源补空行
- jsp+servlet实现简单商品上传、商品浏览、与商品分页技术
- mark