知识图谱项目札记

来源:互联网 发布:批量写淘宝宝贝卖点 编辑:程序博客网 时间:2024/06/05 13:34

时间:2017年7月10日

1.获取领域知识:

找相关领域专家获取项目所需的已经大量存在的结构化的知识数据。(别说找不到,只要有相关学科,一定能找到一些,自己去整理实在太耗费时间和精力,并且不敢保证其科学性),以作后续处理。

2. 对这些结构化的数据进行处理:

[1]对这些结构化的数据再次结构化:

按我们所需的数据结构进行重新整理。人工?还是直接使用数据库进行数据处理获得我们所需的结构数据?个人认为最好当然是使用数据库进行处理,不过如果人多的话,人工整理更可控,因为可以尽可能将数据的结构处理成我们最需要的。

要做的工作:
1.对所需数据进行拍照,并且粘贴进PDF文件中。
2.使用OCR软件:ABBYY FineReader(试用版即可)对PDF文件进行扫描识别,保存成可编辑的Excel文件。
3.对Excel中的数据进行校对。校对的同时,按照我提供的数据格式进行数据处理。

附件:数据格式

[2]对整理好的已经满足我们需求的电子化的数据进行自动抽取。

因为很多数据可能是文本描述的,而我们需要将这些文本中的数据中我们所需的实体抽取出来。目前能想到的方法是:使用正则表达式进行抽取。

目前还没有做到这里,未完,待续 。。。

原创粉丝点击