初探Freebase和Wikidata的转换

来源:互联网 发布:数控磨床外圆量仪编程 编辑:程序博客网 时间:2024/05/01 14:58

实体映射对应关系数据在这http://storage.googleapis.com/freebase-public/fb2w.nt.gz
或者http://download.csdn.net/detail/guotong1988/9865825

如何用python读Wikidata的bz2文件?https://dumps.wikimedia.org/wikidatawiki/entities/
参考https://www.quora.com/How-are-Wikidatas-JSON-database-dumps-structured
写了下面代码

import bz2import jsonf = bz2.BZ2File("/home/gt/data/latest-all.json.bz2")line = f.readline()line1 = f.readline()line2 = f.readline()l1 = line1[:len(line1)-2]l2 = line2[:len(line2)-2]data = json.loads(l2)data = json.loads("["+l2+"]")print("!")

剩下的工作只有SimpleQuestions等QA数据集的预处理了
不应该想用http://download.csdn.net/detail/guotong1988/9865898
这个数据来替换掉SimpleQuestions里的数据,感觉用fb2w.nt文件更靠谱

原创粉丝点击