'Joe是这样背单词'第一步之——利用爬虫爬获有道字典

来源:互联网 发布:ubuntu 14 3306 开放 编辑:程序博客网 时间:2024/04/27 19:13

目的:CSDN上下载分数没有了,所以自给自足,用python写个爬虫,扒一扒有道字典的所有网页词汇数据


话不多说,代码如下:

# -*- coding:utf-8 -*-  
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib
import json
content = input(u"翻译的内容,比如'Hello':")
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=http://www.youdao.com/'
data = {}
data['type'] = 'AUTO'
data['i'] = content
data['doctype'] = 'json'
data['xmlVersion'] = '1.6'
data['keyfrom'] = 'fanyi.web'
data['ue'] = 'UTF-8'
data['typoResult'] = 'true' 
data = urllib.urlencode(data)
response = urllib.urlopen(url, data)
html = response.read()
target = json.loads(html)
result = target["translateResult"][0][0]['tgt']
print(u"翻译的结果:%s" % (target["translateResult"][0][0]['tgt']))


话不多说,测试如下:



当前完成的事情:利用有道词典的后台翻译引擎进行单词,短句或者句子的翻译

下一步该做的事:将爬虫扒获的数据整合成一个离线的单词数据集/ 或者考虑做一个利用有道后台引擎的在线字典

目标:利用深度优先搜索算法进行英语词汇的重新整合,使得背诵着背的是一串相关性极强的英语词汇网络

0 0
原创粉丝点击