'Joe是这样背单词'第一步之——利用爬虫爬获有道字典

来源：互联网发布：ubuntu 14 3306 开放编辑：程序博客网时间：2024/04/27 19:13

目的：CSDN上下载分数没有了，所以自给自足，用python写个爬虫，扒一扒有道字典的所有网页词汇数据

话不多说，代码如下：

# -*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib
import json
content = input(u"翻译的内容，比如'Hello'：")
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=http://www.youdao.com/'
data = {}
data['type'] = 'AUTO'
data['i'] = content
data['doctype'] = 'json'
data['xmlVersion'] = '1.6'
data['keyfrom'] = 'fanyi.web'
data['ue'] = 'UTF-8'
data['typoResult'] = 'true'
data = urllib.urlencode(data)
response = urllib.urlopen(url, data)
html = response.read()
target = json.loads(html)
result = target["translateResult"][0][0]['tgt']
print(u"翻译的结果：%s" % (target["translateResult"][0][0]['tgt']))

话不多说，测试如下：

当前完成的事情：利用有道词典的后台翻译引擎进行单词，短句或者句子的翻译

下一步该做的事：将爬虫扒获的数据整合成一个离线的单词数据集/ 或者考虑做一个利用有道后台引擎的在线字典

目标：利用深度优先搜索算法进行英语词汇的重新整合，使得背诵着背的是一串相关性极强的英语词汇网络

0 0