python+mongodb初级练习
来源:互联网 发布:linux操作系统下载 编辑:程序博客网 时间:2024/05/21 11:21
将百度百科词条抓取,然后解析html,将对应词条的url提取,然后以json方式存入mongodb
# --* coding=utf-8 *--import refrom urlparse import urljoinfrom pymongo import MongoClientimport urllib2from bs4 import BeautifulSoup as bsconn = MongoClient('127.0.0.1', 27017)db = conn.mydbmycarw = db.set_craw# mycarw.insert({'name':'url'})url = 'https://baike.baidu.com/item/%E8%B5%9B%E9%97%A8%E9%93%81%E5%85%8B'request = urllib2.Request(url)html = urllib2.urlopen(request)data = html.read()# print datasoup = bs(data, 'html.parser', from_encoding='utf-8')li = soup.find_all('a', href=re.compile('/item/.*'))li=list(set(li))urllist = []name=[]for l in li: urllist.append(l['href']) name.append(l.get_text())print len(name)print len(urllist)llen=len(name)for i in range(llen): urlcomp=urljoin(url,urllist[i]) mycarw.insert({name[i]:urlcomp})
阅读全文
0 0
- python+mongodb初级练习
- Python编程练习——初级篇
- mongodb练习
- mongodb练习
- MongoDB初级学习
- MongoDB索引-初级篇
- python-初级
- python初级
- Python 练习册--存入数据库(Mongodb,MySQL)操作
- jsp初级练习1
- 迪杰斯特拉初级练习
- MySQL初级练习笔记
- java反射初级练习
- C语言初级练习
- 算法初级练习
- webdrive入门初级脚本练习以及在centos下搭建selenuim+python环境
- java 初级程序员的练习
- java 初级程序员的练习
- window.location.hash 使用说明
- 微信小程序入门实例——swiper
- 弹性布局学习笔记
- shell学习笔记
- Android多用户之UserManagerService源码分析
- python+mongodb初级练习
- (十四)异步调用
- 借助Nginx搭建反向代理服务器
- Roman to Integer-Leetcode
- 在eclipse下用maven创建web项目
- CCF 201604-1 折点计数
- 利用反射泛型编写通用的Dao
- 斯坦福I2V:一个用于以图搜视频的新闻视频数据集
- PHP-ML 学习/机器学习和PHP的神经网络