爬虫_
来源:互联网 发布:股票模拟交易软件 编辑:程序博客网 时间:2024/06/05 16:28
爬取网站记录总结
1. 在打开网页的时候添加有信息
1. 方法一
from urllib import request as requesthead = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}response = request.Request('http://www.baidu.com', headers=head)html = request.urlopen(response)html = html.read().decode('utf-8')
2. 网站url有的时候是有中文的,但是你直接用python直接发送这样的url的时候,是不能打开该网站的,你需要将里面的中文进行编码
官方文档 : https://docs.python.org/3/library/urllib.parse.html
该urllib.parse模块定义了分为两大类的功能:URL解析和URL引用。
#需要将编码的模块导入from urllib import parse as parseurl = url + parse.quote(name)
3. BeautifulSoup的使用
官方网站 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
4. csv 的使用
4.1 文件的写入
import csvdists = []dists.append({'name':'name1','num':'num1'})dists.append({'name':'name2','num':'num2'})dists.append({'name':'name3','num':'num3'})with open('test.csv', 'w+', encoding='utf-8', newline='') as file: head_name = ["name", "num"] writer = csv.DictWriter(file, fieldnames=head_name) writer.writeheader() for i in dists: writer.writerow(i)
- test.csv : 目标文件
- w+ : 文件的写入形式
- encoding=’utf-8’ : 文件写入的编码方法
- newline = ” : 写入的换行方式 默认是回车
- head_name : 文件写入时的标头
4.2 文件的读取
with open('test.csv', 'r', encoding='utf-8') as file: reader = csv.DictReader(file) file_name = [row['name'] for row in reader]
5. os模块的使用
- os.chdir(path) : 更改文件的操作路径
- os.getcwd() : 得到文件的路径
6. 正则表达式的使用
阅读全文
0 0
- 爬虫_
- Python爬虫_基础
- 黑马程序员_网页爬虫
- 黑马程序员_网络爬虫
- Python_爬虫_中文乱码
- 百度贴吧_爬虫
- python爬虫_糗事百科
- 拉勾网爬虫_面向对象
- 【WebScraping】并行下载_多线程爬虫&多进程爬虫
- 黑马程序员_正则表达式(网页爬虫)
- python第二天_网络爬虫
- python第三天_网络爬虫
- python 网页爬虫_正则匹配
- 爬虫_简单下载一下网页
- Python爬虫_自动下载图片
- Python爬虫_获取贴吧内容
- 【Scrapy】学习记录2_爬虫Spider
- 爬虫模拟登陆_带验证码
- Python leetcode记录(1) -Two Sum
- 线程案例
- 最大的位或
- 炮仗的引线
- 翻转链表
- 爬虫_
- SpringMVC自定义格式化转换器
- UVa 11132 例题8-4 传说中的车(Fabled Rooks)
- Android仿IOS的Segmented Control 选项卡。
- extjs日期的转换
- c++中stringstream 类的用法及字符串与数字之间转化
- extern关键字
- Mac node已安装 但是报-bash: npm: command not found
- SpringMVC使用Ajax使用JSON传递数据