爬虫_

来源:互联网 发布:股票模拟交易软件 编辑:程序博客网 时间:2024/06/05 16:28

爬取网站记录总结

1. 在打开网页的时候添加有信息

1. 方法一

from urllib import request as requesthead = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}response = request.Request('http://www.baidu.com', headers=head)html = request.urlopen(response)html = html.read().decode('utf-8')

2. 网站url有的时候是有中文的,但是你直接用python直接发送这样的url的时候,是不能打开该网站的,你需要将里面的中文进行编码

官方文档 : https://docs.python.org/3/library/urllib.parse.html
该urllib.parse模块定义了分为两大类的功能:URL解析和URL引用。

#需要将编码的模块导入from urllib import parse as parseurl = url + parse.quote(name)

3. BeautifulSoup的使用

官方网站 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

4. csv 的使用

4.1 文件的写入

import csvdists = []dists.append({'name':'name1','num':'num1'})dists.append({'name':'name2','num':'num2'})dists.append({'name':'name3','num':'num3'})with open('test.csv', 'w+', encoding='utf-8', newline='') as file:     head_name = ["name", "num"]     writer = csv.DictWriter(file, fieldnames=head_name)     writer.writeheader()     for i in dists:         writer.writerow(i)
  • test.csv : 目标文件
  • w+ : 文件的写入形式
  • encoding=’utf-8’ : 文件写入的编码方法
  • newline = ” : 写入的换行方式 默认是回车
  • head_name : 文件写入时的标头

4.2 文件的读取

with open('test.csv', 'r', encoding='utf-8') as file:    reader = csv.DictReader(file)    file_name = [row['name'] for row in reader]

5. os模块的使用

  • os.chdir(path) : 更改文件的操作路径
  • os.getcwd() : 得到文件的路径

6. 正则表达式的使用

原创粉丝点击