数据抓取必须学会的三种技术

来源：互联网发布：带端口的域名解析编辑：程序博客网时间：2024/06/03 15:45

我们正处于一个大数据的时代，在这样的一个以数据为王的时代，第一步就是如何获取数据。大概的流程是这样的：通过Http客户端获取html页面，通过html页面解析工具解析html页面，获取感兴趣的数据元素，最后将解析后的数据写入数据库。Python为这几个过程都提供了很方便的库供我们调用，使得数据获取简单快捷。

HTTP客户端

Requests，这里是它的主页
这样一条语句就能获取到html页面了

html = requests.get(url, headers=headers).text

HTML页面解析器

Beautiful Soup，这里是它的主页
这样一条语句就解析好html页面了

soup = BeautifulSoup(html,"html.parser")

MySQL数据库客户端

PyMySQL，这里是它的主页，都不需要Mysql的驱动库，直接安装使用。

    con = pymysql.connect(host='localhost',                             user='root',                             password='root',                             db='test',                             charset='utf8mb4',                             cursorclass=pymysql.cursors.DictCursor)    try:        with con.cursor() as cursor:            sql = "insert into tbl_movie (title, director, director_factor, actors, actors_factor, year, country, types, rating) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)"            cursor.execute(sql, (title, director,director_factor,actors,actors_factor,year,country,types,rating))        con.commit()    finally:        con.close()

0 0