python爬虫入门篇------爬取网页源代码

来源:互联网 发布:apache camel中文教程 编辑:程序博客网 时间:2024/06/06 00:21

需求:
爬取用户输入网站的源代码,并导入到本地文件中.
实现思路:
利用python的urllib模块,打开网址读取源代码,然后在本地创建文件,将读取的代码写入.

import urllib.requestdef grab(url):    # 打开传入的网址    resp = urllib.request.urlopen(url)    # 读取网页源码内容    data = resp .read()    # 输入存储文件名    name = input("请定义文件名")    # 打开文件    file_name = open(name, "wb")    # 将代码写入文件    file_name.write(data)    # 关闭文件    file_name.close()    print("下载源码完成")if __name__ == '__main__':    # 按照格式输入网址    web_addr = input("请输入你要抓取的网址(例如http://www.baidu.com/):")    try:        grab(web_addr)    except:        print("网址输入有误")
原创粉丝点击