python爬虫入门篇------爬取网页源代码
来源:互联网 发布:apache camel中文教程 编辑:程序博客网 时间:2024/06/06 00:21
需求:
爬取用户输入网站的源代码,并导入到本地文件中.
实现思路:
利用python的urllib模块,打开网址读取源代码,然后在本地创建文件,将读取的代码写入.
import urllib.requestdef grab(url): # 打开传入的网址 resp = urllib.request.urlopen(url) # 读取网页源码内容 data = resp .read() # 输入存储文件名 name = input("请定义文件名") # 打开文件 file_name = open(name, "wb") # 将代码写入文件 file_name.write(data) # 关闭文件 file_name.close() print("下载源码完成")if __name__ == '__main__': # 按照格式输入网址 web_addr = input("请输入你要抓取的网址(例如http://www.baidu.com/):") try: grab(web_addr) except: print("网址输入有误")
阅读全文
0 0
- python爬虫入门篇------爬取网页源代码
- java之爬虫:爬取网页源代码
- python爬虫之爬取网页
- Python爬虫爬取网页转码报错
- python爬虫爬取淘宝网页
- python爬虫爬取网页表格数据
- python爬虫 爬取淘宝网页数据
- Python爬虫爬取GBK网页
- python爬虫入门之爬取大学排名
- 爬虫入门(四) ajax网页的爬取
- Python入门-爬取网页图片
- [python爬虫]如何爬取特定网页的图片
- Python爬虫——爬取网页中的图片小试牛刀
- 基于python利用爬虫爬取网页教程
- Python爬虫学习笔记-网页topN条目爬取
- Python 爬虫实例——网页图片爬取
- python爬虫进阶(一):静态网页爬取
- python爬虫进阶(二):动态网页爬取
- MYSQL输入查询
- Lintcode 111. 爬楼梯
- JavaScript的闭包
- Android模拟器Genymotion安装使用教程详解
- 密码6-20位,只允许字母、数字、下划线其中两项
- python爬虫入门篇------爬取网页源代码
- bzoj 1178: [Apio2009]CONVENTION会议中心 倍增+set
- html5_ionic_侧拉练习
- sql语句where条件优化
- hdu FatMouse' Trade
- Python字典update()方法
- C语言作业@2017.11.11-11.12
- 数据结构与算法(Java)-002- Java功能复习
- 如何优雅地升级内核?