python获取文本网页
来源:互联网 发布:乐视手机怎么改mac 编辑:程序博客网 时间:2024/06/06 00:30
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:
urllib.urlopen()方法用于打开一个URL地址。
read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。
代码如下:
#coding=utf-8
import urllib
import datetime
############################
#Function get the url source
#created 2017-02-18
############################
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
#**********************main*************#
#begin timestamp
now = datetime.datetime.now()
html = getHtml("http://hz.5i5j.com/")
#end timestamp
end = datetime.datetime.now()
inter = end-now
print inter
print html
#*****************************************#
#end
此外:re.compile()可以把正则表达式编译成一个正则表达式对象.
re.findall() 方法读取html中包含 imgre(正则表达式)的数据。
urllib.urlretrieve()方法,直接将远程数据下载到本地。
通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。
PS:如何获取时间
获取时间
import datetime
获得当前时间
now = datetime.datetime.now() ->这是时间数组格式
转换为指定的格式:
otherStyleTime = now.strftime("%Y-%m-%d %H:%M:%S”)
直接相减可以求时间差。
- python获取文本网页
- 获取网页的html文本
- 利用python保存网页文本
- Python 获取网页内容
- python 获取网页header
- python 获取网页
- python--获取网页图片
- Python获取网页源码
- 获取WebView里的网页文本内容
- Python 3.2 获取中文网页
- python urllib* 获取网页信息
- Python获取网页状态码
- python 爬虫获取网页图片
- Python 爬虫:获取网页图片
- python requests获取网页乱码
- python获取网页响应时间
- 用Python获取网页数据
- Python(2):Python获取网页信息
- 算法铺子之并查集(一)
- python的正则表达式
- hive整合hbase
- 我也开始真正写博客
- FastJSON API
- python获取文本网页
- css3 加载loading图标实现
- Python正则表达式
- Flink编程模型
- PHP编译安装常见错误
- Learning Tensorflow (5)
- linux设置网络network configuration
- 什么是Docker镜像、容器和仓库?
- Java基础之字符串