1.3.3.序列化操作

来源:互联网 发布:mac cosmetics美国官网 编辑:程序博客网 时间:2024/05/19 15:22

在程序中声明一个dict对象,里面存储着爬取的页面链接、页面的标题、页面的摘要信息:

d = dict (url=’index.html’,title=’首页’,content=’首页’)

在爬取的过程中:

1、爬取得的页面的链接会不断变化,比如把url改成了second.html;
2、程序一旦结束或者终止,程序中的内存变量会被操作系统收回;
3、不把修改过的URL存储起来,下次运行程序时,URL被初始化为index.html,又是从首页开始。
原创粉丝点击