【python】2017/12/13 【≈4.5hours】

来源:互联网 发布:linux 删除自建路由表 编辑:程序博客网 时间:2024/06/09 00:31

1、enumerate 函数

enumerate(iterablestart=0)

Return an enumerate object. iterable must be a sequence, aniterator, or some other object which supports iteration. The __next__() method of the iterator returned by enumerate()returns a tuple containing a count (from start which defaults to 0) and the values obtained from iterating over iterable.

>>>
>>> seasons = ['Spring', 'Summer', 'Fall', 'Winter']>>> list(enumerate(seasons))[(0, 'Spring'), (1, 'Summer'), (2, 'Fall'), (3, 'Winter')]>>> list(enumerate(seasons, start=1))[(1, 'Spring'), (2, 'Summer'), (3, 'Fall'), (4, 'Winter')]

2、for函数的拓展使用

>>> [x*x for x in range(1,11)][1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

3、关于函数中self的意义

参考文章:http://python.jobbole.com/81921/

4、关于item的意义

5、关于函数中yield 和 return 的使用
6、item()方法
7、str.strip() and str.split
8、爬虫技巧:time.sleep()中,利用random.randint()函数拟人化
9、★request爬虫中cookies的初体验

http://www.cnblogs.com/yejinru/p/3601905.html
爬取豆瓣猎场短评并分析实例:http://python.jobbole.com/88912/

总结:

关于scrapy,总觉得自己走得快了,基础还没有打牢,尤其是python,自己其实学了一点。每次看别人的代码,总会出现很对不认识的地方,不过这次的确从别人的代码上学到了一点关于cookies的知识,打破了上次爬取豆瓣短评8页/10页的限制。这点值得庆贺。
说点不足,今天的六个小时全部泡在图书馆里,但我觉得自己学的东西实则不多,换而言之,效率不高。有的时候会有一种迷茫的感觉,但等pycharm里出现“正在爬取第11页时”,cookies终于第一次使用成功,内心无比喜悦,但看了看自己爬到的数据,无论是数据的格式,还是获得数据的途径,都是还需要大大改进的。
加油。
大笑
原创粉丝点击