python用字符串操作20行代码简单爬虫入门+案例(爬取一章《三体》小说)
来源:互联网 发布:电脑运行apk软件 编辑:程序博客网 时间:2024/06/05 05:30
三体是一部超级优秀的科幻小说
所需要的简单的方法
1、#导入专用包
import urllib.request
2、try…except..
try: 语句1....except Exception as e: 语句2...尝试执行语句1,执行不成功就执行语句2
3、urlopen获取内容
response =urllib.request.urlopen(webList)#获取webList页面的内容
4、read()读取
response.read()#读取获取的内容
5、decode解码
decode('UTF-8')#用utf-8的方式解码
6、替换方法
html = html.expandtabs()#html内容替换所有的制表符为空html =html.replace(' ','')#替换掉所有的空格
7、获取长度
lenth = len(html)#获取文档的长度
8、find()查找方法
lenth = len(html)#获取文档的长度
9、字符串的截取
html[0:index2]#对整篇字符串进行截取
10、写入 open..write
writeFile =open('三体.txt','w')writeFile.write(htm)#写入文件
案例爬取一章《三体》小说
#导入专用包import urllib.request#需要连接的页面webList ='http://www.51shucheng.net/kehuan/santi/santi1/174.html'#用try尝试去连接try: response =urllib.request.urlopen(webList) #如果能成功连接,并获取内容,response就是我们所获取的那个页面except Exception as e: print('获取失败') #否则就打印出‘获取失败’html = str(response.read().decode('UTF-8'))# 把获取的内容读取出来,并且用UTF-8解码html = html.expandtabs()#替换掉所有的TAB符号html =html.replace(' ','')#替换掉所有的空格print(html)#可以打印出来预览一下,方便进行定位lenth = len(html)#获取文档的长度html = html[html.find('neirong">',0,lenth)+9:]index =html.find('跟鞋。</p>',0)+3index2 = html.find('眷恋着天空。</p>')index3 =html.find('<p>“红色联合”的战士们欢呼起来')#找到一些关键位置,获取索引,方便下边进行定位htm =str(html[0:index2]+html[index3:index])#对整篇字符串进行截取htm = htm.replace('<p>',' ')htm = htm.replace('</p>','\n')#把文中的<p></p>替换掉writeFile =open('三体.txt','w')writeFile.write(htm)#写入文件print('写入完成')
阅读全文
1 0
- python用字符串操作20行代码简单爬虫入门+案例(爬取一章《三体》小说)
- 简单爬虫入门-小说下载
- python简单爬虫代码,python入门
- Python爬虫入门案例
- Python 爬虫(获取小说)
- python正则表达式简单爬虫入门+案例(爬取猫眼电影TOP榜)
- python用BeautifulSoup库简单爬虫入门+案例(爬取妹子图)
- Python爬虫入门三
- python爬虫入门简单爬虫
- python爬虫简单入门
- python 爬虫抓小说
- Python小说爬虫
- Python爬虫入门(三)BeautifulSoup库
- 代码Python入门(三、运算符)
- 简单的小说网站爬虫--爬小说
- Python 定向爬虫入门—Python(三)
- python简单的爬虫代码
- Python爬虫的简单代码
- varnish 简单应用
- CSV文档
- chrome浏览器初始页面黑屏
- 20170906_环回地址_默认路由_主机路由
- 10个用于Web开发的最好 Python 框架
- python用字符串操作20行代码简单爬虫入门+案例(爬取一章《三体》小说)
- UVA 11292
- 【贪心】[luoguP1650]赛马
- idea 导入jeesite项目
- Java中的equals
- 德国威步加密狗wibu 破解复制模拟
- <无线自主点餐系统>html普通导航栏实现,仿宾之郎,不做商业用途
- Unity3D教你制作Bezier和Spine曲线编辑器总结
- React Native架构之Redux