爬虫简要示例 以简书四灵传奇为例

来源:互联网 发布:图解网络硬件 百度云 编辑:程序博客网 时间:2024/06/14 09:26



示例代码如下

使用requests模块请求  使用beautifulsoup模块解析 获取每个文章的链接 然后访问


import requestsfrom bs4 import BeautifulSoupdef jianshu(url):    '''    :param url:需要请求的url列表     :return: 所有的单篇文章标题    '''    response=requests.get(url)    response=response.text    soup=BeautifulSoup(response,'html.parser')    a_list=soup.find_all(name='a',attrs={'class':'title'})    #循环获取文章链接    link_list=[]    for a in a_list:        link='http://www.jianshu.com'+a.get('href')        link_list.append(link)    return link_list#简书为异步加载 此为作者的多页链接url_list=['http://www.jianshu.com/u/3f8ece25ff82?order_by=shared_at&page={}'.format(str(i)) for i in range(0,3)]for url in url_list:    req=jianshu(url)    for i in req:        print('正在请求:... ',i)        requests.get(i)

后续补充完善

阅读全文
1 0
原创粉丝点击