python2.7 beautifulsoup学习使用

来源:互联网 发布:淘宝拍卖房产会可信吗 编辑:程序博客网 时间:2024/05/22 06:17

    学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本


    说人话就是正则表达式太难了,博主学不会!


    本篇只介绍Beautiful Soup的使用,不涉及安装、配置。


    Beautiful Soup的使用方法如下:


    1、创建Beautiful Soup对象


    首先导入bs4库,创建Beautiful Soup对象


     


    ?
    1
    2
    from bs4 import BeautifulSoup#导入BeautifulSoup模块
    soup = BeautifulSoup(html.decode("utf-8"))#创建BeautifulSoup对

    2、格式化输出


    官方文档实例


    ?
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    from BeautifulSoup import BeautifulSoup
    import re
     
    doc = ['<title>Page title</title>',
           '<p id="firstpara" align="center">This is paragraph <b>one</b>.',
           '</p><p id="secondpara" align="blah">This is paragraph <b>two</b>.']
    soup = BeautifulSoup(''.join(doc))
     
    print soup.prettify()
    #   <title>
    #    Page title
    #   </title>
    #   </p><p id="firstpara" align="center">
    #    This is paragraph
    #    <b>
    #     one
    #    </b>
    #    .
    #   </p>
    #   <p id="secondpara" align="blah">
    #    This is paragraph
    #    <b>
    #     two
    #    </b>
    #    .
    #   </p>

    后面再补充。。。。


0 0
原创粉丝点击