PL/SQL实现类似spider的功能

来源:互联网 发布:土地增值税的算法. 编辑:程序博客网 时间:2024/05/17 06:25

--------------------------------------------------------------------------
-----------------------------Cryking原创------------------------------
-----------------------转载请注明出处,谢谢!------------------------ 

 

首先,我们来看一个用utl_http包来获得网页内容的一个简单示例:

注意:非DBA用户需要先赋与执行该包的权限

DECLARE  req   utl_http.req;  resp  utl_http.resp;  value VARCHAR2(1024);BEGIN  req := utl_http.begin_request('http://blog.csdn.net/edcvf3');  utl_http.set_header(req, 'User-Agent', 'Mozilla/4.0');  resp := utl_http.get_response(req);  LOOP     UTL_HTTP.read_text(resp, value);--也可以用read_line     DBMS_OUTPUT.PUT_LINE('--------------');    dbms_output.put_line(value);  END LOOP;  utl_http.end_response(resp);EXCEPTION  WHEN utl_http.end_of_body THEN    utl_http.end_response(resp);    when others then    dbms_output.put_line(utl_http.get_detailed_sqlerrm);    UTL_HTTP.END_RESPONSE(resp);--必须关闭,否则会获得错误,并且再次请求时会提示打开的连接过多END;

如上:代码比较简单,相关的请求及结果返回都已经由相关存储/函数实现了,只需掌握调用方法.

得到的结果如下:

--------------
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>流云追风 - 博客频道 - CSDN.NET</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="description" content="" />
<script src="http://static.blog.csdn.net/scripts/jquery.js" type="text/javascript"></script>
<script type="text/javascript" src="http://static.blog.csdn.net/scripts/ad.js?v=1.1"></script>
<link rel="Stylesheet" type="text/css" href="http://static.blog.csdn.net/skin/default/css/style.css?v=1.1" />
<link id="RSSLink" title="RSS" type="application/rss+xml" rel="alternate" href="/edcvf3/rss/list" />
<link rel="shortcut icon" href="/favicon.ico" />
<link type="text/css" rel="stylesheet" href="http://static.blog.csdn.net/scripts/SyntaxHighlighter/styles/blue_green.css" />
</head>
<body>
<script src="http://csdnimg.cn/pubnav/js/pub_topnav_2011.js"type="text/javascript"></script>


<di
--------------
v id="container">
<div id="header">
    <div class="header">
        <div id="blog_title">
            <h1><a href="/edcvf3">流云追风</a></h1>
            <h2>追寻编程之道</h2>
            <div class="clear"></div>
        </div>
        <div class="clear"></div>
    </div>
</div>
<div id="navigator">
    <div class="navigator_bg"></div>
    <div class="navigator">

... 太长了,后面的省略掉.

好了,既然可以轻松获得网页内容,那么再实现spider也比较容易了.

注:这里并没有去爬网页的具体内容,只是把某个网页内所有的网址及对应IP保存到了表里

具体代码如下:

DECLARE  V_REQ     UTL_HTTP.REQ;  V_RESP    UTL_HTTP.RESP;  V_CHARSET VARCHAR2(100);  V_VALUE   VARCHAR2(2500);  V_COUNT   NUMBER := 1;  v_url     VARCHAR2(2000);BEGIN  V_REQ  := UTL_HTTP.BEGIN_REQUEST('http://www.hao123.com');--爬hao123,因为它里面的网址比较多  V_RESP := UTL_HTTP.GET_RESPONSE(V_REQ);  LOOP    UTL_HTTP.read_text(V_RESP, V_VALUE);    if instr(UPPER(v_value), 'HREF') > 0 then      loop        if instr(UPPER(v_value), 'HTTP') > 0 then          select regexp_substr(v_value, 'http[0-9a-zA-Z/:.]+com|cn|org|net',1,1,'i') --匹配网址,不区分大小写            into v_url            from dual;            --DBMS_OUTPUT.PUT_LINE(v_value);          if v_url is null then            exit;          end if;          if instr(upper(v_url), 'HTTPS') > 0 THEN            v_url := REPLACE(UPPER(v_url), 'HTTPS://','');          ELSE            v_url := REPLACE(UPPER(v_url), 'HTTP://','');          END IF;          begin            DBMS_OUTPUT.PUT_LINE(v_url);--打印出已经爬到的网址            DBMS_OUTPUT.PUT_LINE('--------------');            --插入表            insert into ip_url --用来保存爬到的网站,这里只保存了网址和IP,略加处理即可保存网页内容              (ip, urladdress, indate)              select utl_inaddr.get_host_address(v_url), v_url, sysdate                from dual;          exception            when others then              NULL;          end;          if replace(v_value,' ','') is null then exit; end if;          v_value := replace(upper(v_value), v_url, '');        else          exit;        end if;      end loop;    end if;    EXIT WHEN V_COUNT >= 2000;    V_COUNT := V_COUNT + 1;  END LOOP;  UTL_HTTP.END_RESPONSE(V_RESP);EXCEPTION  WHEN UTL_HTTP.END_OF_BODY THEN    UTL_HTTP.END_RESPONSE(V_RESP);  when others then    DBMS_OUTPUT.PUT_LINE(v_value);    dbms_output.put_line(utl_http.get_detailed_sqlerrm);    UTL_HTTP.END_RESPONSE(V_RESP);END;

打印的结果如下:

WWW.HAO123.COM
TV.HAO123.COM
MOVIE.HAO123.COM
MUSIC.HAO123.COM
TUAN.BAIDU.COM
XYX.HAO123.COM
FEEDBACK.HAO123.COM
S0.HAO123IMG.COM
WWW.HAO123.COM
WWW.HAO123.COM
PAN.BAIDU.COM
S0.HAO123IMG.COM
HI.BAIDU.COM
S1.HAO123IMG.COM
WWW.HAO123.COM
HI.BAIDU.COM
REG.163.COM
WWW.BAIDU.COM
WWW.HAO123.COM
MUSIC.BAIDU.COM
VIDEO.BAIDU.COM
IMAGE.BAIDU.COM
TIEBA.BAIDU.COM
ZHIDAO.BAIDU.COM
NEWS.BAIDU.COM

... 太多了,也不一一列举了


附本人已经爬到的一些网站的网页标题,如图:



接下来准备实现非默认端口(80)的网站扫描。。。



原创粉丝点击