PL/SQL实现类似spider的功能
来源:互联网 发布:土地增值税的算法. 编辑:程序博客网 时间:2024/05/17 06:25
--------------------------------------------------------------------------
-----------------------------Cryking原创------------------------------
-----------------------转载请注明出处,谢谢!------------------------
首先,我们来看一个用utl_http包来获得网页内容的一个简单示例:
注意:非DBA用户需要先赋与执行该包的权限
DECLARE req utl_http.req; resp utl_http.resp; value VARCHAR2(1024);BEGIN req := utl_http.begin_request('http://blog.csdn.net/edcvf3'); utl_http.set_header(req, 'User-Agent', 'Mozilla/4.0'); resp := utl_http.get_response(req); LOOP UTL_HTTP.read_text(resp, value);--也可以用read_line DBMS_OUTPUT.PUT_LINE('--------------'); dbms_output.put_line(value); END LOOP; utl_http.end_response(resp);EXCEPTION WHEN utl_http.end_of_body THEN utl_http.end_response(resp); when others then dbms_output.put_line(utl_http.get_detailed_sqlerrm); UTL_HTTP.END_RESPONSE(resp);--必须关闭,否则会获得错误,并且再次请求时会提示打开的连接过多END;
如上:代码比较简单,相关的请求及结果返回都已经由相关存储/函数实现了,只需掌握调用方法.
得到的结果如下:
--------------
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>流云追风 - 博客频道 - CSDN.NET</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="description" content="" />
<script src="http://static.blog.csdn.net/scripts/jquery.js" type="text/javascript"></script>
<script type="text/javascript" src="http://static.blog.csdn.net/scripts/ad.js?v=1.1"></script>
<link rel="Stylesheet" type="text/css" href="http://static.blog.csdn.net/skin/default/css/style.css?v=1.1" />
<link id="RSSLink" title="RSS" type="application/rss+xml" rel="alternate" href="/edcvf3/rss/list" />
<link rel="shortcut icon" href="/favicon.ico" />
<link type="text/css" rel="stylesheet" href="http://static.blog.csdn.net/scripts/SyntaxHighlighter/styles/blue_green.css" />
</head>
<body>
<script src="http://csdnimg.cn/pubnav/js/pub_topnav_2011.js"type="text/javascript"></script>
<di
--------------
v id="container">
<div id="header">
<div class="header">
<div id="blog_title">
<h1><a href="/edcvf3">流云追风</a></h1>
<h2>追寻编程之道</h2>
<div class="clear"></div>
</div>
<div class="clear"></div>
</div>
</div>
<div id="navigator">
<div class="navigator_bg"></div>
<div class="navigator">
... 太长了,后面的省略掉.
好了,既然可以轻松获得网页内容,那么再实现spider也比较容易了.
注:这里并没有去爬网页的具体内容,只是把某个网页内所有的网址及对应IP保存到了表里
具体代码如下:
DECLARE V_REQ UTL_HTTP.REQ; V_RESP UTL_HTTP.RESP; V_CHARSET VARCHAR2(100); V_VALUE VARCHAR2(2500); V_COUNT NUMBER := 1; v_url VARCHAR2(2000);BEGIN V_REQ := UTL_HTTP.BEGIN_REQUEST('http://www.hao123.com');--爬hao123,因为它里面的网址比较多 V_RESP := UTL_HTTP.GET_RESPONSE(V_REQ); LOOP UTL_HTTP.read_text(V_RESP, V_VALUE); if instr(UPPER(v_value), 'HREF') > 0 then loop if instr(UPPER(v_value), 'HTTP') > 0 then select regexp_substr(v_value, 'http[0-9a-zA-Z/:.]+com|cn|org|net',1,1,'i') --匹配网址,不区分大小写 into v_url from dual; --DBMS_OUTPUT.PUT_LINE(v_value); if v_url is null then exit; end if; if instr(upper(v_url), 'HTTPS') > 0 THEN v_url := REPLACE(UPPER(v_url), 'HTTPS://',''); ELSE v_url := REPLACE(UPPER(v_url), 'HTTP://',''); END IF; begin DBMS_OUTPUT.PUT_LINE(v_url);--打印出已经爬到的网址 DBMS_OUTPUT.PUT_LINE('--------------'); --插入表 insert into ip_url --用来保存爬到的网站,这里只保存了网址和IP,略加处理即可保存网页内容 (ip, urladdress, indate) select utl_inaddr.get_host_address(v_url), v_url, sysdate from dual; exception when others then NULL; end; if replace(v_value,' ','') is null then exit; end if; v_value := replace(upper(v_value), v_url, ''); else exit; end if; end loop; end if; EXIT WHEN V_COUNT >= 2000; V_COUNT := V_COUNT + 1; END LOOP; UTL_HTTP.END_RESPONSE(V_RESP);EXCEPTION WHEN UTL_HTTP.END_OF_BODY THEN UTL_HTTP.END_RESPONSE(V_RESP); when others then DBMS_OUTPUT.PUT_LINE(v_value); dbms_output.put_line(utl_http.get_detailed_sqlerrm); UTL_HTTP.END_RESPONSE(V_RESP);END;
打印的结果如下:
WWW.HAO123.COM
TV.HAO123.COM
MOVIE.HAO123.COM
MUSIC.HAO123.COM
TUAN.BAIDU.COM
XYX.HAO123.COM
FEEDBACK.HAO123.COM
S0.HAO123IMG.COM
WWW.HAO123.COM
WWW.HAO123.COM
PAN.BAIDU.COM
S0.HAO123IMG.COM
HI.BAIDU.COM
S1.HAO123IMG.COM
WWW.HAO123.COM
HI.BAIDU.COM
REG.163.COM
WWW.BAIDU.COM
WWW.HAO123.COM
MUSIC.BAIDU.COM
VIDEO.BAIDU.COM
IMAGE.BAIDU.COM
TIEBA.BAIDU.COM
ZHIDAO.BAIDU.COM
NEWS.BAIDU.COM
... 太多了,也不一一列举了
附本人已经爬到的一些网站的网页标题,如图:
接下来准备实现非默认端口(80)的网站扫描。。。
- PL/SQL实现类似spider的功能
- SQL实现类似C#的Split()函数的功能
- SQL Server实现类型Oracle 中类似Listogg的功能
- Sql 类似?: 功能的函数
- Oracle 9 中PL/SQL实现FTP功能的文件传输
- SQL里实现类似SPLIT功能
- SQL Server实现类似split功能
- 实现类似“另存为”的功能
- 怎样用PL/SQL表实现数组功能
- 怎样用PL/SQL表实现数组功能
- spider的 c#实现
- Spider的实现细节
- 类似SQL 的Group by功能
- PL/SQL Developer各个Window的功能
- SQL Server 2000实现一则按类似VB VAL函数功能排序的案例
- PL/SQL功能特点
- enum实现类似反射的功能
- 实现一个功能类似Any的类
- android 系统源码列表
- 尺度空间(Scale space)理论
- 疫苗:Java HashMap的死循环
- hadoop 0.23安装配置
- 为什么C++编译器不能支持对模板的分离式编译
- PL/SQL实现类似spider的功能
- PHP 数据类型
- Python-memcached的基本使用(python 中使用memcached简单示例)
- WPF CodeBehind 草稿
- dentry_Ext4
- hdu 2303
- 关于strlen字符数组
- 结构体在C与C++中的异同
- Node 2478301 does not exist in the cache. It may have been deleted already.