爬虫技术入门(一)
来源:互联网 发布:计算机专业不想编程 编辑:程序博客网 时间:2024/06/06 10:48
1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
2.那么程序获取网页的原理到底是怎么回事呢?看下面的图:客服端首先向服务器端发出Http请求,之后服务器端返回相应的结果或者请求超时客户端自己报错。
3.java实现网页源码获取的步骤:
(1)新建URL对象,表示要访问的网址。如:url=new URL("http://www.sina.com.cn");
(2)建立HTTP连接,返回连接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();
(3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();
(4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。
4.java获取网页源码代码:
import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;public class WebPageSource { public static void main(String args[]){ URL url; int responsecode; HttpURLConnection urlConnection; BufferedReader reader; String line; try{ //生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn url=new URL("http://www.sina.com.cn"); //打开URL urlConnection = (HttpURLConnection)url.openConnection(); //获取服务器响应代码 responsecode=urlConnection.getResponseCode(); if(responsecode==200){ //得到输入流,即获得了网页的内容 reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK")); while((line=reader.readLine())!=null){ System.out.println(line); } } else{ System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode); } } catch(Exception e){ System.out.println("获取不到网页的源码,出现异常:"+e); } }}
0 0
- 爬虫技术入门(一)
- 爬虫入门(一)
- (一)爬虫入门
- python爬虫入门(一)
- 爬虫基础入门(一)
- python 入门爬虫(一)
- Python 爬虫入门(一)
- python3 爬虫技术入门
- Python爬虫笔记----爬虫技术入门(1)
- Python爬虫技术(一)--模拟登陆
- CSDN爬虫(一)——爬虫入门+数据总览
- Python爬虫总结(一)入门
- scrapy 爬虫 环境搭建入门(一)
- 网络爬虫之Beautifulsoup入门(一)
- Python爬虫入门(一)写在前面
- Python爬虫一(入门综述、基础)
- 一、python爬虫程序入门(图片下载)
- Python爬虫入门一
- POJ 2240 Arbitrage
- 安卓_侧滑
- 1013 Problem M
- sqlalchemy 使用不同文件中的数据模型
- python(二)列表,元组,循环
- 爬虫技术入门(一)
- ICS 家庭作业2.65
- 222. Count Complete Tree Nodes
- 【BZOJ4319】cerc2008 Suffix reconstruction【构造】【后缀数组】
- PostgreSQL
- HTTP Content-type 对照表___http://tools.jb51.net/table/http_content_type
- 查询数据库中为null字段的数据
- java中多线程介绍
- 网络编程知识(11)--DNS