抓取网页内容
来源:互联网 发布:js的非阻塞sleep函数 编辑:程序博客网 时间:2024/06/06 01:47
import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import java.net.HttpURLConnection;import java.net.MalformedURLException;import java.net.URL;import java.util.List;import java.util.Map;/** * 抓取web站点内容的步骤 * 1.创建一个URL资源定位对象(url)。 * 2.调用URL的openConnectioin()方法,得到HttpURLConnection对象 3. * 3.HttpURLConnection的connect()方法建立连接 * 4.getHeaderFields()获得响应的头信息 * 5.getInputStream()获得输入流对象 * @author Administrator * */public class CatchWebContent {public static void main(String[] args) {try {URL url = new URL("http://www.csdn.net/");// 返回的是URLConnection,转换为HttpURLConnectionHttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection();httpURLConnection.connect(); // 打开连接//拿到连接的头信息Map<String, List<String>> header = httpURLConnection.getHeaderFields();for (String key : header.keySet()) {System.out.println(key + ": " + header.get(key));}//InputStreamReader第二个参数为编码类型BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(httpURLConnection.getInputStream(),"utf-8"));String str = null;File file = new File("d:/catch/csdn.txt");if (!file.exists()) {file.getParentFile().mkdirs();file.createNewFile();}while ((str = bufferedReader.readLine()) != null) {BufferedWriter bufferedWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file, true)));bufferedWriter.write(str);bufferedWriter.newLine();bufferedWriter.flush();}httpURLConnection.disconnect();bufferedReader.close();} catch (MalformedURLException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}}}
返回的头信息为:
- JAVA 抓取网页内容
- 【JAVA】 抓取网页内容
- 网页内容抓取
- 网页内容抓取
- fsockopen 抓取网页内容
- JAVA 抓取网页内容
- 抓取网页内容
- lotusscript 抓取网页内容
- C# 抓取网页内容
- PHP抓取网页内容
- java 抓取网页内容
- 抓取网页内容
- 抓取网页内容
- 读取 抓取 网页内容
- 网页内容抓取
- C# 抓取网页内容
- 抓取网页内容
- php抓取网页内容
- 动态链接库和静态链接库的编译链接原理
- 8种常见的Java不规范代码
- java新特性之自动资源释放
- XPath 节点
- NSString / NSData / char* 类型之间的转换
- 抓取网页内容
- XPath 语法
- 实现propertyGrid下拉自定义窗体并且不可编辑
- 串口接收缓冲区的一点体会
- a target 在frame框架中的跳转方式
- Intent和PendingIntent的区别
- XPath 坐标轴
- XPath 操作符
- P2P UDP NAT 原理 穿透