java 用jsoup爬数据
来源:互联网 发布:网络包年维护服务 编辑:程序博客网 时间:2024/05/22 06:35
其中cookie是用fidder找到:
package com.lm.test;import org.jsoup.Connection;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;//import com.ig.common.utils.*;import org.jsoup.Connection;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements;//import org.junit.Test;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java.io.UnsupportedEncodingException;import java.text.SimpleDateFormat;import java.util.Date;public class JsoupApiTest {public static void testGame() {//登陆//String url = "http://www.ysdqkh.com/Student/LoginPass.asp";//SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");//Connection.Response res = null;//try {//res = Jsoup//.connect(url)//.data("TstNumber", "4306231989xxxx", "TstPassword",//"400xxxx").method(Connection.Method.POST).execute();//} catch (IOException e) {//e.printStackTrace();//}//String sessionId = res.cookie("StudentId"); // StudentId=14387 Cookie://// ASPSESSIONIDSCAAQADA=LGHEAEEBIJAGGBMNJDPMLHPF;//// StudentId=14387try {//File file = new File("h:/血液内科.txt");//File file = new File("h:/心血管内科.txt");//File file = new File("h:/呼吸内科.txt");File file = new File("h:/风湿免疫内科.txt");//int ye_count=7;//7页//int ye_count=9;//心血管内科//int ye_count=6;//呼吸内科int ye_count=1;//风湿免疫内科// if file doesnt exists, then create itif (!file.exists()) {file.createNewFile();} FileOutputStream fos=new FileOutputStream(file); OutputStreamWriter osw=new OutputStreamWriter(fos, "UTF-8"); BufferedWriter bw=new BufferedWriter(osw); for (int i = 1; i <= ye_count; i++) { Document objectDoc = Jsoup.connect(//"http://www.ysdqkh.com/Student/PracticePreview.asp?o_id=4&q_id=407&pn="+i)//血液内科//"http://www.ysdqkh.com/Student/PracticePreview.asp?o_id=4&q_id=406&pn="+i)//心血管内科//"http://www.ysdqkh.com/Student/PracticePreview.asp?o_id=4&q_id=401&pn="+i)//呼吸内科 "http://www.ysdqkh.com/Student/PracticePreview.asp?o_id=4&q_id=400&pn="+i)//风湿免疫内科.cookie("StudentId", "14387").get();Elements links = objectDoc.select("tr[align]"); // 带有href属性的a元素// Elements links =// doc.select("a[href]");for (Element link : links) {System.out.println(link.text()); bw.write(link.text()+"\t\n");}} //注意关闭的先后顺序,先打开的后关闭,后打开的先关闭 bw.close(); osw.close(); fos.close();//System.out.println(objectDoc);} catch (Exception e) {e.printStackTrace();}}public static void main(String[] args) {testGame();}}
阅读全文
0 0
- java 用jsoup爬数据
- java Jsoup 爬取网页数据
- Java抓取网页数据-----Jsoup
- JAVA抓取网站数据-----JSOUP
- jsoup爬取网页数据
- JAVA 利用Jsoup 在网络获取数据
- JAVA jsoup
- Jsoup爬取网页上表格数据
- Jsoup爬数据+设置代理IP
- Fiddler+JSoup爬取现代汉语语料库数据
- Android Jsoup 爬取网页数据
- java爬取国内飞机航班轨迹数据jsoup的探索
- Java爬虫--利用HttpClient和Jsoup爬取博客数据并存入数据库
- 用Jsoup解析静态网页数据
- 用Jsoup包抓取网页数据
- CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据
- CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据
- Jsoup简介——使用Java抓取网页数据
- React Doc 简单摘要 (三)
- 结构体,数组,指针,地址
- SPOJ 1812 多模式LCS
- Android WebView的使用
- linux安装git
- java 用jsoup爬数据
- 通过generator-esri-appbuilder-js自定义Web Appbuilder微件()
- Android源码修改所了解的默认语言及默认时区对应表
- caffe基础-13AlexNet模型bvlc_reference_caffenet的测试
- Theano dimshuffle函数用法
- 第四周项目(2)-建立链表的算法库
- 扫地僧身份解析
- pop的实际应用
- oracle之触发器(trigger)