抓取36氨北极社区内容
来源:互联网 发布:相机软件 编辑:程序博客网 时间:2024/04/27 16:44
private static void crawl36() {try {String urls = "http://www.36kr.com/topics/recent?page=1";String site = "http://www.36kr.com";HttpURLConnection con = getHttpURLConnection(urls);con.setRequestProperty("User-Agent","Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25");con.setRequestMethod("GET");String contentType = con.getContentType();if (contentType.indexOf("charset") == -1) {contentType = "GBK";} else {contentType = contentType.substring(contentType.indexOf("=") + 1, contentType.length());}Document document = Jsoup.parse(IOUtils.toString(con.getInputStream(), contentType));Elements elements = document.select(".infos");List<News> listNews = new ArrayList<News>();News news = null;for (Element element : elements) {Element elementUrl = element.select(".title").get(0);String url = elementUrl.getElementsByTag("a").attr("href");String title = elementUrl.getElementsByTag("a").text();String tag = element.select(".node").text();news = new News();news.setUrl(site + url);news.setTitle(title);news.setTag(tag);listNews.add(news);}System.out.println("抓取" + listNews.size() + "条");for (int i = 0; i < listNews.size(); i++) {System.out.print(listNews.get(i));}} catch (Exception e) {}}待续
0 0
- 抓取36氨北极社区内容
- [python]抓取啄木鸟社区《活学活用wxPython》内容与图片
- scrapy 抓取内涵社区
- 社区里某位同志写的一个FTP内容抓取程序
- 北极投资
- 北极雨
- 北极特快
- JAVA 抓取网页内容
- 【JAVA】 抓取网页内容
- 网页内容抓取
- 网页内容抓取
- 抓取本地文件内容
- fsockopen 抓取网页内容
- JAVA 抓取网页内容
- 抓取网页内容
- lotusscript 抓取网页内容
- C# 抓取网页内容
- PHP抓取网页内容
- elasticsearch__3__java操作之Facets 数据分组统计处理
- 暑期实验4__Intent、Bundle的使用以及ListView的应用
- java中的按值传递和按引用传递
- Linux 使用利器 screen和tmux
- js map
- 抓取36氨北极社区内容
- HDU 1325 Is It A Tree?
- 高仿 WIN8系统 磁贴点击下沉倾斜效果(selector神马都是浮云了
- ThinkPad New X1 Carbon中关闭任务栏上的触摸键盘
- 马的走法
- [ACM] hdu 1217 Arbitrage (bellman_ford最短路,判断是否有正权回路或Floyed)
- 马的走法
- 被忽略的 explicit 关键字
- 二分图最大匹配 hdoj 1045