java中使用jdom生成百度新闻抓取的xml文件

来源:互联网 发布:数据挖掘工具 知乎 编辑:程序博客网 时间:2024/06/06 12:43
百度互联网新闻开放协议,详细见http://news.baidu.com/newsop.html
自己用java写了个使用jdom生成百度要求的 xml文件 的实例,生成供百度搜索引擎抓取新闻
package com.ucctv.util;import java.io.FileOutputStream;import java.io.IOException;import org.jdom.Document;import org.jdom.Element;import org.jdom.output.Format;import org.jdom.output.XMLOutputter;public class ProduceXMl {    String text  = "正文部分......";     public static void main(String[] args) throws IOException {      Document doc = new Document(); //创建空白文档           Element root = new Element("document"); //根元素,标记整个XML文件内容的开始和结束   doc.setRootElement(root); //将该元素做为根元素      root.addContent(new Element("webSite").setText("u.cctv.com"));//站点地址   root.addContent(new Element("webMaster").setText("yf@ucctv.com"));//负责人员的Email   root.addContent(new Element("updatePeri").setText("20"));//更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,                                                            //使页面上的新闻更及时地出现在百度新闻中,此处为20分钟        Element item = new Element("item");//标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。   root.addContent(item);       item.addContent(new Element("title").setText("失传的老北京口味"));//新闻标题   item.addContent(new Element("link").setText("http://u.cctv.com/html/index/chengshituijian/200806/03-7312.html"));//新闻url地址   item.addContent(new Element("description").setText(" 旧日北京有一歇后语为“甑儿糕一屉顶一屉”。" +     "曾几何时,小贩们挑着甑,走街穿巷,随蒸随卖甑儿糕,成为北京街头一景"));//(选填)新闻内容简介   item.addContent(new Element("text").setText(text));//完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。   item.addContent(new Element("image").setText("http://u.cctv.com/uploads/userup/0806/251HS46140.jpg"));//新闻正文内相关图片,                              //采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签   item.addContent(new Element("headlineImg").setText(""));//(选填)为有可能成为头条的新闻制作的头条图,采用绝对地址   item.addContent(new Element("keywords").setText("北京 文化 小吃"));//(选填)关键字   item.addContent(new Element("category").setText("城市推荐"));//(选填)新闻分类,以各自公司分类为主   item.addContent(new Element("author").setText("央视国际-旅游"));//(选填)新闻作者,可以为机构或个人   item.addContent(new Element("source").setText(""));//(选填)新闻来源,即原创媒体或其它机构    item.addContent(new Element("pubDate").setText("2008-7-1 15:56"));//新闻发布时间,精确到分钟         /*    * 格式化输出    */   XMLOutputter outp = new XMLOutputter();//用于输出jdom 文档   Format format=Format.getPrettyFormat(); //格式化文档   format.setEncoding("gbk"); //默认的编码是utf-8   outp.setFormat(format);   outp.output(doc,System.out); //输出文档   XMLOutputter XMLOut = new XMLOutputter();   XMLOut.output(doc, new FileOutputStream("test2.xml"));  } }
原创粉丝点击