PPTV数据按照小类别分类

来源:互联网 发布:树莓派 linux nes 编辑:程序博客网 时间:2024/04/30 12:20

PPTV数据格式描述:

plt     int                       产品线,取值101,102,103,104,110,111,分别表示ipad,iphone,apad,aphone,windows客户端,网站uidmd5  stringchannelid       intipvalue string            ipcity  string              城市hour    stringminutesec       int      分钟秒vv      bigint                 观看次数wt_sec  double         观看时长channel_titlechinese    string  频道名称category_titlechinese   string 大分类名称subcategory_titlechinese        string        子分类名称playbackdurationseconds int  视频长度directors       string  actors  stringarea    stringyears   string    视频上线年份description     stringdt      string       日期110     b9cc9b9ae7e2faf07dddf7bdc1012aab        23662955        125.86.253.132 重庆    150701  23      3759    1       125.0  直播港澳台-20150701-希腊债务危机对中国有何影响?   焦点新闻       焦点新闻.热点播报      125     NA      NA      大陆    0      将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。110     905899d72bf06b9b14ba5b8fe4b633db        23662959        125.122.210.149 杭州    150701  23      4232    1       68.0   超级访问-20150701-四位超模倾力加盟 展现私下的另一面       综艺   综艺.大陆综艺  2255    32657,李静|81382,戴军  NA      大陆    2000    明星,是观众永远关注的焦点,《超级访问》是一档访问明星以主持人为主的大型电视娱乐脱口秀栏目。本栏目不但有曾担纲多档综艺节目的主持人李静和著名歌手兼主持人戴军共同主持,还有京城一流的制作班底,大规模投入资金倾力制作《超级访问》被业内人士誉为中国最具原创风格的娱乐谈话节目。  《超级访问》做到了推陈出新、构思巧妙、个性突出。节目每期邀请一位家喻户晓的明星,来到精心设计的演播室,接受主持人全方位的访问。节目把演播室内的明星访谈与大屏幕播放的外景采访相结合,大胆的将娱乐与谈话巧妙融合。 《超级访问》,不一样的访问!电视娱乐脱口秀明星访谈节目《超级访问》将访问进行到底,期待您的关注。101     af60ff66d2f29a998ba6e14a03893d80        23662959        119.100.35.208 黄石    150701  23      5741    1       1275.0 超级访问-20150701-四位超模倾力加盟 展现私下的另一面       综艺   综艺.大陆综艺  2255    32657,李静|81382,戴军  NA      大陆    2000   明星,是观众永远关注的焦点,《超级访问》是一档访问明星以主持人为主的大型电视娱乐脱口秀栏目。本栏目不但有曾担纲多档综艺节目的主持人李静和著名歌手兼主持人戴军共同主持,还有京城一流的制作班底,大规模投入资金倾力制作《超级访问》被业内人士誉为中国最具原创风格的娱乐谈话节目。  《超级访问》做到了推陈出新、构思巧妙、个性突出。节目每期邀请一位家喻户晓的明星,来到精心设计的演播室,接受主持人全方位的访问。节目把演播室内的明星访谈与大屏幕播放的外景采访相结合,大胆的将娱乐与谈话巧妙融合。 《超级访问》,不一样的访问!电视娱乐脱口秀明星访谈节目《超级访问》将访问进行到底,期待您的关注。110     b9cc9b9ae7e2faf07dddf7bdc1012aab        23662965        125.86.253.132 重庆    150701  23      4456    1       9.0    直播港澳台-20150701-日本修订离岛放方针  焦点新闻   焦点新闻.热点播报      375     NA      NA      大陆    0       将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。104     e4363b2de764b7a757ed702e56657943        23662965        180.140.86.225 桂林    150701  23      4602    1       375.0  直播港澳台-20150701-日本修订离岛放方针  焦点新闻   焦点新闻.热点播报      375     NA      NA      大陆    0      将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。


我们按照子分类名称对数据进行划分处理


Set<String>[] set = new HashSet[492];Map<String,Integer> iMap = new HashMap<String,Integer>();//Set<String> setx = new HashSet<String>();  //Set<String> sety = new HashSet<String>();  File file = new File("rst_150601");File outfile = new File("out_3");InputStreamReader reader;OutputStreamWriter writer;reader = new InputStreamReader(new FileInputStream(file),"utf-8");writer = new OutputStreamWriter(new FileOutputStream(outfile),"utf-8");String tempString = null;int line = 0;int cnt = 0;BufferedReader br = new BufferedReader(reader);while ((tempString = br.readLine()) != null) {    //System.out.println("line " + line + ": " + tempString);line++;if(line <= 1)continue;//System.out.println(line);//writer.write(tempString + "\n");String[] tem = tempString.split("\t");//System.out.println(tem.length);if(tem.length != 19){//writer.write(tempString + "\n");//System.out.println(line);continue;}if(!iMap.containsKey(tem[11])){iMap.put(tem[11], cnt ++);set[cnt - 1] = new HashSet<String>();set[cnt - 1].add(tempString);}else {set[iMap.get(tem[11])].add(tempString);}//setx.add(tem[9]);//sety.add(tem[9]);    //if(line == 5000000)break;}//System.out.println(tempString);try{    for(String key : iMap.keySet()){    int sid = iMap.get(key);    if(key.contains("未知")){    System.out.println(key);    key = key.split("/")[0];    }    writer = new OutputStreamWriter(new FileOutputStream(new File("./split/" + key),true),"utf-8");    for(String tKey : set[sid]){    writer.write(tKey + "\n");    }    writer.close();    }}catch (FileNotFoundException ee){ee.printStackTrace();System.out.println("here");}//System.out.println("line:"+line);reader.close();writer.close();



最后得到划分后的每个小分类文件




对于分类处理好的小数据,抽取电视剧名称列表,然后根据他获取跟多的外部资源数据。


0 0