PPTV数据按照小类别分类
来源:互联网 发布:树莓派 linux nes 编辑:程序博客网 时间:2024/04/30 12:20
PPTV数据格式描述:
plt int 产品线,取值101,102,103,104,110,111,分别表示ipad,iphone,apad,aphone,windows客户端,网站uidmd5 stringchannelid intipvalue string ipcity string 城市hour stringminutesec int 分钟秒vv bigint 观看次数wt_sec double 观看时长channel_titlechinese string 频道名称category_titlechinese string 大分类名称subcategory_titlechinese string 子分类名称playbackdurationseconds int 视频长度directors string actors stringarea stringyears string 视频上线年份description stringdt string 日期110 b9cc9b9ae7e2faf07dddf7bdc1012aab 23662955 125.86.253.132 重庆 150701 23 3759 1 125.0 直播港澳台-20150701-希腊债务危机对中国有何影响? 焦点新闻 焦点新闻.热点播报 125 NA NA 大陆 0 将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。110 905899d72bf06b9b14ba5b8fe4b633db 23662959 125.122.210.149 杭州 150701 23 4232 1 68.0 超级访问-20150701-四位超模倾力加盟 展现私下的另一面 综艺 综艺.大陆综艺 2255 32657,李静|81382,戴军 NA 大陆 2000 明星,是观众永远关注的焦点,《超级访问》是一档访问明星以主持人为主的大型电视娱乐脱口秀栏目。本栏目不但有曾担纲多档综艺节目的主持人李静和著名歌手兼主持人戴军共同主持,还有京城一流的制作班底,大规模投入资金倾力制作《超级访问》被业内人士誉为中国最具原创风格的娱乐谈话节目。 《超级访问》做到了推陈出新、构思巧妙、个性突出。节目每期邀请一位家喻户晓的明星,来到精心设计的演播室,接受主持人全方位的访问。节目把演播室内的明星访谈与大屏幕播放的外景采访相结合,大胆的将娱乐与谈话巧妙融合。 《超级访问》,不一样的访问!电视娱乐脱口秀明星访谈节目《超级访问》将访问进行到底,期待您的关注。101 af60ff66d2f29a998ba6e14a03893d80 23662959 119.100.35.208 黄石 150701 23 5741 1 1275.0 超级访问-20150701-四位超模倾力加盟 展现私下的另一面 综艺 综艺.大陆综艺 2255 32657,李静|81382,戴军 NA 大陆 2000 明星,是观众永远关注的焦点,《超级访问》是一档访问明星以主持人为主的大型电视娱乐脱口秀栏目。本栏目不但有曾担纲多档综艺节目的主持人李静和著名歌手兼主持人戴军共同主持,还有京城一流的制作班底,大规模投入资金倾力制作《超级访问》被业内人士誉为中国最具原创风格的娱乐谈话节目。 《超级访问》做到了推陈出新、构思巧妙、个性突出。节目每期邀请一位家喻户晓的明星,来到精心设计的演播室,接受主持人全方位的访问。节目把演播室内的明星访谈与大屏幕播放的外景采访相结合,大胆的将娱乐与谈话巧妙融合。 《超级访问》,不一样的访问!电视娱乐脱口秀明星访谈节目《超级访问》将访问进行到底,期待您的关注。110 b9cc9b9ae7e2faf07dddf7bdc1012aab 23662965 125.86.253.132 重庆 150701 23 4456 1 9.0 直播港澳台-20150701-日本修订离岛放方针 焦点新闻 焦点新闻.热点播报 375 NA NA 大陆 0 将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。104 e4363b2de764b7a757ed702e56657943 23662965 180.140.86.225 桂林 150701 23 4602 1 375.0 直播港澳台-20150701-日本修订离岛放方针 焦点新闻 焦点新闻.热点播报 375 NA NA 大陆 0 将一天最主要、最实用的资讯进行有效地编排整理传递给受众,既满足了听众对于信息的渴望,同时也希望对听众给予更多的帮助。
我们按照子分类名称对数据进行划分处理
Set<String>[] set = new HashSet[492];Map<String,Integer> iMap = new HashMap<String,Integer>();//Set<String> setx = new HashSet<String>(); //Set<String> sety = new HashSet<String>(); File file = new File("rst_150601");File outfile = new File("out_3");InputStreamReader reader;OutputStreamWriter writer;reader = new InputStreamReader(new FileInputStream(file),"utf-8");writer = new OutputStreamWriter(new FileOutputStream(outfile),"utf-8");String tempString = null;int line = 0;int cnt = 0;BufferedReader br = new BufferedReader(reader);while ((tempString = br.readLine()) != null) { //System.out.println("line " + line + ": " + tempString);line++;if(line <= 1)continue;//System.out.println(line);//writer.write(tempString + "\n");String[] tem = tempString.split("\t");//System.out.println(tem.length);if(tem.length != 19){//writer.write(tempString + "\n");//System.out.println(line);continue;}if(!iMap.containsKey(tem[11])){iMap.put(tem[11], cnt ++);set[cnt - 1] = new HashSet<String>();set[cnt - 1].add(tempString);}else {set[iMap.get(tem[11])].add(tempString);}//setx.add(tem[9]);//sety.add(tem[9]); //if(line == 5000000)break;}//System.out.println(tempString);try{ for(String key : iMap.keySet()){ int sid = iMap.get(key); if(key.contains("未知")){ System.out.println(key); key = key.split("/")[0]; } writer = new OutputStreamWriter(new FileOutputStream(new File("./split/" + key),true),"utf-8"); for(String tKey : set[sid]){ writer.write(tKey + "\n"); } writer.close(); }}catch (FileNotFoundException ee){ee.printStackTrace();System.out.println("here");}//System.out.println("line:"+line);reader.close();writer.close();
最后得到划分后的每个小分类文件
对于分类处理好的小数据,抽取电视剧名称列表,然后根据他获取跟多的外部资源数据。
0 0
- PPTV数据按照小类别分类
- 如何将json数据按照类别保存到excel中
- PPTV
- python下根据csv将数据集按照类别分文件夹放置
- 038.category 分类/类别
- 038.category 分类/类别
- 类别(分类)
- Keras实现小数量集图片分类——6类别Birds数据集分类
- PPTV大数据基础平台升级总结
- 大数据入门——新闻文本数据类别预测(朴素贝叶斯分类器)
- 大数据入门——Iris数据集类别预测(K近邻分类器:KNN)
- [小技巧] 解决CSDN博客 类别管理/文章分类 批量移动管理问题
- [小技巧] 解决CSDN博客 类别管理/文章分类 批量移动管理问题
- 使用朴素贝叶斯分类器对新闻文本数据进行类别预测
- 使用K近邻分类器对鸢尾花数据进行类别预测
- 分类(类别)和扩展
- Categroy(分类或类别)
- 分类(类别)的应用 Category
- oracle存储过程if-else if-else
- spring beans源码解读之 ioc容器之始祖--DefaultListableBeanFactory
- MySQL技术之旅-白话点性能上的事
- [Oracle备课资料]一个有趣的SQL:根据登录日志,求系统无人登录时间
- Java结合中的HashSet
- PPTV数据按照小类别分类
- 如何:在Android应用中加入广告方法步骤!
- Live555用做RTSPClient时,利用RTP时间戳进行音视频同步的解决方案(必须有RTCP支持才可行)
- 在android中使用POSIX线程
- SVN分支和标记用法
- 程序员的自我修养——链接,装载与库(第1,2部分)
- linear regression example
- 抓包工具:Fiddler 2-强大效能之二 AutoResponder
- 剑指offer在线编程题汇总与讲解(part 1)