nutch2.3.1 updatejob时错误url导致崩溃
来源:互联网 发布:人,学,立,知天命 编辑:程序博客网 时间:2024/06/08 01:59
原因可能是错误的html解析出来的
在DbUpdateMapper.java的map时加个trycatch
55 @Override 56 public void map(String key, WebPage page, Context context) 57 throws IOException, InterruptedException { 58 if (Mark.GENERATE_MARK.checkMark(page) == null) { 59 if (LOG.isDebugEnabled()) { 60 LOG.debug("Skipping " + TableUtil.unreverseUrl(key) 61 + "; not generated yet"); 62 } 63 return; 64 } 65 66 String url = TableUtil.unreverseUrl(key); 67 68 scoreData.clear(); 69 Map<CharSequence, CharSequence> outlinks = page.getOutlinks(); 70 if (outlinks != null) { 71 for (Entry<CharSequence, CharSequence> e : outlinks.entrySet()) { 72 int depth = Integer.MAX_VALUE; 73 CharSequence depthUtf8 = page.getMarkers().get(DbUpdaterJob.DISTANCE); 74 if (depthUtf8 != null) 75 depth = Integer.parseInt(depthUtf8.toString()); // add here to filter error url 76 try { 77 String testUrl = TableUtil.reverseUrl(e.getKey().toString()); 78 } catch (MalformedURLException ex) { 79 LOG.warn("dbupdate,error url:" + e.getKey().toString()); 80 continue; 81 } 82 scoreData.add(new ScoreDatum(0.0f, e.getKey().toString(), e.getValue() 83 .toString(), depth)); 84 } 85 } 86 87 // TODO: Outlink filtering (i.e. "only keep the first n outlinks") 88 try { 89 scoringFilters.distributeScoreToOutlinks(url, page, scoreData, 90 (outlinks == null ? 0 : outlinks.size())); 91 } catch (ScoringFilterException e) { 92 LOG.warn("Distributing score failed for URL: " + key + " exception:" 93 + StringUtils.stringifyException(e)); 94 } 95 96 urlWithScore.setUrl(key); 97 urlWithScore.setScore(Float.MAX_VALUE); 98 pageWritable.setWebPage(page); 99 nutchWritable.set(pageWritable);100 context.write(urlWithScore, nutchWritable);101102 for (ScoreDatum scoreDatum : scoreData) {103 String reversedOut = TableUtil.reverseUrl(scoreDatum.getUrl());104 scoreDatum.setUrl(url);105 urlWithScore.setUrl(reversedOut);106 urlWithScore.setScore(scoreDatum.getScore());107 nutchWritable.set(scoreDatum);108 context.write(urlWithScore, nutchWritable);109 }110 }
0 0
- nutch2.3.1 updatejob时错误url导致崩溃
- nutch2.3.1 SolrDeleteDuplicates.java 去重时空指针崩溃
- django uwsgi 崩溃 导致502错误 超时导致504错误
- nutch2.3.1 scoring-opic 插件url评分为0 问题
- django uwsgi 崩溃 导致502错误
- crotex系列板子 烧写 zImage 出现类似 NFS配置错误 导致内核崩溃时解决方法
- 消息映射函数接口错误,导致release版崩溃!
- 内存MCE错误导致系统崩溃的问题分析
- Project Server 2010 SharePoint_AdminContent 错误导致系统崩溃的解决办法
- 内核模块里的一点错误直接导致系统崩溃
- 【已解决】onCreateViewHolder中的代码错误,导致程序崩溃
- tableView的indexPath值错误导致删除崩溃
- RecyclerView刷新时滑动列表导致崩溃
- Nutch2.3.1版本选择
- 在iOS10中使用stringWithUTF8String时字符串部分显示错误,转换失败导致string为空,程序崩溃
- URL错误导致WebLogic配置JDBC时找不到合适的驱动。
- Flex Builder中网络监视器导致“访问URL时遇到安全性错误”
- [Flex]Flex Builder中网络监视器导致“访问URL时遇到安全性错误”
- Monkey命令
- Xcode8那些事
- 自制脚本语言(12) 作用域与符号表
- Oracle学习
- 临时表与SELECT INTO、INSERT INTO SELECT
- nutch2.3.1 updatejob时错误url导致崩溃
- 二叉搜索树的创建 查找 删除
- Myeclipse2015界面化开发Swing程序(菜单栏)
- BZOJ2440: [中山市选2011]完全平方数
- python 的全局变量global变量使用
- C语言 #define 中的UL
- java使用POI获取sheet、行数、列数
- Linux 增强Tab键自动补全
- WebAppContext(嵌入Jetty学习三)