4.12-4.28:网页抓取与android简单游戏开发体会
来源:互联网 发布:阿里云win404 编辑:程序博客网 时间:2024/05/16 08:36
4.12—4.19
朋友毕设需要“http://demohour.com/”网站的项目信息,这个网站是个众筹网站就是说一些项目需要做前期推广和资金筹措的,就可以将项目放在这个网站上。我需要做的工作是抓取每个项目的所有评论信息,并将所有数据写入excel文件中。
用到的工具:IE浏览器+搜狗浏览器+Fiddler。这里分析网页什么的就不多说了。我需要获取数据的网页有个特点:项目首页+若干子页面(网址不变)如http://www.demohour.com/forums/project-340967,如下图(在网页的最下方)。
此处的解决办法:首先分析该项目首页以得到子页面数目,将首页数据全部获取之后,再逐个分析子页面。一开始怎么也没办法子获取页面,后来仔细用Fiddler抓包比对,终于发现在java中需设置
conn.setRequestProperty("Accept", "*/*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript");
就这样问题解决。
但随后发现,程序运行检查5000个项目编号,需要运行的时间竟然达到一个小时,该网站有几十万个项目,而期间该程序的cpu占用率不到1%,应为太多的写操作,I/O频繁切换,进而想到用多线程提高并发。具体做法:内存开辟缓冲区(数组)存放网页数据,存放100个项目的网页数据,满了之后批量分析数据,再批量写入。bingo!解决
4.19~4.25
android小游戏:连连看,帮助外国朋友学汉语。如图,需要进一步完善,联机和联网功能没能完美实现。
0 0
- 4.12-4.28:网页抓取与android简单游戏开发体会
- Android开发_Jsoup抓取网页信息
- lua 最简单 网页抓取
- java简单抓取网页源代码
- 网页抓取与放屏蔽
- android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)
- php网页游戏开发教程三(简单程序应用)
- 网页游戏开发入门教程三(简单程序应用)
- Android BLE开发的一些体会与总结
- 网页游戏开发入门教程
- 网页游戏开发入门教程
- 网页游戏开发技术
- 网页游戏开发技术
- 网页游戏开发教程
- Android开发-一个简单的五子棋游戏
- Android开发简单的2048游戏
- 【py/pyspider抓取】进行简单的静态网页抓取
- HttpClient抓取网页内容简单介绍
- linux杂谈(十一):LDAP服务器的搭建
- 程序编写完没但运行结果有多出的
- c/c++常见问题收集。
- JAVA如何把一个float四舍五入到小数点后2位,4位,或者其它指定位数.
- FFMPEG结构体分析:AVIOContext
- 4.12-4.28:网页抓取与android简单游戏开发体会
- 计算指定时间与当前的时间差
- matlab标定工具箱图片导入问题(已解决)
- Linux关闭yum更新方法
- 双中心同步,httpclient,线程池异步请求
- UI自动化测试系列之TestNG--------TestNG的parallel属性
- 执行mount命令时找不到介质或者mount:no medium found的解决办法
- Intellij IDEA 的使用
- 《重构-改善既有代码的设计》读书笔记