上海链家网租房信息分析报告
来源:互联网 发布:知加偏旁组成新字 编辑:程序博客网 时间:2024/04/28 22:01
上海链家网租房信息分析报告
前言
临近房子到期,需要寻找新的栖身之所。正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情。
数据源
获取
因为链家的租房信息在不进行筛选的情况下,最多显示100页的数据,因此决定以不同区域作为筛选条件,通过python爬虫分别爬取上海不同区域的数据,最终得到20782条租房信息,虽然不是全部数据,但是用于分析应该是足够了。
处理
直接获取到的信息如下:
其中由于链家的网页地图使用的是百度地图,因此获取到的坐标信息与真实的坐标信息有所偏差,需要使用百度地图的API进行转换。而且每平方米的平均租金在分析时也需要进行使用,因此对数据进行了处理,最终数据格式如下:
热力图
通过坐标信息在地图上进行映射,可以看出大部分的房源集中在上海市中心区域,长宁区的徐汇区附近的房源最为丰富,另外在市区周边区域,房源主要集中在奉贤区、松江区、青浦区和嘉定等区域。
标题分析
在链家网上查看房源时,每条房源信息中显示的就是房源的标题,链家网的房源标题比较长,类似于一个简介,因此我尝试对爬取到的房源标题进行一个统计,看看链家网在标题中使用频率最高词有哪些。
可以看出链家的标题中,出现频率比较高的词语有楼层,人气,实地看房等,另外生活便利,地铁的出现频率也不低,可见链家网的推荐方式主要是通过简述房源信息,并说明看房便利以及交通便利来进行描述。
户型占比
户型也是我们在租房时需要考虑的一环,而什么户型的房子最多这便成了一个问题,通过对房源户型进行统计后,结果如下:
户型的种类很多,因此截取频率前六的户型进行计算,结果发现大户型房子较多,而像适合个人单租的一室户反而占比很低,因此大部分人需要进行合租才能解决自己的住房问题。
通过一个饼状图更容易了解其中的分布:
面积性价比
通过计算每平米的的月平均租金,来计算租房面积的性价比,由此来找出性价比较高的房子,因为考虑到大部分人并不会去租面积十分大的房子,因此对截取了150平以下的房源数据进行统计计算:
由图可知平均租金随着面积的增大有明显的下降,在80平到130平左右基本持平,每平米的租金在70元左右,性价比最高,可以看出整租是一个性价较高的租赁方式,赶快拉着你的小伙伴去整租吧。
小区性价比
最后我们通过每平米的月平均租金来看看小区的性价比如果,通过对这2W多条数据进行分析,得出了如下结论:
- 性价比最高TOP10:
可以看出以上小区的房源性价比是十分高的,每平米每月才需要10元左右。
- 性价比最低TOP10
性价比最低的小区,每平米的月平均租金居然高达850元左右,真是土豪的住所啊。
总结
这篇分析由于只抓取了链家网的部分数据且对数据的真实性未做核实,因此可能会导致分析结果不准确的问题。
另外在分析方面,分析的东西比较简单,无法对租房的选择进行明确的指引。
如果能抓取各大中介网站的数据并对其数据的真实有效性进行保证,同时结合租户的信息(如:公司地点,可接受的通勤时间等),也许租房的推荐问题便可以得到解决。
PS
本次分析的源码全部都已上传至github
此分析的所有数据仅用于学习、研究和交流目的,请勿用于商业目的。
- 上海链家网租房信息分析报告
- 上海租房。20160420
- 一个简单的爬虫——收集安居客上海租房信息
- 第一次上海租房的经历
- 深圳租房信息聚类与回归分析
- Python爬链家网租房信息
- 租房直通车(租房信息搜索工具)
- 有人寒假在上海实习租房不?
- 最近在上海浦东新区的租房经历
- 生活娱乐 在上海怎么租房
- 深圳租房简明分析
- Python2 Python3 爬取赶集网租房信息,带源码分析
- 爬取广州链家租房信息,并用tableau进行数据分析
- 绵世股份公开信息分析报告
- Solaris网络课程认证 and 上海租房记
- 上海这边的租房行情(浦东/张江)
- 大数据统计租房市场现状(上海篇)
- 租房
- 1334: [Baltic2008]Elect
- 百度定位官方Demo
- 初识---JVM之堆,栈,方法区
- 阿里云的ECS Linux系统配置中文语言包
- CC2640R2F 使用中发现的连接参数等问题
- 上海链家网租房信息分析报告
- 百度地图官方Demo
- ECMAScript6 学习笔记
- Android屏幕适配全攻略(最权威的官方适配指导)
- 【CSS】背景图套路一:用border-image做背景图
- 愿你出走半生,归来仍是少年——2017年半年总结(下)
- Sqite存储
- SpringCloub项目的搭建
- 随笔 (引用+)