大数据之内衣的诱惑——抓取电商网站评论的秘密

来源：互联网发布：uwp阅读软件编辑：程序博客网时间：2024/05/17 07:03

前言前段时间在知乎上看到有大神利用淘宝的评论信息，抓取购买内衣的型号和地域，分析出不同省份的女性身材指数分布。受之启发，我也动手研究了一下京东的评论信息，通过爬取京东内衣中评论数排名前四的文胸，获取用户评论信息，获得大量的数据信息，虽然离大数据的门槛还有很大差距，但是也能从中得出一些惊人的秘密。权当是一次抛砖引玉，给自己开阔一下思路，激发学习Python的热情吧！

目的获取商品评论信息，根据评论信息分析出不同地域中身材分布情况，并根据购买时间分析出销量最好的时期，以及其他意想不到的秘密。

假设对于统计来说，最重要的就是样本的代表性和随机性。我们这里抓取的只是京东内衣中评论数排名靠前的商品的用户评论信息。而且评论中还有一部分是匿名的省份信息。因此，这里我们假设所爬取的用户信息在全国地域的分布中具有随机性，而且这四件内衣的购买者具有代表性。当然，更好的做法是把全部商品的评论信息都提取出来，这也不是难事，只是时间问题。

工具1、chrome浏览器

主要用来分析网页，抓包，用到的功能是F12 的 “开发者工具”。

2、Python3.4自带的库就够用了，不需要额外的第三方库。这样的好处就是移植性更强，自由度也更大。当然也有很多人喜欢用BS4等库。

3、数据处理软件 excel等

方法

1、信息提取

1.1网站分析

在京东商城，找到按评论排名的文胸列表，如下图1所示

图1

利用F12的开发者工具分析，并查看网页源代码，可以得到网站获取评论时提交的信息如下：

http://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv3&productId=1025674073&score=0&sortType=5&page=0&pageSize=10

这就是我们爬取评论是需要构造的信息，其中红色标注的代码是需要替换的代码，我们就是通过替换这些代码来获取不同商品的全部评论信息，然后提取评论中的如下信息：

会员类型userLevelName

省份userProvince

颜色productColor

型号productSize

客户端类型userClientShow

购买时间referenceTime

评论时间creationTime

1.2代码编写

下图是部分代码，通过输入产品的ID，直接就能把该商品的全部评论提取出来，保存为CSV格式的，如下图2

图2

商品的ID就是网址中的一组数字，如图3

如图3

这是爬取的过程，图4

图4

保存好的CSV文件，图5

图5

本次抓取的评论信息一共是15549个

由于部分评论用户没有公开位置信息，所以获取到的位置信息并没有15549个，如下图6

图6

2、数据分析

我们把数据传入数据处理软件，开始可视化分析

2.1身材与地域

这是我们的主要目的，老司机开着火车过来了（呜呜呜呜~~~~(>_<)~~~~）

由于我对胸围了解不深，暂且认为胸围越小，罩杯越大的身材好，比如

75C/34C的身材比85D/38D的身材要好，因为身体瘦但是罩杯大的肯定比体型本来就胖罩杯大的身材要好。所以我们选取70C，75C和75D的数据，看看分布情况。

好了，不费话了，看图YY吧

图7，可以看出，占比较大的分别是广东、四川、北京和江苏，我认识的几个川妹子倒都是前凸后翘，身材不错，应该跟她们饮食习惯有关，四川人会吃，营养结构好，所以幺妹儿们D的比重大（而且是体型体型苗条的哦）。 <img src="./media/image7.png" width="553" height="181" />

图7

2.2销量与时间

下图显示的是销量与时间的关系，

图8可以看出2015双十一当日销量最多，其次是每年的6.18

图8

图9和图10 6.18京东购物节

图9

图10

还有一个就是2.14

图11 情人节前夕，这个也好理解，买给她，再脱掉它，这是老套路了

图11

2.3 销量与客户端

图12中，网购内衣的人群使用的客户端排行依次是安卓客户端、微信购物、iPhone客户端、QQ购物和iPad。

图12

下图是我爬取的黄金戒指的购买信息，其中客户端的分布如图13

两图对比还是有一定参考意义的：对于内衣的消费品来说，网购者大都是普通消费者，用的是安卓手机，微信社交软件高频度使用者，符合这样标签的女性，其实就在我们身边：普通的安卓手机，爱逛微信，由于收入一般，所以在网上淘内衣；对于黄金戒指这类相对高消费品来说，购买者有一定的经济基础，使用的是IPhone手机，就符合这一点，不管是自己买的，还是男朋友买的，起码需要有经济基础做铺垫。

图13

我看过一篇段子说是，微信是80，90后的，QQ是95，00后的。大部分80，90后从QQ过渡到了微信，就很少再用QQ了。95，00后不一样，他们用微信的频率并没有QQ多，这主要是由微信和QQ的不同属性造成的。

从上图客户端也能看出一些信息：内衣和金戒指在QQ客户端的销量都很小，但是其中内衣的要大于戒指的。我们简单推理一下：现在的95后，00后已经16到20岁了，基本上是在高中和大学初期，或者已经辍学打工，一方面到了已经有了自己的资金，并有了银行卡等绑定的支付手段，但是总体来说还是少部分的。对于内衣，需求量肯定大于戒指，所以从QQ客户端来看，内衣的销量大于戒指的。

2.4罩杯与销量

如下图14

图14

不同体型相同都是B罩杯销量大，一方面是部分女性对自己身体了解的并不够，所以普遍购买的偏中性均码，即B罩杯。

不幸的是，A，B罩杯占得比重太大了，CD罩杯少之又少。

随着体型从75到85，CD罩杯成上升趋势，AB成下降趋势这说明胖的人天生罩杯大，可是，这又有什么意义呢（这句话可能召骂，仅仅阐述现象，毫无歧视意义，不喜勿喷）！

后记关于抽样调查和大数据我是这样理解的：抽样调查就是在全部数据中随机抽取部分有代表性的样本进行统计学的分析；大数据处理是直接处理全部数据。

鉴于内衣网购的人群主要是年轻女性（或者是其伴侣为其购买），但穿戴者肯定是女性本人（排除极少数的奇葩，不在讨论范围），我们这个分析可以称为“网购女性的身材指数分析”。

另外这是披着大数据外衣的伪大数据，因为数据量根本没有达到大数据的千分之一、万分之一。大数据都开始按PB计算了，我这几百K的数据，只是一个思路和自娱自乐。

不班门造斧了，还望大家批评指正，讨论研究。

0 0