数据挖掘到底哪本书强?

来源:互联网 发布:js 时间格式化函数 编辑:程序博客网 时间:2024/05/01 07:50

  

     2010年----标志性的一年,在这一年中Facebook的数据量首次超过Google。这背后暗示着社交网站的数据量已经超过搜索引擎的访问量,也彰显出了社交网站在整个互联网行业中起着举足轻重的作用。在我在看,这种情况是必然的,在互联网发展的初期,所有的一切都显得特别的简单,互联网当初的目就是为了远程通信和资源共享,当资源达到一定的量时,为了让人们能够更好的找到自己所需要的资源,便于资源检索,于是搜索引擎诞生了。但是,要想让人人都融入互联网,并且成为彼此能够交互的个体,显然仅仅有搜索引擎是不够的。想要实现人与人之间的交流和互动,在这种以目的为驱动的前提下,Facebook,Twitter等一大批社交网站随之出现也是必然的。

     由于,这些社交网站拥有庞大的用户群,每时每刻用户都在谈论着天南地北,所以数据量会出现急剧的增长,所以开始提到的标志性的一年的到来,是迟早的事情。今天,我就在此谈论一下,在社交网站数据量增长的前提下,我们都知道当今拿什么说话最算数,当然是数据,但是在这些庞大的数据背后又隐藏着哪些关系呢,作为一个洞察力敏感的公司或者个人,他们就可以利用这些为己所用。最近,我刚读了一本关于社交网站数据挖掘的书,我就在此写下我----一个技术菜鸟在读了《社交网站的数据挖掘与分析》这本书后的所感所受。
    首先,我想说的是,该书适合什么样的人。你需要一定的计算机编程基础,由于全书所有的例子使用Python语言写的,所以提前学习一些Python语言的基础语法也是必须的,当然最重要的还是你对通过社交网站进行数据挖掘和分析来洞察身边的机会感兴趣。其次,我在说下该书的大体结构,开始先讲了Phtyon开发工具的安装和怎么收集Twitter数据的收集和处理,当然这是所有关于数据挖掘项目所做的第一步。接下来的几章,说出了如何通过数据构造出社交网站的朋友网、对邮件的处理、社交网站数据的可视化。就这样开始的几章,几乎没有涉及到数据挖掘中的算法,一直从第六章开始才讲到数据挖掘常用的聚类分析算法、文本挖掘、自然语言处理(NLP),并把这一常用于处理结构语言的方法来处理社交网站的非结构化数据。最后,又以Facebook中的数据作为样本集,对其进行深度挖掘,几乎将用户所涉及到数据全部挖出,对用户进行聚类分析,又用数据透视表的形式,将分析出的结果图形化。最后一章,又简短的写了语义网的发展,以及做出了未来社交网站的数据可能会推动语义网的发展的推测。
    因为,在看这本书之前,我也在学习数据挖掘这门课程,所以,对数据挖掘的技术略有了解。本书中,写的我比较感兴趣的是书中所用的聚类分析算法。其中的概念简单的说,就是对抓取来的用户数据进行聚类,对用户进行分类,找出用户中的离群点。在我们做产品分析和推广时,离群点显得特别重要,它能告诉我们离群点的属性,根据这些具体的属性,我们就能知道应该怎样改进产品才能抓住这些离群点,而不至于用户量的流失。其次,还有对社交网站语义的分析,通过这些我们能把用户形成关系网,甚至能明确推测出现实世界中他们之间的关系,可以形成自己的语料库,进而可以形成社交网站专用的语料库这样对社交网站中的语义分析更为准确。但是,我们也知道数据挖掘中也需要有很多的数学知识,尤其是概率论和统计学中的知识,而本书中并没有提到,拿来直接使用,本书更注重需求的实现。


0 0
原创粉丝点击