2015-12-30

来源:互联网 发布:洪恩软件开天辟地6 编辑:程序博客网 时间:2024/05/21 06:13

今天是我在CSDN开通博客的第一天,因为我想把自己每天的工作内容和技术感想都记录下来,以后自己找也方便,今天Rosanna说开始准备下学期课IEMS5723的材料了,需要我给学生讲Python编程,去年我读Master的时候也有上这门课,基本上就是社交媒体,社交网络,自然语言处理,文本分类的一个入门,需要用Python做一些Assignment,Rosanna说她想我加入用Python写爬虫的内容,我说可以,之前我都是用request加beautifulsoup再加上google chrome去写爬虫,还是很实用的,她也给了个链接给我,是San Diego State University的一个教程,看了下觉得还不错,但我觉得我到时应该主要讲request跟beautifulsoup,因为这两个最实用,urllib跟htmlparser还是简单讲讲好了。

今天项目做的工作就是把用户聊天记录做了下处理,每个用户的聊天记录都会通过我的服务器端代码,在我们这个系统里面,每个词用一个code表示,我把code

的2-Gram存在mongodb里面了,同时还有这个2-Gram出现的时间跟使用用户的唯一标识token,这样,每一条聊天记录都会在mongodb里面产生多条记录,这些记录对我们以后的研究是很有用的。

0 0