有用

来源:互联网 发布:乐乎pt邀请码 编辑:程序博客网 时间:2024/04/28 20:32
利益相关:考上研的话我就去做文本分析了。

给我份15k的工资,给我8个程序员的薪水,我给你招6个人做这个东西。

15k是顾问费。我自己还要2个程序员的薪水。


题主把知乎当成顾问市场了...但是知乎只是分享知识的地方,而不是给出具体实施的地方。
****************
明天早晨来答这个题目,看题主的心情和我的薪情来答。
===========
虽然不给钱,但是我还是来回答这个问题了。

1、实时爬取:这个功能主流的爬虫都可以做到——但是得不偿失。实时爬取这个功能主要用于对突发事件的监测。你一个搞旅游的非要上这个,是嫌钱不够花嘛?
2、信息分装、分类:这就是数据清洗功能而已。只要你指定网站,对于金额等在页面上已经归类好了的信息可以非常迅速的修改爬虫实现分类。
但是,对于景点名称的分类,除非网站上已经分好了类,否则要分类的话除非你自己维护一个数据库——换句话说,要么你自己给景点按照景点名称分类,要么人家网站已经分好了类,要么你必须明确指出到底按照网站页面上的什么数据分类(这个数据必须清晰明了)。
当然你可能会认为能够让计算机自己进行分类,这点就要看下一条了。
3、信息分析:
1)必须单独说明:就您这个数据量,搞不起大数据。就您的财力(一百块都不给我),也搞不起大数据。
2)您需要文本分析:对于上述景点名称的分类,这个可以部分的依赖文本分析;对于体验的优劣程度可以较高的依赖文本分析。
具体的方法是:
(1)分词。这个有大量的分词工具可以使用。
(2)层次分析法。使用人工方法选出一定量的文本对其体验进行分析,得到的结果作为验证数据。
(3)构造词频向量。使用(1)的成果,统计文本当中的词汇频率形成向量。
(4)使用SVM对(3)进行回归分析,以(2)为验证数据。至此生成模型。
3)不好意思,上面这些东西说完了我觉得你还得再出个几万块钱招实习生来做点累活。
4、从上述分析中可以发现,网站上的信息已经全面的标签化、向量化了。那么我们就可以对标签、向量总体的再次进行一个SVM回归,但是这次以3.2.4的模型来计算体验,作为验证结果(我猜题主到了这里就看不懂了……这次是用模型的计算结果作为验证数据,而不是人工的层次分析作为验证数据哦~)。
这个步骤要注意:一定会出现很多你觉得不合理的结果,必须要逐条分析,然后调整3.2.4的模型……所以非常耗时间。而题主所要求的什么30%什么的,这个调节到底按照一个什么标准呢?这个题主也没有说。
事实上,围观上述的两个模型的建立过程,我们会发现这两个模型形成了一个类似于深层次神经网络的结构。但是神经网络是出了名的不好调整,出了名的训练难度大,出了名的训练集庞大。
5、在上述模型都训练好的情况下,可以这么说,用户输入数据几乎迅速就可以得到结果。但是,输入的数据必须有严格统一的结构。这个结构就是产品经理如何设计产品的问题了。

题主你连一百块都不给我!!

====最新更新……题主真的发福利了……====
听说题主发了个有趣的东西……为啥我觉得后脊梁一阵
0 0
原创粉丝点击