跨社交媒体信息演化与关联分析

来源:互联网 发布:c语言与或非逻辑符号 编辑:程序博客网 时间:2024/06/10 11:42

NEViewer:一款基于共词网络的学科主题演化过程可视化分析软件    TFIDF算法java实现    面向公共安全的跨媒体计算

以及一些论文:基于共词网络的社交媒体话题演化分析;基于共同用户的跨网络分析_社交媒体大数据中的多源问题;基于关键词和时间点的网络话题演化分析;基于信息熵的社交网络观点演化模型;跨媒体数据挖掘和理解;在线社交网络中信息传播模式的特征分析;


目前的解决思路是:

u数据采集:利用开源爬虫工具webmagic;小组其他数据
u特征词识别与子话题关联分析:TF-IDEPLPI结合判断词语重要程度,选择特征词,进而描述子话题;
  对于两个子话题类,如果其交集(特征词)大过一定阈值,可认为是一个事件(合并关系);
  对于一个话题,其与另一个话题的一部分交集大过一部分,则可认为是其子话题(父子关系)
u话题信息演化分析::结合时间信息:已知的文本信息中含时间戳
  结合平台信息,并进行对比:整合数据同时,标记信息来源
  话题关注度分析:统计转发数,查看数,回复数等
  跨媒体用户态度的区别:表主观意见、情绪的词语统计
  需要记录保存话题快照


分词系统:一些分词系统  中文分词器ICTCLAS使用方法    中文分词在java的web项目中的使用

关键词发现:  TF-IDF介绍    TF-IDF实现    

0 0