舆情相似度计算

来源:互联网 发布:linux如何删除文件夹 编辑:程序博客网 时间:2024/04/27 18:00

舆情相似度计算

舆情的属性有以下:

domain 舆情发生领域

regions 舆情地域(可将全国划分至5个区域,或十个以内)

opinionType 舆情类型

mediaType 发布言论中各媒体类别所占的比例

mediaGrade 发布言论中各媒体类别所占的比例

 

需要将前三个属性转换成数值型以便计算,以domain为例:

 

domain类型

编码(xyz)

社会

001

伦理

010

教育

100

 

这种编码的好处是各个不同值之间的距离相等,相同值之间的距离为0.

如 社会与伦理的距离:2(按位相减,再取平方和);

   社会与教育的距离:2

   社会与社会的距离:0

 

舆情A示例:

 

属性

真实值

编码值

domain

伦理

010

regions

东部沿海(广东)

00001

opinionType

社会事件

001

mediaType

30%  20%  20%  (10%)

30%  20%  20%  (10%)

mediaGrade

30%  50%  (20%)

30%  50%  (20%)

 

距离度量可表示为:

x为舆情A的属性矢量,y为舆情B的属性矢量

 


0 0
原创粉丝点击