夹角余弦与文章相似性比较

来源:互联网 发布:流放之路装备数据 编辑:程序博客网 时间:2024/05/20 05:58

对于文章集合D={D1,D2};

D1的特征集合T1={t1,t2,t3};
D2特征集合T2={t1,t3,t4}

则有特征集合T={t1,t2,t3,t4}

计算D1中T集合各特征的TFIDF值得到向量V1,计算D2中T集合各特征的TFIDF值得到向量V2

计算D1和D2的相似性,可以使用计算这两个向量的相似程度,我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。
两条线段之间形成一个夹角,因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。

举例说明:
文章D1="很多人说,6月20日注定要成为中国银行业发展历史上里程碑意义的一天。据前瞻网记者了解,这一天,
被视为流动性风向标的上海银行间隔夜利率历史上首次超过10%,报13.4440%,飙升578.40个基点; 1周利率亦首次突破10%,
大涨近300个基点,达到11.0040%。尽管在6月21日,这两个数字都大幅下降,
但由此引发的中国银行业出现“钱荒”的震荡波却并未消退。"

文章D2="6月20日,上海银行间同业拆放利率(Shibor)罕见“爆表”,中国银行业闹“钱荒”,
并引发了股票市场震荡。为什么发生钱荒?中国真的“缺钱”吗?
央行的货币政策转向有何用意?";
 
D1经过数据预处理获取到的特征词T1={银行业,利率,中国,记者,风向标,里程碑,数字,隔夜,上海,荒,钱,银行}
D1经过数据预处理获取到的特征词T2={钱,荒,中国,股票,央行,政策,市场,货币,上海,银行业,利率,银行}

则有总特征T={中国,银行业,里程碑,记者,风向标,上海,银行,隔夜,利率,数字,钱,荒,股票,市场,央行,货币,政策};
 
计算D1中T集合各特征的TFIDF值得到向量V1={0.0924 0.0924 0.0667 0.0667 0.0667 0.0462 0.0462 0.0667 0.0924 0.0667 0.0462 0.0462 0 0 0 0 0}
计算D2中T集合各特征的TFIDF值得到向量V2={0.0866 0.0433 0 0 0 0.0433 0.0433 0 0.0433 0 0.13 0.0866 0.0625 0.0625 0.0625 0.0625 0.0625}

 
V1和V2的夹角余弦值为0.5206

原创粉丝点击