关联网页可信度分析和文本内容（IEEE2014）

来源：互联网发布：网络词仙女是什么意思编辑：程序博客网时间：2024/05/18 15:25

Credibility Microscope: Relating Web PageCredibility Evaluations to Their Textual Content

关联网页可信度分析和文本内容（IEEE2014）

文章主要目标：研究网页内容在什么程度上决定它的可信度评估。这一目标通过实验来实现。实验中，让受访者给网页可信度和网页上每条陈述的可信度、重要性打分。制定了许多网页和陈述可信度间依赖性质的假设，从实验获得的数据测试这些假设。

文章将网页文本内容当成陈述袋（词袋的扩展），执行一个实验，用户对整个页面和各个陈述可信度进行评分，期望能捕获到陈述和网页评分的依赖关系。这些知识将可以基于网页和陈述的评分自动评估网页可信度。

提出以下假设，计划在实验中证实：1.网页可信度依赖于文本内容的可信度。2.文本的可信度是构成文本重要陈述的可信度的函数。3.可信度和重要性是独立的。4.陈述评估在网页可信度分类过程中是有用的。5.一些重要的不可信陈述使得文本不可信。

文章通过将分配给陈述的属性作为解释变量的分类器判断文本可信度。为了训练分类器，需要一个带有人工标记陈述文本的训练集。用户可以评分的最小单元是句子。将文本分解成陈述，然后每个陈述作为一个句子呈现给受访者。

实验分为3个阶段。在第一阶段A和最后一阶段C，给受访者呈现给定主题的网页并且询问它的可信度。在中间阶段B，给受访者呈现从文本抽取的陈述并且询问关于陈述可信度和重要性的问题。第三个阶段C的目标是检查受访者关于网页的观点在给单个陈述评分后是否改变。

实验有3种模式。在第一和第三种模式中，网页5分制打分，在第二种中，101分制。第一和第二种模式陈述有序排列，第三种中随机。第二种模式的目的是得到两种打分制的转化。第三种模式的目的是检查陈述的排列顺序是否影响它们的打分。

为了排除额外的因素，移除了文本中的超链接。用从一个替代药品领域获取的100个页面上进行实验。每种模式中每个网页被评分5次。呈现给用户的句子数限制在30。

在第一阶段的实验数据分析，关注于网址相关的结果来分析评估员的水平，关注于抽取的句子对于整个页面评估的影响。结果包括每个网址的2个评分，分别对应实验的第一和第三阶段。计算两种评分的相关系数，0.93表明两种评分强相关。

基于回归的可信度模型

每个网页评估结果为每个陈述的可信度和重要性值构成的列表。将这些转化为频率向量：对于一个给定的列表{cr_i, imp_i}_i，建立一个向量a={a_j}_j，a_j代表可信度值等于j的那些重要性值的和。由于受访者采用101评分制，进行模糊化，考虑每个可信度值为高斯分布中的值，σ取值为0到30，探索基于该频率向量的线性回归分类器的属性。选择线性回归是因为有排序的决策类（第一和第三种模式）或数值决策（第二种模式）。线性回归是这两种决策类型的统一框架。考虑a_j的标准化和累积和为属性，设置σ=10，执行分类。通过10折交叉验证计算正确率。

神经网络可信度模型

使用线性回归方法得到的结果没有达到预期结果，决定采用神经网络实现可信度分类。建立了一个分类前馈神经网络，单个陈述的可信度得分作为输入，重要性得分作为输出。5个概率类对应5个可信度分值。使用几乎未处理过的原始实验数据。建立4层神经网络：包含20个神经元的输入层，23个神经元的第一隐藏层，31个神经元的第二隐藏层，6个神经元的输出层。隐藏层神经元的个数基于最小化错误率经验评估获得。输入层使用线性激活函数，其他层用tan函数。将可用的实验数据分为集合，用10折交叉验证评估分类器的正确率。用弹性反传算法（RPROP）训练网络。

线性回归方法需要额外的数据预处理，神经网络方法使用几乎原始数据。分类器的结果相似。

0 0