毕业生大礼包之论文查重

来源:互联网 发布:nginx iis 代理服务器 编辑:程序博客网 时间:2024/04/30 14:48
毕业生最头疼的就是论文,论文查重让人觉得很无奈。看到这篇文章的我觉得都是对中文相似度计算有兴趣的,而查重本身就是相似度计算,既然如此那就钻他的漏洞,把查重率降下来。大家可以不相信我,但我今年的论文知网查重是百分之零,对的,你没看错,根本查不出来。授人以鱼不如授人以渔,告诉你怎么做很多人还是做不好,不如先告诉为什么这么做。首先要清楚一点,论文查重是大量句子对海量句子的计算,这种方式就决定了不可能采用句意相似度计算,句意相似度计算算法复杂度太高了而且涉及到大量词语相似度计算。说到这里如果之前看过我文章的就有点明白了,句意相似度是句子相似度计算中最重要的部分,这部分被去掉之后也就剩下全文匹配算法和句法相似度计算着两种了。这时候就要说说他们的弱点了,全文匹配用的是三角函数算法,这种算法只能查直接抄袭的,为了避免误会一般都是以十四个字为标准。由此我们得到第一条原则,直接抄过来的句子一定要想办法断句,把一个长句子断成数个短句,有人跟我说这办法不好用,我一看。。。。你用逗号隔开有个毛用啊,还不是一句啊,小学语文是体育老师教的啊。。。于是全文匹配这一招就被我们破了。接下来就是句法相似度了。这个就有点麻烦了,句法相似度匹配算法的衍生算法很多,目前最流行的就是三种,句长相似度,词形相似度,词序相似度。句长相似度刚刚破全文匹配的时候已经顺手破了,词序相似度怎么破呢?词序相似度会挑选最重要的词判读他们的顺序和位置,也就是所说的关键词。不要弄混,这里的关键词是主谓宾这类词。那怎么破呢?对的,如果找不到两个句子中相同的关键词就可以了,举个例子,他买电冰箱和小明购入电驱动式制冷设备。人类思维来看这两句相似度非常高,但是句法分析来看根本不一样,这就是缺少句意分析出现的漏洞。于是第二招就是把关键位置的词换成同义词或者换个说法。至于词形相似度就是找两个句子中相同词的个数,第二招用好了根本不用愁。有这两招在手那些轻型语言引擎只有被你吊起来打的份了,目前所有的论文查重也就这点本事。想要对付高级语言引擎怎么办?这里有个终极大招,但是不太推荐,因为这种文字游戏不仅仅让程序看不懂人也可能看不懂,那就是歧义。比如说,咬死了猎人的狗。这句话别说程序,人都不明白到底是啥意思,到底是猎人死了还是狗死了,程序比较蠢只会用固定的模式来分析,实验两次就能知道是用的什么策略,然后就可以恣意妄为了。毕业生知道这招就行了,别用,不然不等到查重你导师就该骂你了,因为歧义说到底就是语法错误。有其他问题的可以留言。顺便说一句,本人提供毕业设计指导,有需要的可以联系我。
0 0
原创粉丝点击