操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    文章相似度檢測工具(一種簡單高效的算法

    每年六月,都是一個畢業季。每個大學生不僅要參加論文答辯,還要提交優質的論文。但什么樣的論文才能被認為是優質的呢?最基本的一個要求就是查重率不能超過30%(這個每個學校可能要求不一樣,有的是20%)。那么問題來了,我們的論文在知網下是怎么計算出查重率的呢?其實查重率最重要的是計算兩篇文章的相似度。

    文本相似度

    文本相似度計算在信息檢索、數據挖掘、機器翻譯、文檔復制檢測等領域有著廣泛應用。例如輿論控制,假設你開發了一個微博網站,并且已經把世界上罵人的句子都已經收錄進了一個數據庫,那么當一個用戶發微博時會先跟罵人句子的數據庫進行比較,如果符合里面的句子就不讓用戶發出去。

    基本算法–余弦相似度

    使用TF-IDF算法,找出兩篇文章的關鍵詞;每篇文章各取出若干個關鍵詞(比如20個),合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);生成兩篇文章各自的詞頻向量;計算兩個向量的余弦相似度,值越大就表示越相似。

    水軍十萬文章原創度檢測_順祺文章原創度檢測_c 文章相似度檢測工具

    對于TF-IDF算法,我在之前的文章介紹過,有需要的可以去翻閱。這篇文章主要詳細講述余弦相似度算法。

    假設向量a、b的坐標分別為(x1,y1)、(x2,y2) 。則:

    設向量 A = (A1,A2,…,An),B = (B1,B2,…,Bn) 。推廣到多維,數學家已經幫我們證明了,所以你只要記住下面的公式:

    順祺文章原創度檢測_c 文章相似度檢測工具_水軍十萬文章原創度檢測

    簡單來說可以寫成下面的式子:

    舉一個具體例子,我們先從句子開始:

    句子A:我喜歡看電視,不喜歡看電影。

    句子B:我不喜歡看電視,也不喜歡看電影。

    水軍十萬文章原創度檢測_c 文章相似度檢測工具_順祺文章原創度檢測

    第一步:分詞

    句子A:我/喜歡/看/電視,不/喜歡/看/電影。

    句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

    第二步:列出所有的詞

    我,喜歡,看,電視,電影c 文章相似度檢測工具,不,也

    c 文章相似度檢測工具_順祺文章原創度檢測_水軍十萬文章原創度檢測

    第三步:計算詞頻

    句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0

    句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1

    第四步:寫出詞頻向量

    句子A:[1, 2, 2, 1, 1, 1, 0]

    水軍十萬文章原創度檢測_順祺文章原創度檢測_c 文章相似度檢測工具

    句子B:[1, 2, 2, 1, 1, 2, 1]

    第五步:計算余弦值

    余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫”余弦相似性”。

    簡單來說上面計算出的值代表兩個句子大概九成相似c 文章相似度檢測工具,越接近1就越相似。

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有