Java实现海明距离简单计算
生活随笔
收集整理的這篇文章主要介紹了
Java实现海明距离简单计算
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文本相似度比較有很多方法,如余弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等,海明距離是其中之一。
在信息編碼中,兩個(gè)合法代碼對(duì)應(yīng)位上編碼不同的位數(shù)稱為碼距,又稱海明距離。
n位的碼字可以用n維空間的超立方體的一個(gè)頂點(diǎn)來表示。兩個(gè)碼字之間的海明距離就是超立方體兩個(gè)頂點(diǎn)之間的一條邊,而且是這兩個(gè)頂點(diǎn)之間的最短距離。
對(duì)海明距離的應(yīng)用,最多的是在海量短文本去重上,性能優(yōu),主要方法就是對(duì)文本進(jìn)行向量化,或者說把文本的特征抽取出來映射成編碼,然后再對(duì)編碼進(jìn)行異或計(jì)算出海明距離。
曾遇到的一個(gè)場(chǎng)景是:從龐大的記錄文本中,判斷文本的相似度并做分類。一般做法就是兩兩比較相似度,這時(shí)對(duì)相似度計(jì)算算法的耗時(shí)要求就比較高,一旦數(shù)據(jù)量龐大,就能立見高下。有興趣的,可以試驗(yàn)下cos、歐式、海明三者在文本相似度判斷方面的性能,比如2000萬記錄的文本。
本文這里的代碼只是簡單的模擬了海明距離的計(jì)算過程,參考如下:
package sk.ml;/** 功能:計(jì)算兩個(gè)文本海明距離 先字符串二進(jìn)制,再統(tǒng)計(jì)差異位數(shù) * 作者:Jason.F* 時(shí)間:2017年1月18日*/public class HammingDistance {public static void main(String[] args) {String strA="大數(shù)據(jù)和人工智能";String strB="小數(shù)據(jù)和人工智能";String strAB=StrToBinstr(strA);String strBB=StrToBinstr(strB);//對(duì)兩個(gè)二進(jìn)制字符串,字符數(shù)相同,統(tǒng)計(jì)差異數(shù)int count=0;int len=strAB.length();for(int i=0;i<len;i++){if(strAB.charAt(i)!=strBB.charAt(i)) count++;}System.out.println("海明距離是:"+count);}//將字符串轉(zhuǎn)換成二進(jìn)制字符串,以空格相隔public static String StrToBinstr(String str) {char[] strChar=str.toCharArray();String result="";for(int i=0;i<strChar.length;i++){result +=Integer.toBinaryString(strChar[i]);}return result;} } 執(zhí)行結(jié)果:海明距離是:4
總結(jié)
以上是生活随笔為你收集整理的Java实现海明距离简单计算的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习知识点(六)增广矩阵求解拉格朗日
- 下一篇: 机器学习笔记(四)决策树