深度学习-nlp系列(4):Word2Vec 字词向量的训练和使用
前言
?word2vec 是靜態詞向量構建方法的一種,與 Embedding 詞向量相似。本文將介紹 word2vec 詞向量是如何訓練的,訓練好的 word2vec 詞向量如何使用。由于不同的 gensim 的版本不同,在調用一些函數時會有差異。隱藏本文的 gensim 的版本為 4.2.0 ,以下代碼都依此版本為準。
數據?
本文使用的數據是 THUCNews 中train.txt、dev.txt、test.txt 中所有的中文數據,一共用20000條。
?圖1 訓練數據
字向量
處理數據
# 得到每一行的數據 []datas = open('data/word.txt', 'r', encoding='gbk').read().split("\n")# 得到一行的單個字 [[],...,[]]word_datas = [[i for i in data if i != " "] for data in datas]?圖2 將數據處理成字
訓練
model = Word2Vec(word_datas, # 需要訓練的文本vector_size=10, # 詞向量的維度window=2, # 句子中當前單詞和預測單詞之間的最大距離min_count=1, # 忽略總頻率低于此的所有單詞 出現的頻率小于 min_count 不用作詞向量workers=8, # 使用這些工作線程來訓練模型(使用多核機器進行更快的訓練)sg=0, # 訓練方法 1:skip-gram 0;CBOW。epochs=10 # 語料庫上的迭代次數)?圖3 模型結構內容1
訓練好字向量后,我們使用最多的是?index_to_key 、?key_to_index 、字向量,根據前面兩個,就可以對文字進行編碼與解碼。
?圖4?模型結構內容2
注:模型中的 index_to_key 、?key_to_index 、字向量 都可以單獨保存
pkl.dump([model.wv.index_to_key, model.wv.key_to_index, model.wv.vectors], open("PartialWeight.pkl", "wb"))保存模型
# 字向量保存model.wv.save_word2vec_format('word_data.vector', # 保存路徑binary=False # 如果為 True,則數據將以二進制 word2vec 格式保存,否則將以純文本格式保存)# 模型保存model.save('word.model')通過保存字向量(word_data.vector),第一行第一個數字表示一共有多少字,第二個數字表示一個字用10的數字表示。
比如:0 --> [0.99632174 2.0563052 -0.72112525 3.789005 -4.6471505 -2.838667 -4.621025 4.180826 3.625088 3.2602801]
?圖6 字向量部分內容
使用?
加載模型
# 1 通過模型加載詞向量(recommend)model = gensim.models.Word2Vec.load('word.model')# 2 通過字向量加載vector = KeyedVectors.load_word2vec_format('word_data.vector')?查看
model.wv.index_to_key?圖7 查看 index_to_key 的部分內容
model.wv['提'] --》通過模型進行查看??圖8?通過模型進行查看字 “提” 的向量
vector['提'] --》通過字向量進行查看圖9?通過字向量進行查看字 “提” 的向量?
可以發現兩種方法得到的結果都是一樣的
詞向量
處理數據
datas = open("data/word.txt", "r", encoding="gbk").read().split("\n")words_datas = [[i for i in (jieba.cut(data))] for data in datas]?圖10 將數據處理成詞
訓練與保存模型
model = Word2Vec(words_datas, vector_size=10, window=2, min_count=1, workers=8, sg=0, epochs=10)model.wv.save_word2vec_format('words_data.vector', binary=False)model.save('words.model')源碼獲取
Word2Vec 字&詞向量
總結
以上是生活随笔為你收集整理的深度学习-nlp系列(4):Word2Vec 字词向量的训练和使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于SSM福来客栈民宿预约管理系统
- 下一篇: C++实现传输文件