当前位置:博客首页 > SEO > 正文

Word2vec学习笔记

作者: Jarvan 分类: SEO 发布时间: 2019-08-04 16:44 百度已收录

以下内容为百度百科Word2vec的学习笔记,vec的意思是向量误差纠正模型

Word2vec,是一群用来产生词向量的相关模型。在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

一、简介

自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。从基于统计的建模方法得到的自然语言模型称为统计语言模型

Google 公司在 2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec 可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。

Word2vec依赖skip-grams连续词袋(CBOW)来建立神经词嵌入。vec的意思是 向量误差修正模型。

二、依赖

词袋模型(Bag-of-words model)

词袋模型是个在自然语言处理和信息检索(IR)下被简化的表达模型。 此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序词袋模型被广泛应用在文件分类词出现的频率可以用来当作训练分类器的特征

Skip-gram 模型

Skip-gram 就是“跳过某些符号”,例如,句子“中国足球踢得真是太烂了”有4个3元词组,分别是“中国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”,可是我们发现,这个句子的本意就是“中国足球太烂”可是上述 4个3元词组并不能反映出这个信息。Skip-gram 模型却允许某些词被跳过,因此可以组成“中国足球太烂”这个3元词组。 如果允许跳过2个词,即 2-Skip-gram。

三、应用

word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。

对同样一个句子:Hangzhou is a nice city。我们要构造一个语境与目标词汇的映射关系,其实就是input与label的关系。 这里假设滑窗尺寸为1

CBOW可以制造的映射关系为:[Hangzhou,a]—>is,[is,nice]—>a,[a,city]—>nice

Skip-Gram可以制造的映射关系为(is,Hangzhou),(is,a),(a,is), (a,nice),(nice,a),(nice,city)

主要应用:推荐(音乐、大V),商品相似度计算,作为分类或聚类的输入。

相关链接:
https://www.zhihu.com/question/25269336

实战:
https://blog.csdn.net/qq_41664845/article/details/80305101

发表评论