今天鞋百科给各位分享词向量是干什么用的的知识,其中也会对Word2vec的词聚类结果与LDA的主题词聚类结果,有什么不同(lda 文本聚类)进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在我们开始吧!

Word2vec的词聚类结果与LDA的主题词聚类结果,有什么不同

所以Word2vec的一些比较精细的应用,LDA是做不了的。比如:
1)计算词的相似度。同样在电子产品这个主题下,“苹果”是更接近于“三星”还是“小米”?
2)词的类比关系:vector(小米)- vector(苹果)+ vector(乔布斯)近似于 vector(雷军)。
3)计算文章的相似度。这个LDA也能做但是效果不好。而用词向量,即使在文章topic接近的情况下,计算出的相似度也能体现相同、相似、相关的区别。
反过来说,想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能,“苹果”和“小米”被聚到了一类,而“乔布斯”和“雷军”则聚到另一类。
这种差别,本质上说是因为Word2vec利用的是词与上下文的共现,而LDA利用的是词与文章之间的共现。
PS. 说起来,拿LDA和doc2vec比较才比较合理啊~~

如何通过词向量技术来计算2个文档的相似度

  最近正好组内做了一个文档相似度的分享。决定回答一发。
  首先,如果不局限于NN的方法,可以用BOW+tf-idf+LSI/LDA的体系搞定,也就是俗称的01或one hot representation。
  其次,如果楼主指定了必须用流行的NN,俗称word-embedding的方法,当然首推word2vec(虽然不算是DNN)。然后得到了word2vec的词向量后,可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然,加权之前一般应该先干掉stop word,词聚类处理一下。
  还有,doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》(ICML 2014)。
  还有一种根据句法树加权的方式,是ICML2011提出的,见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》,后续也有多个改编的版本。
  当然,得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。
  ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式,大致思路是将词之间的余弦距离作为ground distance,词频作为权重,在权重的约束条件下,求WMD的线性规划最优解。
  最后,kaggle101中的一个word2vec题目的tutorial里作者如是说:他试了一下简单加权和各种加权,不管如何处理,效果还不如01,归其原因作者认为加权的方式丢失了最重要的句子结构信息(也可以说是词序信息),而doc2vec的方法则保存了这种信息。
  在刚刚结束的ACL2015上,似乎很多人提到了glove的方法,其思想是挖掘词共现信息的内在含义,据说是基于全局统计的方法(LSI为代表)与基于局部预测的方法(word2vec为代表)的折衷,而且输出的词向量在词聚类任务上干掉了word2vec的结果,也可以看看。《GloVe: Global Vectors forWord Representation》

如何用词向量做文本分类

Word2vec的词聚类结果与LDA的主题词聚类结果,有什么不同

先确定主题,然后根据主题将属性挖掘出来。用属性的关联度作为距离,来对文本进行分类

算法是什么意思 谢谢

什么是向量守恒的概念?换句话说就是:向量守恒的概念怎么理解?

至目前为止还没有“向量守恒”这一说法。
但是你可能想说的是“动量守恒”,即速度与质量的积,在不受外力或外力可忽略时动量守恒。
因为动量具有方向性,所以在运算上遵循矢量运算,是少数几个在矢量(向量)上守恒的定理