mle是什么意思中文,mle是什么意思啊

  

     

  

  从隐藏层到输出Softmax层有哪些计算方法?分层softmax负采样分层softmax过程?构造霍夫曼树最大对数似然函数输入层:上下文词的词向量投影层:对它们求和,所谓求和就是简单的向量加法输出层:输出最有可能的词沿着霍夫曼树寻找对应的词,每个节点选择就是一个物流选择过程,连续相乘就是似然函数。求各层各变量的偏导数,参考sgd负采样过程?统计每个词的出现概率,舍弃出现频率过低的词。每次选择softmax的负样本,从废弃词汇中选择负样本的核心思想(选择需要参考发生概率)是:用负采样后的输出分布来模拟真实的输出分布。word2vec两种方法各自的优势是什么?Mikolov 的原论文,Skip-gram 在处理少量数据时效果很好,可以很好地表示低频单词。而 CBOW 的学习速度更快,对高频单词有更好的表示's跳码的时间复杂度为O (KV),CBOW的时间复杂度为o(v)。如何衡量嵌入的学习?随机选取item2vec得到的一部分词向量,人工判断可信度。即人工判断各维度项与标签项的关联程度,是否合理,顺序是否相关,对item2vec得到的词向量进行聚类或者可视化word2vec与glove的区别?Word2vec基于相邻词的共现,glove基于全文共现。word2vec使用负采样或分层softmax加速,glove使用全局共生矩阵相对较快,占用内存资源较多。word2vec是一个“预测”模型,而GloVe是一个“基于计数”的模型。你认为word2vec有哪些问题?不考虑词序对中文分词结果的依赖,新词不经过正则化就无法友好处理。解释一下LDA的原理?从狄利克雷分布生成题目分布的共轭分布的样本文献I的多项式分布是狄利克雷分布的二项式分布的共轭分布,是贝塔分布。从话题多项式分布中抽样,生成话题对应的词分布。从单词多项式分布中进行采样,以最终生成单词。一个词出现在文档中的概率可以用公式表示:如何计算LDA中的主题矩阵用EM方法修改词-主题矩阵主题-文档矩阵直到收敛?如何计算单词分布矩阵?这个问题很难说清楚。一般你会带着细节去问它,不会在意你的公式是否完全一致。这部分是LDA的核心,也是考验一个nlp工程师最基础的知识点。   

  

  吉布斯一开始随机给每个单词附加一个话题。由于多项式分布的共轭分布是狄利克雷分布,根据狄利克雷分布的先验分布结合每个词的实际主题所满足的多项式分布,可以得到后验的狄利克雷分布,从而通过积分得到一个文档的主题的条件分布。词相同,这样每篇文章的题目和词的联合概率分布就有了联合概率分布。去除单词wi后,可以得到其他单词主题的条件概率分布。根据条件概率分布,利用坐标旋转的Gibbs抽样方法,得到词对应的平稳矩阵和词对应的主题,然后收敛后统计文章中词对应的主题,从而得到文章的主题分布。统计单词对应的主题,得到单词在不同主题下的分布,通常会引出以下问题:吉布斯采样是怎么做的?(基于MCMC的思想,面对多维特征优化,一维特征固定而其他维度不变,满足细致平稳性,利用坐标变换加快样本集生成。)什么是MCMC中的蒙特卡罗方法?通常,用于计算概率密度的积分是利用已知的分布来评价未知分布剔除过程中马氏链的收敛性?非周期性的,不能有无限循环连通,不能有断点。MCMC中的马尔可夫链抽样过程是什么?首先,转移矩阵P在N次迭代中收敛到一个不变的平稳矩阵,然后平稳分布的样本集(xn 1,xn 2.)是根据平稳矩阵后的条件概率p(x/xt)得到的。给定平稳矩阵,如何获取概率分布的样本集?M-C采样给定任意转移矩阵q,已知(i)p(i,j)=(j)p(j,I),近似拟合为 (I) q (I,j) a (I,j)= (j) q (j,I) a (j,I)就像Monte模拟一样,否则xt 1=xt(xt,xt 1.)是指我们的分布样本集的M-H采样通过左右相乘进行缩放,更新a(i,j)的计算公式,加快收敛速度。吉布斯采样同上,不同的是n1个特征固定在某个特征采样和坐标旋转采样。什么是坐标转换采样?平面上任意两点满足细致平稳条件(A)P(A-B)=(B)P(B-A)样本x(t 1)2由条件概率分布P (x2 | x(t 1)1)样本x(t 1)1由条件概率分布P(x1|x(t 1)2)得到。有点像套索回归中固定n-1威特求极值的思路。变分推理EM算法的整体过程是LDA中存在隐变量,如话题分布、词分布、实际话题、模型超参数、。需要在步骤E中基于条件概率计算隐变量的期望,在步骤M中最大化这个期望,从而得到,变分推论是隐变量不能直接计算的。用三个独立分布的变分分步去拟合三个隐藏变量的条件分布实际做的时候是用kl散度来衡量分布之间的相似性,最小化KL散度和相对熵。EM过程E:最小化相对熵,偏导数为0。   

变分参数M:固定变分参数,梯度下降法,牛顿法得到alpha和beta的值LDA的共轭分布解释下?以多项式分布-狄利克雷分布为例,我们的多项式分布θ先验分布π(θ),及加了多项式分布的样本信息x后的后验分布π(θ/x)都满足狄利克雷分布,则称狄利克雷分布为LDA场景下多项式分布的共轭分布

  

PLSA和LDA的区别?LDA是加了狄利克雷先验的PLSAPLSA的p(z/d)和p(w/z)都是直接EM估计的,而LDA都是通过狄利克雷给出的多项式分布参数估计出来的LDA是贝叶斯思想,PLSA是MLE怎么确定LDA的topic个数对文档d属于哪个topic有多不确定,这个不确定程度就是Perplexity多次尝试,调优perplexity-topic number曲线困惑度越小,越容易过拟合某个词属于某个主题的困惑度:,某个文章的困惑度即为词的连乘:LDA和Word2Vec区别?LDA和Doc2Vec区别?LDA比较是doc,word2vec是词LDA是生成的每篇文章对k个主题对概率分布,Word2Vec生成的是每个词的特征表示LDA的文章之间的联系是主题,Word2Vec的词之间的联系是词本身的信息LDA依赖的是doc和word共现得到的结果,Word2Vec依赖的是文本上下文得到的结果LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?trick?通常alpha为1/k,k为类别数,beta一般为0.01alpha越小,文档属于某一个主题的概率很大,接近于1,属于其他主题的概率就很小,文章的主题比较明确beta同理,但是一般不会刻意去改beta,主要是压缩alpha到一定小的程度chucksize大一些更新的过程比较平稳,收敛更加平稳迭代次数一般不超过2000次,200万doc大约在2300次收敛

相关文章