Particial规范

你好我得到了信息检索的任务，我不能知道如何创建一个部分规范，我的意思是像这里的字的值：http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html Particial规范

的= 0.2

a = 0.1

青蛙= 0.01 ...等等。如果有人解释如何计算这些值，我会很感激。

了解语言模型！

a）解释这个想法！

b）考虑下面的文档集合：

D1：今天是晴天。晴朗的柏林！生存还是毁灭。 D2：她今天在柏林。她是个阳光明媚的女孩。柏林总是令人兴奋！

为每个文档计算相应的Unigram语言模型！假设停止概率在模型之间进行固定（并且等于0：2）。使用这些模型排名给出的查询\晴天柏林“的文件！

的那些话的价值并不在页面上计算出在那里。在被从模型定义的统计得出。

例如，如果你在照片看下面，有两种不同的型号，每个字不同的概率。由于模型的设计者，你将需要自己定义的概率。

enter image description here

如果安：我不明白语言是什么这里的模型是一个简单的例子：

想象一下，居住在伦敦的人有一种语言模型M1，居住在纽约的人有其他语言模型M2。

根据一些统计数据，我们知道伦敦人使用“阳光”这个词比纽约人多出两倍（因为任何原因），所以在M1中，使用“晴天”的概率将为0.04，在M2中“晴天“= 0.02。对其他文本电视，杂志等进行裁判，我们可以定义伦敦（M1）和纽约（M2）的人用什么概率来使用其他词，并且我们创建一个如上所示的表格。

现在我们有一个句子“她是一个阳光的女孩”，我们不知道它在伦敦或纽约的人。

参考表格我们可以猜测这更可能来自伦敦人（M1），因为他们更多地使用这个词！

2014-01-24 03:59:11 Arman

回答