2013-12-16 40 views
0

你好我得到了信息检索的任务,我不能知道如何创建一个部分规范,我的意思是像这里的字的值:http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.htmlParticial规范

的= 0.2

a = 0.1

青蛙= 0.01 ...等等。如果有人解释如何计算这些值,我会很感激。

了解语言模型!

a)解释这个想法!

b)考虑下面的文档集合:

D1:今天是晴天。晴朗的柏林!生存还是毁灭。 D2:她今天在柏林。她是个阳光明媚的女孩。柏林总是令人兴奋!

为每个文档计算相应的Unigram语言模型!假设 停止概率在模型之间进行固定(并且等于0:2)。使用这些模型 排名给出的查询\晴天柏林“的文件!

回答

0

的那些话的价值并不在页面上计算出在那里。在被从模型定义的统计得出。

例如,如果你在照片看下面,有两种不同的型号,每个字不同的概率。由于模型的设计者,你将需要自己定义的概率。

enter image description here

如果安:我不明白语言是什么这里的模型是一个简单的例子:

想象一下,居住在伦敦的人有一种语言模型M1,居住在纽约的人有其他语言模型M2。

根据一些统计数据,我们知道伦敦人使用“阳光”这个词比纽约人多出两倍(因为任何原因),所以在M1中,使用“晴天”的概率将为0.04,在M2中“晴天“= 0.02。对其他文本电视,杂志等进行裁判,我们可以定义伦敦(M1)和纽约(M2)的人用什么概率来使用其他词,并且我们创建一个如上所示的表格。

现在我们有一个句子“她是一个阳光的女孩”,我们不知道它在伦敦或纽约的人。

参考表格我们可以猜测这更可能来自伦敦人(M1),因为他们更多地使用这个词!