2012-12-19 96 views
0

我正试图在两个句子之间找到一些相似性度量。我使用了两个单词的单个语义相似性。但是我从我的句子中得出的字典中有很多词。我想从句子中删除一些我不认为传达关于内容的信息的单词。首先,我用较少的字母删除单词,但我认为它不可重复使用,因为它也删除了一些内容丰富的单词。哪些词可以省略?

看一些句子这里

"Despite the fact that ..." 
"There's a debate such that ..." 
"To sum up ..." 
"Although ..., there is ..." 

零件如果我有涉及这些词的文本文件,我就从我的字典中删除,并让只有翔实的话留在那里。

有没有,你知道英语,所以我可以用它来过滤我的字典这样的话任何列表?用于该类型的问题

+1

我对这种类型的问题的方法是去除分布的头部和尾部。非常常见的词语(即停用词)几乎不会添加关于相似性的信息。相反,非常罕见的词往往是错别字。你必须小心唯一性的门槛。因人而异。 –

+0

这是一个非常聪明的主意。感谢您的评论。我认为它也可能适用于其他语言。你可以请你的评论作为答案。所以,如果没有其他好的答案到来,我可以接受。 – petrichor

回答

1

有共同的“停止词”列出了可用,例如,here

停止的话也可以稍微域相关的。例如,显然US Patent Full Text Database认为“权利要求”和“实施例”是非常常见的,这是我怀疑为非专利-特定文档真。

+0

其实我找的关键词是“停词”。当我搜索“最常用的单词”时,我看到语言课程:)非常感谢。 – petrichor

+1

是的,“停词”不是立即想到的术语。那些不熟悉该术语的人会怎么想到这一点? – kc2001

2

一种方法是除去分布的头部和尾部。非常常见的词语(即停用词)几乎不会添加关于相似性的信息。相反,非常罕见的词往往是错别字。你必须小心唯一性的门槛,它将取决于你的语料库的起源和异质性:用户生成的输入往往包含比来自维基百科等策划资源的内容更多的独特拼写错误。