我正试图在两个句子之间找到一些相似性度量。我使用了两个单词的单个语义相似性。但是我从我的句子中得出的字典中有很多词。我想从句子中删除一些我不认为传达关于内容的信息的单词。首先,我用较少的字母删除单词,但我认为它不可重复使用,因为它也删除了一些内容丰富的单词。哪些词可以省略?
看一些句子这里
"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
零件如果我有涉及这些词的文本文件,我就从我的字典中删除,并让只有翔实的话留在那里。
有没有,你知道英语,所以我可以用它来过滤我的字典这样的话任何列表?用于该类型的问题
我对这种类型的问题的方法是去除分布的头部和尾部。非常常见的词语(即停用词)几乎不会添加关于相似性的信息。相反,非常罕见的词往往是错别字。你必须小心唯一性的门槛。因人而异。 –
这是一个非常聪明的主意。感谢您的评论。我认为它也可能适用于其他语言。你可以请你的评论作为答案。所以,如果没有其他好的答案到来,我可以接受。 – petrichor