Q

如何匹配查找表中的文本标记？

2014-01-18 23 views -1 likes

-1

我正在尝试对推文进行文本预处理。我感兴趣的是将推文文本中的标记与查找表中的标记进行匹配。例如，我有一个表/情感字词词典，我想检查一条推文是否包含这些词之一。如何匹配查找表中的文本标记？

此刻我的文本预处理如下：在一个字符串

商店鸣叫的文本。
用空格字符（String.split(" ")）对文本进行标记，并删除所有数字和奇怪的字符标记。我也删除所有提及和停用词。然后将令牌存储在字符串数组中。

这种做法导致了一些问题，在这里的解释是：

一个简单的方法就是比较与表中的字符串的标记，并检查它们是否匹配。这没关系，但这会导致下一个问题。
我也想检查文本是否包含表情符号（也存储在字典中）。现在我已经删除了所有奇怪的字符标记，我不能简单地执行之前的比较方法。人们可以说好，那么就不要删除数字和奇怪的字符标记，但这会导致以下问题。
我也想聚集文本，所以保留数字标记（或url）不是一个选项，因为它会降低集群质量。
保留两个版本的标记有一个内存问题，因为一切都是重复的。

我想知道是否有一种方法来匹配不需要重复的东西。也许使用正则表达式？

2014-01-18 Jack Twain

A

回答

-1

为什么不以相反的方式检查它。测试鸣叫字符串，如果它包含你的lut字符串。

tweetstring.contains（LUT [1]）

或更好

tweetstring.toLowerCase（）。包含（LUT [I] .toLowerCase（））

2014-01-18 14:36:02

相关问题