2014-01-18 23 views
-1

我正在尝试对推文进行文本预处理。我感兴趣的是将推文文本中的标记与查找表中的标记进行匹配。例如,我有一个表/情感字词词典,我想检查一条推文是否包含这些词之一。如何匹配查找表中的文本标记?

此刻我的文本预处理如下:在一个字符串

  1. 商店鸣叫的文本。
  2. 用空格字符(String.split(" "))对文本进行标记,并删除所有数字和奇怪的字符标记。我也删除所有提及和停用词。然后将令牌存储在字符串数组中。

这种做法导致了一些问题,在这里的解释是:

  • 一个简单的方法就是比较与表中的字符串的标记,并检查它们是否匹配。这没关系,但这会导致下一个问题。
  • 我也想检查文本是否包含表情符号(也存储在字典中)。现在我已经删除了所有奇怪的字符标记,我不能简单地执行之前的比较方法。人们可以说好,那么就不要删除数字和奇怪的字符标记,但这会导致以下问题。
  • 我也想聚集文本,所以保留数字标记(或url)不是一个选项,因为它会降低集群质量。
  • 保留两个版本的标记有一个内存问题,因为一切都是重复的。

我想知道是否有一种方法来匹配不需要重复的东西。也许使用正则表达式?

回答

-1

为什么不以相反的方式检查它。测试鸣叫字符串,如果它包含你的lut字符串。

tweetstring.contains(LUT [1])

或更好

tweetstring.toLowerCase()。包含(LUT [I] .toLowerCase())

相关问题