首先,我要感谢任何花时间帮助的人。互联网社区对学习非常重要。实施Kstemmer
总体目标:我输入.txt文件,在Eclipse中使用Java编译的The 2003 CIIR KStemmer进行抑制,并将干扰词列表输出到不同的.txt文件中。
简单:输入txt文件,将.TXT整理成字符串或字符数组,输出.TXT
问题:我不知道如何使用我的主代码中的词干。
我已经包括在一个类文件(KStemmer.java)的CIIR代码和进口下面的库:
Apache的lucene的-analyzers.jar
Apache的lucene.jar
的Lucene分析仪,共4.2.0.jar
Lucene的核心 - 3.4.0.jar
在我的主类(StemThis.Java)我想要做这样的事情:
String wordFromTextFile = new String(); // input word
String stemmedWord = new String(); // output word
printer = new PrintWriter("outputFile") // for file export
KStemmer newStemmer = new KStemmer(); // creating a stemmer
newStemmer.stem(wordFromTextFile); // stemming a word
stemmedWord = newStemmer.return(); // get stemmed word from stemmer
printer.println(stemmedWord); // desired output method
这显然是过于简单了。也许KStemmer不以这种方式工作。如何将字符串放入KStemmer并获得输出?