为法语和编程语言选择良好的分析器

我正在研究搜索引擎（Java J2ee，Hibernate，Hibernate Search和Lucene）。我分析文档内容。我所有的系统都可以，但一个问题是持续存在的。分析仪的选择！为法语和编程语言选择良好的分析器

我的文件是法文的，因为这些研究都是法文的，所以这很重要。但我的搜索引擎应该能够搜索像编程语言名称（Java，COBOL，C，C＃，C++，....）

我现在使用的是Lucene的法语分析器，问题是条款“C”，“C++”，“C＃”的请求结果。我想有：[“C”或“C++”或“C＃”] =>“C”但我有=>“”我真的是这些技术的新手，我想知道应该使用哪个分析仪或者是否需要实施特定分析仪。

（我使用hibernate搜索3.0.0.GA（这是非常旧的...），我无法更改版本）。

Thanxs

来源

2014-05-13 user3327940

见FrenchAnalyzer.FRENCH_STOP_WORDS， “C” 是法国停用词。您可以通过相应的FrenchAnalyzer constructor定义您自己的停止设置。

您可以从默认设置开始，并在定义自己的时候删除不需要的停用词。完全默认法语停止设置是：

"a", "afin", "ai", "ainsi", "après", "attendu", "au", "aujourd", "auquel", "aussi", 
"autre", "autres", "aux", "auxquelles", "auxquels", "avait", "avant", "avec", "avoir", 
"c", "car", "ce", "ceci", "cela", "celle", "celles", "celui", "cependant", "certain", 
"certaine", "certaines", "certains", "ces", "cet", "cette", "ceux", "chez", "ci", 
"combien", "comme", "comment", "concernant", "contre", "d", "dans", "de", "debout", 
"dedans", "dehors", "delà", "depuis", "derrière", "des", "désormais", "desquelles", 
"desquels", "dessous", "dessus", "devant", "devers", "devra", "divers", "diverse", 
"diverses", "doit", "donc", "dont", "du", "duquel", "durant", "dès", "elle", "elles", 
"en", "entre", "environ", "est", "et", "etc", "etre", "eu", "eux", "excepté", "hormis", 
"hors", "hélas", "hui", "il", "ils", "j", "je", "jusqu", "jusque", "l", "la", "laquelle", 
"le", "lequel", "les", "lesquelles", "lesquels", "leur", "leurs", "lorsque", "lui", "là", 
"ma", "mais", "malgré", "me", "merci", "mes", "mien", "mienne", "miennes", "miens", "moi", 
"moins", "mon", "moyennant", "même", "mêmes", "n", "ne", "ni", "non", "nos", "notre", 
"nous", "néanmoins", "nôtre", "nôtres", "on", "ont", "ou", "outre", "où", "par", "parmi", 
"partant", "pas", "passé", "pendant", "plein", "plus", "plusieurs", "pour", "pourquoi", 
"proche", "près", "puisque", "qu", "quand", "que", "quel", "quelle", "quelles", "quels", 
"qui", "quoi", "quoique", "revoici", "revoilà", "s", "sa", "sans", "sauf", "se", "selon", 
"seront", "ses", "si", "sien", "sienne", "siennes", "siens", "sinon", "soi", "soit", 
"son", "sont", "sous", "suivant", "sur", "ta", "te", "tes", "tien", "tienne", "tiennes", 
"tiens", "toi", "ton", "tous", "tout", "toute", "toutes", "tu", "un", "une", "va", "vers", 
"voici", "voilà", "vos", "votre", "vous", "vu", "vôtre", "vôtres", "y", "à", "ça", "ès", 
"été", "être", "ô"

来源

2014-05-13 15:49:28 femtoRgon

我回来了，因为我不满意我的解决方案（不工作...）。我修改了StopWords列表（我压制了“c”字），并且在干部排除列表中放置了（“C”，“C++”，“C＃”）。我修改了构造函数来设置Stem排除列表。

在我的课堂索引的文件我已经有了：

// I've verified my custom constructor was called 
@Analyzer(impl = CustomFrenchAnalyzer.class) 
...

我创建我的自定义分析构建查询的打印和发送到Lucene的，对于关键字C，C++，C＃查询是SContent：c（而不是c，C++或c＃就像我会）

如果有人知道为什么？

这里是我CustomFrenchAnalyzer类：

public class CustomFrenchAnalyzer extends Analyzer { 

protected static final Log LOG = LogFactory.getLog(CustomFrenchAnalyzer.class); 
/** 
* Extended list of custom French stopwords (Without "c"). 
*/ 
public final static String[] FRENCH_STOP_WORDS = { "a", "afin", "ai", "ainsi", "après", "attendu", "au", "aujourd", "auquel", "aussi", "autre", "autres", "aux", "auxquelles", "auxquels", "avait", 
     "avant", "avec", "avoir", "car", "ce", "ceci", "cela", "celle", "celles", "celui", "cependant", "certain", "certaine", "certaines", "certains", "ces", "cet", "cette", "ceux", "chez", 
     "ci", "combien", "comme", "comment", "concernant", "contre", "d", "dans", "de", "debout", "dedans", "dehors", "delà", "depuis", "derrière", "des", "désormais", "desquelles", "desquels", 
     "dessous", "dessus", "devant", "devers", "devra", "divers", "diverse", "diverses", "doit", "donc", "dont", "du", "duquel", "durant", "dès", "elle", "elles", "en", "entre", "environ", 
     "est", "et", "etc", "etre", "eu", "eux", "excepté", "hormis", "hors", "hélas", "hui", "il", "ils", "j", "je", "jusqu", "jusque", "l", "la", "laquelle", "le", "lequel", "les", 
     "lesquelles", "lesquels", "leur", "leurs", "lorsque", "lui", "là", "ma", "mais", "malgré", "me", "merci", "mes", "mien", "mienne", "miennes", "miens", "moi", "moins", "mon", "moyennant", 
     "même", "mêmes", "n", "ne", "ni", "non", "nos", "notre", "nous", "néanmoins", "nôtre", "nôtres", "on", "ont", "ou", "outre", "où", "par", "parmi", "partant", "pas", "passé", "pendant", 
     "plein", "plus", "plusieurs", "pour", "pourquoi", "proche", "près", "puisque", "qu", "quand", "que", "quel", "quelle", "quelles", "quels", "qui", "quoi", "quoique", "revoici", "revoilà", 
     "s", "sa", "sans", "sauf", "se", "selon", "seront", "ses", "si", "sien", "sienne", "siennes", "siens", "sinon", "soi", "soit", "son", "sont", "sous", "suivant", "sur", "ta", "te", "tes", 
     "tien", "tienne", "tiennes", "tiens", "toi", "ton", "tous", "tout", "toute", "toutes", "tu", "un", "une", "va", "vers", "voici", "voilà", "vos", "votre", "vous", "vu", "vôtre", "vôtres", 
     "y", "à", "ça", "ès", "été", "être", "ô" }; 

/** 
* Contains the stopwords used with the StopFilter. 
*/ 
private Set stoptable = new HashSet(); 
/** 
* Contains words that should be indexed but not stemmed. 
*/ 
private Set excltable = new HashSet<String>(Arrays.asList("C", "C++", "C#")); 
private String[] exclListe = { "C", "C++", "C#" }; 

/** 
* Builds an analyzer with the default stop words ({@link #FRENCH_STOP_WORDS}). 
*/ 
public CustomFrenchAnalyzer() { 
    setStemExclusionTable(exclListe); 
    stoptable = StopFilter.makeStopSet(FRENCH_STOP_WORDS); 
} 

/** 
* Builds an analyzer with the given stop words. 
*/ 
public CustomFrenchAnalyzer(String[] stopwords) { 
    stoptable = StopFilter.makeStopSet(stopwords); 
} 

/** 
* Builds an analyzer with the given stop words. 
* 
* @throws IOException 
*/ 
public CustomFrenchAnalyzer(File stopwords) throws IOException { 
    stoptable = new HashSet(WordlistLoader.getWordSet(stopwords)); 
} 

/** 
* Builds an exclusionlist from an array of Strings. 
*/ 
public void setStemExclusionTable(String[] exclusionlist) { 
    excltable = StopFilter.makeStopSet(exclusionlist); 
} 

/** 
* Builds an exclusionlist from the words contained in the given file. 
* 
* @throws IOException 
*/ 
/* 
* public void setStemExclusionTable(File exclusionlist) throws IOException { excltable = new HashSet(WordlistLoader.getWordSet(exclusionlist)); } 
*/ 

/** 
* Creates a TokenStream which tokenizes all the text in the provided Reader. 
* 
* @return A TokenStream build from a StandardTokenizer filtered with StandardFilter, StopFilter, FrenchStemFilter and LowerCaseFilter 
*/ 
public final TokenStream tokenStream(String fieldName, Reader reader) { 

    if (fieldName == null) 
     throw new IllegalArgumentException("fieldName must not be null"); 
    if (reader == null) 
     throw new IllegalArgumentException("reader must not be null"); 

    TokenStream result = new StandardTokenizer(reader); 
    result = new StandardFilter(result); 
    result = new StopFilter(result, stoptable); 
    result = new FrenchStemFilter(result, excltable); 
    // Convert to lowercase after stemming! 
    result = new LowerCaseFilter(result); 
    return result; 
} 
}

感谢

来源

2014-05-19 13:40:52 user3327940

为法语和编程语言选择良好的分析器

回答

相关问题