我正在使用Nutch 1.4和solr 3.3.0来爬行和索引我的法语网站。我的网站曾经是在iso8859-1。UTF-8字符显示不正确
目前我有solr下的2个索引。在第一个存储我的旧页面(在iso8859-1中)和第二个存储我的新页面(在utf-8中)。
我对这两个爬网作业使用相同的nutch配置来获取和索引我网站上的旧页面和新页面。我没有添加任何有关章程编码的设置(我认为)。
我在搜索应该在utf-8中的新页面时遇到问题。法语字符无法正确显示。但对于iso8859-1中的旧页面,一切似乎都很好。
我想知道是否有人可以指出我在正确的方向来解决这个问题。
我相信问题来自nutch,因为当我创建段的转储时,我在转储文件中看到了那些有趣的字符。
谢谢。
非常感谢Nikolay修复了我的问题。 – breakdown1986 2012-03-22 18:14:06