从亚马逊云搜索中删除无效字符sdf

尝试将从pdf文件中提取的数据发布到亚马逊云搜索域进行索引时，由于数据中的无效字符，索引失败。从亚马逊云搜索中删除无效字符sdf

如何在发布到搜索结束点之前删除这些无效的文字记录器？

我试过逃跑并更换字符，但没有奏效。

2013-01-10 Khaleel

CloudSearch固定的问题，现在 – Guy

的文档均为英文只支持英语。 – Khaleel

我已经使用可用的解决方案here

RE_XML_ILLEGAL = u'([\u0000-\u0008\u000b-\u000c\u000e-\u001f\ufffe-\uffff])' + \ 
       u'|' + \ 
       u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])' % \ 
        (unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), 
        unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), 
        unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff)) 
x = u"<foo>text\u001a</foo>" 
x = re.sub(RE_XML_ILLEGAL, "?", x)

来源

2013-01-11 05:57:11 Khaleel

从亚马逊云搜索中删除无效字符sdf

回答

相关问题