text-normalization

    0热度

    1回答

    有什么办法在Javascript中将字符串转换为normal form C?我知道node.js中的unorm,但我对浏览器中的JS感兴趣,所以合理的标准浏览器API都可以。

    45热度

    2回答

    我需要比较2个字符串作为等于诸如这些: 吕贝克==吕贝克 在JavaScript。 为什么?好吧,我有一个使用Lucene的,其中地名自然存储(如吕贝克)走出去Java服务自动完成场,而且还建立索引标准化文本, import sun.text.Normalizer; oDoc.setNameLC = Normalizer.normalize(oLocName, Normalizer.DECOMP

    0热度

    1回答

    我需要紧急帮助。我无法比较charset字符串。写入数据库table1的字符串是utf-8 charset,但看起来仍然很奇怪:SADI 但是,写入到同一个数据库中的table2的字符串是SADI,这是正常的。每当我比较两者时,它会给出错误。 任何想法如何进行比较? (实际上比较应该会给出真实结果) 任何想法如何将SADI作为SADI插入数据库。 要么希望是一个解决方案。

    1热度

    2回答

    我有几个文本文件,有很多文本之间的换行,我想正常化,但没有模式例如达到文本之间的新行: Text Some text More text More more 所以我想改变其中换行的数量大于X到Y,所以我们可以说,当有5个连续的换行符时,它变成了2,10它变成了3. 我目前的问题是我不知道应该如何去确定哪条线将不得不正常化。 我知道我可以指望采用分体式的

    3热度

    2回答

    我正在使用Ruby的StringScanner来标准化一些英文文本。 def normalize text s = '' ss = StringScanner.new text while ! ss.eos? do s += ' ' if ss.scan(/\s+/) # mutiple whitespace => single space

    1热度

    1回答

    问题背景:汉字是由单词本身组成的字。我有一个代表中国字3个节点每一个与属性字具有字符串值: 节点(1): “一” 节点(2): “b” 的 节点(3): “AB” 问题1:从节点(3)开始使用Cypher,如何找到构成节点(3)的字符串的节点(1)和(2)?如果会有另一个节点(4):“dabc”,我将如何查找长度不是图的一部分的所有单词(“d”和“c”没有节点)? 我知道我可以明确地建立这些节点之