text-normalization

0热度

1回答

有什么办法在Javascript中将字符串转换为normal form C？我知道node.js中的unorm，但我对浏览器中的JS感兴趣，所以合理的标准浏览器API都可以。

45热度

2回答

我需要比较2个字符串作为等于诸如这些：吕贝克==吕贝克在JavaScript。为什么？好吧，我有一个使用Lucene的，其中地名自然存储（如吕贝克）走出去Java服务自动完成场，而且还建立索引标准化文本， import sun.text.Normalizer; oDoc.setNameLC = Normalizer.normalize(oLocName, Normalizer.DECOMP

0热度

1回答

字符集比较

我需要紧急帮助。我无法比较charset字符串。写入数据库table1的字符串是utf-8 charset，但看起来仍然很奇怪：SADI 但是，写入到同一个数据库中的table2的字符串是SADI，这是正常的。每当我比较两者时，它会给出错误。任何想法如何进行比较？（实际上比较应该会给出真实结果）任何想法如何将SADI作为SADI插入数据库。要么希望是一个解决方案。

1热度

2回答

正常化来自异常换行符的文本文件？

我有几个文本文件，有很多文本之间的换行，我想正常化，但没有模式例如达到文本之间的新行： Text Some text More text More more 所以我想改变其中换行的数量大于X到Y，所以我们可以说，当有5个连续的换行符时，它变成了2，10它变成了3. 我目前的问题是我不知道应该如何去确定哪条线将不得不正常化。我知道我可以指望采用分体式的

3热度

2回答

如何从StringScanner捕获项目？

我正在使用Ruby的StringScanner来标准化一些英文文本。 def normalize text s = '' ss = StringScanner.new text while ! ss.eos? do s += ' ' if ss.scan(/\s+/) # mutiple whitespace => single space

1热度

1回答

Neo4j Cypher中的字符串规范化 - 如何？

问题背景：汉字是由单词本身组成的字。我有一个代表中国字3个节点每一个与属性字具有字符串值：节点（1）： “一” 节点（2）： “b” 的节点（3）： “AB” 问题1：从节点（3）开始使用Cypher，如何找到构成节点（3）的字符串的节点（1）和（2）？如果会有另一个节点（4）：“dabc”，我将如何查找长度不是图的一部分的所有单词（“d”和“c”没有节点）？我知道我可以明确地建立这些节点之