2017-08-25 67 views
0

如果我有一个字符串“你好,我是XYZ”它可以被标记为标记: - “你好”,“我”,“上午”,“XYZ”。但是,我将如何标记一个非空格分隔的字符串。 例如:“你好,IamXYZ”我如何标记非空格分隔的字符串?

+0

Tokenize是什么,英文单词?阅读字典并查看是否有任何组合匹配。但我期望很多字符串都会模糊(两个或多个有效的解析) – Kevin

回答

0

如果字符串中没有空格,则使用字典对其进行标记。

另一种方法是使用ngrams,但要小心字符串的长度,因为它可能会创建许多ngram!

+0

我将如何使用字典?我可以使用ngrams,但它会很耗时,我必须将它与我的字典中存在的每个单词的ngram进行比较。例如,如果它是WhereisIndia? (wh,he,er,re,ei,sI ....},我必须把{wh,他}与所有单词的重音进行比较,然后{wh,他,呃}与每个单词的二元组进行比较,等等。 –

相关问题