我正在清理实体(人员,组织等)的“配置文件”的数据库,而配置文件的一个这样的部分是其本机中的个人的名称脚本(例如泰语),以UTF-8编码。在之前的数据结构中,我们没有捕获名称的字符集,所以现在我们有更多的记录无效值比手动审查。检测任意字符串的字符集/脚本
我需要在这一点上做的是,通过脚本,确定任何给定的名称是什么语言/脚本的样本数据集:
Name: "แผ่นดินต้น"
Script: NULL
Name: "አብርሃም"
Script: NULL
我需要
落得Name: "แผ่นดินต้น"
Script: Thai
Name: "አብርሃም"
Script: Amharic
我不需要翻译名称,只需确定它们在哪个脚本中。是否有一种确定这种事情的确定技术?
您可以https://metacpan.org/pod/Encode ::尝试猜测。它可能会告诉你它们中的很多是什么,然后你可以实际转换而不是删除。它不能猜到你可以删除。你可以添加一些你在数据库中的示例数据吗? – simbabque
Ligua ::识别是针对语言,而不是针对编码。我相信这样做效果不好。 – simbabque
@simbabque删除是完全不可能的,我们只能想出另一种方式来处理这些散户。不幸的是,我无法分享任何示例,但我将要处理的数据实际上并不比英语(可能)其他语言中的名称更复杂。 – Andy