将文本从字典优先级替换为较长的字符串

我正在尝试编写一个程序来使用字典替换文件中的文本。将文本从字典优先级替换为较长的字符串

def preprocess(text, preprocessing_dict): 
    rc = re.compile('|'.join(map(re.escape, preprocessing_dict))) 
    def translate(match): 
    return preprocessing_dict[match.group(0)] 
    return rc.sub(translate, text)

我想在子串之前先替换较长的字符串。在大多数情况下，上面的代码片段似乎可以完成这项工作。例如，

preprocessing_dict = { 'ka': 'k', 'ka+i': '<k*' }

的ka+i任何实例由<k*和不k+i替换。

但是在较长版本的字典中（206键：从文本文件中读取值对），'na': 'n', 'na+i': '<n*'na+i的任何实例都被n+i替换。但ka+i仍然正常工作。

我希望你能指点我正确的方向。谢谢。

来源

2016-02-21 nsoum

词典没有排序，你不能依赖那个。 – jonrsharpe

您需要首先按排序顺序拉出按键。

keys = sorted(preprocessing_dict.keys(), key=len, reverse=True)

来源

2016-02-21 18:02:07

谢谢。仅供将来可能有类似问题的人（我？）参考。下面的变化工作：'def preprocess（text，preprocessing_dict，sorted_keys）：... map（re.escape，sorted_keys）'和'sorted_keys = sorted（preprocessing_dict.keys（），key = len，reverse = True）'' – nsoum

将文本从字典优先级替换为较长的字符串

回答

相关问题