我目前使用从difflib方法get_close_matches方法通过15000个字符串列表进行迭代,以获得最匹配的对大约15000串的另一个列表:更好的模糊匹配性能?
a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cutoff=.85)
它每值,这意味着它需要0.58秒将花费8,714秒或145分钟来完成循环。是否有另一种库/方法可能会更快或者提高此方法的速度?我已经尝试将两个阵列转换为小写字母,但它只会导致略微提高速度。
比赛结束后,您可以尝试从列表b中删除元素 – user1209304