通过列表项

我有一个列表lst（与10K项目），查询词q，我想找到如果lst任何物品与q结束Efficent搜索。通过列表项

作为参考定时器I设定为1，则该语句：

x = q in lst

我尝试这些：

# obvious endswith method 
y = [k for k in lst if k.endswith(q)] 
# find method 
z = [k for k in lst if k.find(q, len(k)-len(q))] 
# regex 
v = [k for k in lst if re.search(q + '$', k)] 
# regex without list comprehension 
w = re.search(q + '~', '~'.join(lst) + '~')

与这些结果（定时针对x定时器）：

x: 1 
y: 650 
z: 1209 
v: 7160 
w: 241

所以我想我可以去正则表达式和加入列表，除非有更好的实现。

在现实世界中，我试图优化多次执行时的代码块，并且我发现该列表理解与.endswith方法是瓶颈。

来源

2016-07-14 vedar

是否只想找到，如果在'lst'任何物品与'q'结束，或者你需要一个列表以'q'结尾的项目？ – Greg

只是为了找到是否有这样的项目 - 真/假 – vedar

在正则表达式搜索中的'''.join（lst）'可以在循环外部分配，这给正则表达式搜索3倍提升，在这种类型的搜索中使用循环。 – vedar

我不认为正则表达式是要走的路。即使当我在循环外部指定joined = '~'.join(lst) + '~'时，q+'~' in joined优于re.search(q + '~', joined)（0.00093秒比0.0034秒）。

但是，假设您不会有连接的字符串，不需要它的方法可能会更快。生成器可能很有用，因为它只会在您需要时生成值（所以只要您在一个项目的末尾发现查询，就可以停止，而不是检查列表的其余部分）。

这是最快的了我：any(k for k in lst if k.endswith(q))

我的代码：

import timeit 

setup = ''' 

import string 
import random 
import re 

lst = [] 
for i in range(10000): 
    lst.append(random.choice(string.letters)+random.choice(string.letters)+random.choice(string.letters)+random.choice(string.letters)) 

q = 'ab' 

''' 

print "reference: " 
print round(min(timeit.Timer("q in lst", setup=setup).repeat(7,500)),5) 
# 0.05435 

print "\nreference with joined string: " 
print round(min(timeit.Timer("q+'~' in '~'.join(lst) + '~'", setup=setup).repeat(7,500)),5) 
# 0.05462 

print "\nendswith, with list approach: " 
print round(min(timeit.Timer("any([k for k in lst if k.endswith(q)])", setup=setup).repeat(7,500)),5) 
# 0.62998 

print "\nfind method: " 
print round(min(timeit.Timer("[k for k in lst if k.find(q, len(k)-len(q))]", setup=setup).repeat(7,500)),5) 
# 1.22274 

print "\nregex: " 
print round(min(timeit.Timer("[k for k in lst if re.search(q + '$', k)]", setup=setup).repeat(7,500)),5) 
# 3.73494 

print "\nregex without list comprehension: " 
print round(min(timeit.Timer("re.search(q + '~', '~'.join(lst) + '~')", setup=setup).repeat(7,500)),5) 
# 0.05435 

print "\nendswith, with generator approach: " 
print round(min(timeit.Timer("any((k for k in lst if k.endswith(q)))", setup=setup).repeat(7,500)),5) 
# 0.02052

来源

2016-07-14 15:33:49 Greg

非常好。我不知何故在连接中忘记了'q +'〜'，并且在将结果与代码中的生成器进行比较后，我发现这是最好的方法。谢谢:) – vedar

发生器中的any（）'是个不错的主意，但通常在我的循环中没有命中，所以它不像'q +'〜'in' – vedar

回答

相关问题