2012-08-24 72 views
4

在英语中每个角色都有发生的百分比,这些百分比:在列表中的值,蟒蛇

A  B  C  D  E  F  G  H  I 
.0817 .0149 .0278 .0425 .1270 .0223 .0202 .0609 .0697 
J  K  L  M  N  O  P  Q  R 
.0015 .0077 .0402 .0241 .0675 .0751 .0193 .0009 .0599 
S  T  U  V  W  X  Y  Z 
.0633 .0906 .0276 .0098 .0236 .0015 .0197 .0007 

称为letterGoodness名单预定义为:

letterGoodness = [.0817,.0149,.0278,.0425,.1270,.0223,.0202,... 

我需要找到一个字符串的“优点”。例如,'I EAT'的优点是:.0697 + .1270 + .0817 + .0906 = .369。这是一个更大问题的一部分,但我需要解决这个问题来解决这个大问题。我开始是这样的:

def goodness(message): 
    for i in L: 
    for j in i: 

所以它将足以找出如何获得任何字符的出现百分比。你可以帮我吗? 该字符串只包含大写字母和空格。

+4

您有一个长度为26的数组。字符串中的每个字符都有一个ascii数字。编写一个方法将ascii编号转换为正确的数组索引。然后,您可以简单地迭代字符串,将O(n)中的优美值相加。 新编辑:如果你的字符串只有大写字母,那么是的,一个字典将删除我描述的散列函数的需要。 –

回答

12

letterGoodness是一本字典更好,那么你可以这样做:

sum(letterGoodness.get(c,0) for c in yourstring.upper()) 
#            #^.upper for defensive programming 

letterGoodness从列表转换为dictonary,你可以这样做:

import string 
letterGoodness = dict(zip(string.ascii_uppercase,letterGoodness)) 

如果你保证只能有大写字母和空格,你可以这样做:

letterGoodness = dict(zip(string.ascii_uppercase,letterGoodness)) 
letterGoodness[' '] = 0 
sum(letterGoodness[c] for c in yourstring) 

但是性能这里的收益可能非常小,所以我会赞成上面更强大的版本。


如果你坚持不让letterGoodness作为一个列表(我不建议这),您可以使用内置的ord获得指数(由cwallenpoole指出):

ordA = ord('A') 
sum(letterGoodness[ord(c)-ordA] for c in yourstring if c in string.ascii_uppercase) 

我现在懒得timeit,但是你可能想要定义一个临时集来保存string.ascii_uppercase - 它可能会使你的函数运行得更快一些(取决于如何优化str.__contains__set.__contains__进行比较):

ordA = ord('A') 
big_letters = set(string.ascii_uppercase) 
sum(letterGoodness[ord(c)-ordA] for c in yourstring.upper() if c in big_letters) 
+1

但是不要忘记丢弃非字母字符。 –

+0

啊,我看到你今天也在浏览python的问题。击败我8秒和代码启动。我可能会在明天再回来:D – chucksmash

+5

为了避免非字母问题,我会使用'letterGoodness.get(i.upper(),0)'而不是进行成员测试。 – DSM

1

您最好使用字典数据结构。

编辑:这不是我的原始代码,而是沿DSM建议更新的代码。

import string 

num_vals = [.0817, .0149, .0278, .0425, .1270, .0223, .0202, .0609, .0697 , .0015, .0077, 
      .0402, .0241, .0675, .0751, .0193, .0009, .0599, .0633, .0906, .0276, .0098, 
      .0236, .0015, .0197, .0007] 

letterGoodness = {letter : value for letter,value in map(None, string.ascii_uppercase, num_vals)} 

def goodness(message): 
    string_goodness = 0 
    for letter in message: 
     letter = letter.upper() 
     if letter in letterGoodness.keys(): 
      string_goodness += letterGoodness[letter] 
    return string_goodness 

print goodness("I eat") 

使用您所提供的测试案例:

print goodness("I eat") 

产生输出:

.369 

有一点要注意 - 作为建设在这里做需要Python的2.7+的字典。 Python 2.6+和dict()构造函数可以完成同样的事情。

+2

我不能把我的手指放在什么数量的重复线之前,我会将重复的摘要消除,但我相信,二十六个是在它之上。我认为大多数Python程序员会做更多的事情,比如@mgilson做的,并且在这方面看起来有点可疑。 – DSM

+0

有效评论。我使用编辑器中的查找/替换抽象了这些重复内容,但它对代码输出没有影响 - 结果不够优雅。 – chucksmash

+2

'map(None,...)'最好写成'zip(...)'。 – Marcin