如何将字符串转换为Python中的令牌列表？

当我输入这样的：如何将字符串转换为Python中的令牌列表？

>>>tokenize('<[2{12.5 6.0}](3 -4 5)>')

我想这回：

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

基本上，我将如何保持它使输入的一切转换成列表，同时保持数字原来的值。

来源

2013-08-01 Marshall Lyon

这是一个很好的问题。 – zsong

你在找Python中的lex工具吗？你可以试试PLY http://www.dabeaz.com/ply/。 – neuront

将字符串拆分为单个字符的列表。迭代列表一次，将类似数字的字符（数字，句点，连字符）组合在一起。再次遍历列表，将块转换为整数或浮点数。你完成了。 – misha

-2

所以这是一个与蟒蛇一个非常好的解决方案

list(my_string)做了标记化开始，但不会保留你喜欢的特性:(。

所以对于我们可以的，如果我们要使用一些比必要的机械

import re 
a = '<[2{12.5 6.0}](3 -4 5)>' 
tokenized = [x in re.split(r'[[!"#$%&\'()*+,\-/:;<=>[email protected][\\\]^_`{|}~ ]]*',a)) if x!=''] 
#or also 
tokens = [x in re.split(r'[[!"#$%&\'()*+,\-/:;<=>[email protected][\\\]^_`{|}~ ]]*',a)) if x]

这可以用任何语言/白板表达式中使用和标点符号距离strings.punctuation稍重，你可以自定义来界定上东西可以用正则表达式来表达 - 这几乎是一切。

使用re.compile预编译表达式，如果你正在一个巨大的字符串上运行它 - 你会得到更好的优化。在某些限制条件下，你也可以使用自动机;），这给了MASSIVE的好处

来源

2013-08-01 04:19:50

当然不是..（但我没有投票:)） – zsong

他想保持数字的原始价值。如果你做了list（），那么你也将数字标记为数字。请尝试。 – zsong

它确实将它们添加到列表中。但是，它打破了整个数字。我希望12.5保持为[12.5，6.0]。不是['1'，'2'，'。'，'5'] –

因此，蛮力，你可以使用list(your_string)，但一定要确定什么应该组合在一起，附加项目随着你去的元素。

其他解决方案可以有正则表达式，简单的语法库等，并且可以说是更容易理解。

编辑：对于非整数#s，你也可以注意到当遇到这样一个数字时，继续并改变新的解析的标记列表的前一个索引，当你到达下一个数字时，关闭，令牌等，你会在列表中创建一个全新的元素。

假设你把一切都变成新的列表作为字符串，这里是让你的花车&整数后面的一个方式：

for i, e in enumerate(tokenized): 
    if e.isdigit(): 
     tokenized[i] = int(e) 
    elif '.' in e: 
     tokenized[i] = float(e) 
    elif '-' in e and not '.' in e: 
     tokenized[i] = int(e)

最终的结果是你想要什么：

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

来源

2013-08-01 04:28:24 jheld

此外，该输入是否应该针对问题的输入建模？它可以更长吗？更先进？它是否始终以'<'开头并以'>'结尾？ – jheld

re.split可能是你想要的。查看similar question here。

将字符串拆分为列表后，可以遍历它并使用int()和float()将数字成员转换为实际数字。

来源

2013-08-01 04:29:58

您可以尝试使用tokenizer，除了像-4这样的负数，它会给出与预期几乎相同的结果，但它非常接近。

from StringIO import StringIO 
import tokenize 
str = '<[2{12.5 6.0}](3 -4 5)>' 
tokens = tokenize.generate_tokens(StringIO(str).readline) 
result = [x[1] for x in tokens]

下面是结果：

['[', '2', '{', '12.5', '6.0', '}', ']', '(', '3', '-', '4', '5', ')', '>', '']

来源

2013-08-01 04:37:40 zsong

不错，但令牌特定于Python，不可配置。 –

一个PLY解决

tokens = (
    'LT', 'GT', 'LPAREN', 'RPAREN', 'LBRACKET', 'RBRACKET', 'LBRACE', 'RBRACE', 
    'FLOAT', 'INTEGER', 
) 

t_LT = r'<' 
t_GT = r'>' 
t_LPAREN = r'\(' 
t_RPAREN = r'\)' 
t_LBRACKET = r'\[' 
t_RBRACKET = r'\]' 
t_LBRACE = r'{' 
t_RBRACE = r'}' 
t_ignore = r' ' 

def t_FLOAT(t): 
    r'-?\d*[.]\d+' 
    t.value = float(t.value) 
    return t 

def t_INTEGER(t): 
    r'-?\d+' 
    t.value = int(t.value) 
    return t 

def t_error(t): 
    raise ValueError('invalid input') 

import ply.lex as lex 
lex.lex() 

lex.input('<[2{12.5 6.0}](3 -4 5)>') 
tokens = list(iter(lex.token, None)) 
for t in tokens: 
    print repr(t.type), repr(t.value) 
print '>', [t.value for t in tokens]

输出：

'LT' '<' 
'LBRACKET' '[' 
'INTEGER' 2 
'LBRACE' '{' 
'FLOAT' 12.5 
'FLOAT' 6.0 
'RBRACE' '}' 
'RBRACKET' ']' 
'LPAREN' '(' 
'INTEGER' 3 
'INTEGER' -4 
'INTEGER' 5 
'RPAREN' ')' 
'GT' '>' 
> ['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

您需要安装PLY。要安装它，只需

# pip install ply

来源

2013-08-01 04:49:00 neuront

import re 

s = '<[2{12.5 6.0}](3 -4 5)>' 
p = re.compile(r"([-+]?(?:(?:\d*\.\d+)|(?:\d+\.?)))|(\S)") 

conv = lambda n: float(n) if '.' in n else int(n) 

[conv(m.group(1)) if m.lastindex==1 else m.group(2) for m in p.finditer(s)]

出来：

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

来源

2013-08-01 04:55:58 root

非常感谢！ –

import re 

def tokenize(txt): 

    output = [] 

    tokenized = re.split('([\<\>\[\]\{\}\(\)\s])',txt) 

    for t in tokenized: 
     if len(t.strip()) > 0: 
      if re.match("^\d+?\.\d+?$",t) is None: 
       if re.match("^[\d\-]\d*?$",t) is None: 
        output.append(t) 
       else: 
        output.append(int(t)) 
      else: 
       output.append(float(t)) 

    print(output) 


tokenize('<[2{12.5 6.0}](3 -4 5)>')

和输出：

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

来源

2013-08-01 05:14:13 traxs

下面的方法只使用正则表达式

import re 
def tokenize(your_string): 
    pattern = re.compile(r'([-+]?[0-9]*\.?[0-9]+)') # float pattern 
    digital = re.compile(r'([-+]?[0-9]*$)') 
    lst = [] 
    for item in pattern.split(your_string): 
     if not item.isspace(): # remove space 
      if pattern.match(item): 
       if digital.match(item): 
        lst.append(int(item)) 
       else: 
        lst.append(float(item)) # change string to float 
      else: 
       lst.extend(list(item)) # make unmatched string to character list 
    return lst 

print tokenize('<[2{12.5 6.0}](3 -4 5)>')

，其结果是

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

来源

2013-08-01 05:19:16

我最喜欢为这样的事情工具pyparsing。

from pyparsing import Word, ZeroOrMore, oneOf, nums 

def tokenize(s): 
    number = Word(nums + '.' + '-') 
    number.setParseAction(lambda x : eval(x[0])) 
    punctuation = '< > [ ] () { }' 
    lexeme = number | oneOf(punctuation) | ' ' 
    tokenizer = ZeroOrMore(lexeme) 

    return tokenizer.parseString(s) 


print tokenize('<[2{12.5 6.0}](3 -4 5)>')

输出：

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

与PLY，你可以用pip install pyparsing安装（你可以安装带有easy_install pip点子，如果你没有的话）。同样在实际使用中，您可能不希望每次调用都创建pyparsing对象，因此它们可能是全局的，等等。

来源

2013-08-01 06:35:07 johncip

另外，提示：将oneOf（标点符号）更改为Suppress（oneOf（标点符号））会给出输出[2,12.5,6。0，3，-4，5] – johncip

如何将字符串转换为Python中的令牌列表？

回答

相关问题