2015-09-28 28 views
1

我试图用PLY编写一个语法分析文件中的路径。我正在进入轮班减少冲突,我不知道如何改变语法来修复它。 这是我试图解析的文件的一个例子。路径/文件名可以是任何可接受的linux路径。如何编写PLY语法来解析路径?

file : ../../dir/filename.txt 
file : filename.txt 
file : filename 

所以这里是我写的语法。

header : ID COLON path 

path : pathexpr filename 

pathexpr : PERIOD PERIOD DIVIDE pathexpr 
      | PERIOD DIVIDE pathexpr 
      | ID DIVIDE pathexpr 
      | 
filename : ID PERIOD ID 
      | ID    

这是我的代币。我正在使用包含ctokens库的PLY。只是为了节省写作自己的努力。

t_ID = r'[A-Za-z_][A-Za-z0-9_]*' 
t_PERIOD = r'\.' 
t_DIVIDE = r'/' 
t_COLON = r':' 

所以我相信这是一个转变降低在“文件名”的规则冲突,因为分析器不知道是否减少令牌“ID”,或为“ID期间ID”转变。我认为在没有路径(“文件名”)的情况下会出现另一个问题,它将在pathexpr中使用该标记而不是将其还原为空。

如何修复我的语法来处理这些情况?也许我需要更换我的令牌?

回答

0

简单的解决方案:使用左递归而不是右递归。

LR解析器(如PLY和yacc)宁愿左递归,因为它避免了必须展开解析器堆栈。它通常也更接近表达式的语义 - 当你想要真正解释语言并且不仅仅能够识别它时,这是非常有用的,而且在这种情况下,它经常会避免使用左边的因素。

例如,在这种情况下,每个路径段需要应用到前面的pathexpr,通过查找当前找到的目录中的段目录。解析器的操作很明确:在$ 1中查找$ 2。你如何正确的递归版本的行动?

所以,一个简单的变换:

header : ID COLON path 

path  : pathexpr filename 

pathexpr : pathexpr PERIOD PERIOD DIVIDE 
     | pathexpr PERIOD DIVIDE 
     | pathexpr ID DIVIDE 
     | 
filename : ID PERIOD ID 
     | ID 
+0

感谢您的帮助!从右递归更改为左可解决问题。 – jjm012

0

我想你可能在使用PLY而不是pyparsing来查看这些“t_xxx”名称。但这里是一个pyparsing解决您的问题,请参见下面有帮助的意见:

""" 
header : ID COLON path 

path : pathexpr filename 

pathexpr : PERIOD PERIOD DIVIDE pathexpr 
      | PERIOD DIVIDE pathexpr 
      | ID DIVIDE pathexpr 
      | 
filename : ID PERIOD ID 
      | ID 
""" 

from pyparsing import * 

ID = Word(alphanums) 
PERIOD = Literal('.') 
DIVIDE = Literal('/') 
COLON = Literal(':') 

# move this to the top, so we can reference it in a negative 
# lookahead while parsing the path 
file_name = ID + Optional(PERIOD + ID) 

# simple path_element - not sufficient, as it will consume 
# trailing ID that should really be part of the filename 
path_element = PERIOD+PERIOD | PERIOD | ID 

# more complex path_element - adds lookahead to avoid consuming 
# filename as a part of the path 
path_element = (~(file_name + WordEnd())) + (PERIOD+PERIOD | PERIOD | ID) 

# use repetition for these kind of expressions, not recursion 
path_expr = path_element + ZeroOrMore(DIVIDE + path_element) 

# use Combine so that all the tokens will get returned as a 
# contiguous string, not as separate path_elements and slashes 
path = Combine(Optional(path_expr + DIVIDE) + file_name) 

# define header - note the use of results names, which will allow 
# you to access the separate fields by name instead of by position 
# (similar to using named groups in regexp's) 
header = ID("id") + COLON + path("path") 

tests = """\ 
file: ../../dir/filename.txt 
file: filename.txt 
file: filename""".splitlines() 

for t in tests: 
    print t 
    print header.parseString(t).dump() 
    print 

打印

file: ../../dir/filename.txt 
['file', ':', '../../dir/filename.txt'] 
- id: file 
- path: ../../dir/filename.txt 

file: filename.txt 
['file', ':', 'filename.txt'] 
- id: file 
- path: filename.txt 

file: filename 
['file', ':', 'filename'] 
- id: file 
- path: filename 
+0

感谢您的回应!对不起,是的,我的意思是PLY。我最初希望使用pyparsing,但后来切换到PLY。我偶然混淆了这些名字。 – jjm012

0

我相信这应该语法工作,它具有能够recoganize状延伸,目录的路径的部分一个额外的好处,驱动等 我还没有做出解析器,只有这个语法。

fullfilepath : path SLASH filename 
path : root 
    | root SLASH directories 
root : DRIVE 
    | PERCENT WIN_DEF_DIR PERCENT 
directories : directory 
      | directory SLASH directories 
directory : VALIDNAME 
filename : VALIDNAME 
     | VALIDNAME DOT EXTENSION