我有一组以下形式的单词。 (journalistic (((journalism:stem)ist:suffix)ic:suffix)
)。我试图解析为以下形式m解析文本文件
root- journalistic
stem suffix suffix
stem - journalism
suffix -ic
suffix -ic
的代码,我使用 从itertools导入takewhile
is_tab = '\('.__eq__
def build_tree(lines):
lines = iter(lines)
stack = []
for line in lines:
indent = len(list(takewhile(is_tab, line)))
stack[indent:] = [line.lstrip()]
print (stack)
source = '''
(journalistic (((journalism:stem)ist:suffix)ic:suffix))'''
build_tree(source.split('\n'))
它产生的输出:
['']
['(journalistic (((journalism:stem)ist:suffix)ic:suffix))']
的代码没有细分单词序列。 任何代码修复?
您的代码不足以解析字符串下面的表格。 –