多个occurances表达我需要解析具有多个语言代码行,如下经常用于在python
008800002 Bruxelles-Nord$Br�ussel Nord$<deu>$Brussel Noord$<nld>
008800002
是一个IDBruxelles-Nord$Br�ussel Nord$
是NAME1deu
是语言一个$Brussel Noord$
被称为两个nld
是语言二。
因此,想法是名称和语言可以出现N次。我需要收集他们。 <>
中的语言长度为3个字符(固定) ,所有名称以$
结尾。
我试过这个,但它没有给出预期的输出。
x = re.compile('(?P<stop_id>\d{9})\s(?P<authority>[[\x00-\x7F]{3}|\s{3}])\s(?P<stop_name>.*)
(?P<lang_code>(?:[<]\S{0,4}))',flags=re.UNICODE)
我不知道如何获得重复的元素。 需要
Bruxelles-Nord$Br�ussel Nord$<deu>$Brussel Noord$
作为stop_name和<nld>
作为语言。
您可能想先解决编码问题。它是'Brüssel',而不是'Br ussel'。 – georg 2014-10-01 09:48:39