2015-06-29 38 views
0

我试图用我所有的国家城市和州(在这里称为departamentos)制作一个json文件。我从来没有发现一个完整的清单,但现在我继维基百科的用户在这个环节上榜:使用RegEx获取字符串的特定部分

https://es.wikipedia.org/wiki/Anexo:Municipios_de_Colombia

我已经复制并粘贴在文档中的所有文本,使得一个新行每个城市像这样:

亚科皮ES UNApoblaciónŸMUNICIPIO德尔阿雅去昆迪纳马卡

目前我能够选择使用正则表达式的城市,这样的表达:

/.+?(?= ES)/

它需要一切从行开始到那里会见“ES”的第一次,这是一个普通的惯例每个维基百科页面中的行。

现在我想实现的是使用同一行正则表达式,也得到可以是最后或最后两个单词的状态。我认为可以通过选择“de”之后的任何内容来达到。但我卡住了。

任何帮助将不胜感激,也许世界各地的其他人可以开始制作json文件出维基百科。

回答

1

这似乎适用于至少以A开头的城市。我没有测试所有这些。

/^(.*?) es.*de (.*)$/gm 

在这里玩。 https://regex101.com/r/yJ3gK7/1(这个空格是从wiki上粘贴的,在这里应该不是很重要。)

+0

这正是我需要的,像魅力一样的作品。将实现它,输出json并从中获得主要内容。我希望这也适用于其他国家。谢谢你timoh! – marcovega

相关问题