2017-09-05 23 views
0

我在查找返回map[string]interface{}的函数,其中interface{}可以是切片,map[string]interface{}或值。在golang正则表达式中获取子组的名单

我的用例是解析像下面这样的WKT几何体并检索点值;例如,对于一个圆环多边形:

POLYGON ((0 0, 0 10, 10 10, 10 0, 0 0),(3 3, 3 7, 7 7, 7 3, 3 3))

正则表达式(匹配只对可读性目的整数余自愿集\ d):

(POLYGON \(
    (?P<polygons>\(
     (?P<points>(?P<point>(\d \d),){3,}) 
     (?P<last_point>\d \d)\),)* 
    (?P<last_polygon>\(
     (?P<points>(?P<point>(\d \d),){3,}) 
     (?P<last_point>\d \d)\))\) 
) 

我有一个函数(从SO复制),该检索一些信息,但它不是一个嵌套组,良好的和团体的名单:

func getRegexMatchParams(reg *regexp.Regexp, url string) (paramsMap map[string]string) { 
    match := reg.FindStringSubmatch(url) 
    paramsMap = make(map[string]string) 
    for i, name := range reg.SubexpNames() { 
     if i > 0 && i <= len(match) { 
      paramsMap[name] = match[i] 
     } 
    } 
    return match 
} 

看来这组point只获得1分。 example on playground

[编辑]我要的结果是这样的:

map[string]interface{}{ 
    "polygons": map[string]interface{} { 
     "points": []interface{}{ 
      {map[string]string{"point": "0 0"}},  
      {map[string]string{"point": "0 10"}},   
      {map[string]string{"point": "10 10"}},   
      {map[string]string{"point": "10 0"}}, 
     }, 
     "last_point": "0 0", 
    }, 
    "last_polygon": map[string]interface{} { 
     "points": []interface{}{ 
      {map[string]string{"point": "3 3"}},  
      {map[string]string{"point": "3 7"}},   
      {map[string]string{"point": "7 7"}},   
      {map[string]string{"point": "7 3"}}, 
     }, 
     "last_point": "3 3", 
    } 
} 

所以我还可以用它为不同的目的,如查询数据库和验证last_point =点,每个多边形[0]。

回答

2

尝试添加一些空格到正则表达式。

还要注意的是这台发动机将不保留是一个量化的外部分组内
(a|b|c)+所有捕获组值,其中该组将只包含最后a或b或c发现。

而且,你的正则表达式可以减少到这

(POLYGON\s*\((?P<polygons>\(\s*(?P<points>(?P<point>\s*(\d+\s+\d+)\s*,){3,})\s*(?P<last_point>\d+\s+\d+)\s*\)(?:\s*,\s*|\s*\)))+)

https://play.golang.org/p/rLaaEa_7GX


原:

(POLYGON\s*\((?P<polygons>\(\s*(?P<points>(?P<point>\s*(\d+\s+\d+)\s*,){3,})\s*(?P<last_point>\d+\s+\d+)\s*\),)*(?P<last_polygon>\(\s*(?P<points>(?P<point>\s*(\d+\s+\d+)\s*,){3,})\s*(?P<last_point>\d+\s+\d+)\s*\))\s*\))

https://play.golang.org/p/rZgJYPDMzl

请参阅下文了解这些组包含的内容。

(       # (1 start) 
     POLYGON \s* \(
     (?P<polygons>     # (2 start) 
      \(\s* 
      (?P<points>     # (3 start) 
       (?P<point>     # (4 start) 
        \s* 
        (\d+ \s+ \d+)    # (5) 
        \s* 
        , 
       ){3,}       # (4 end) 
      )        # (3 end) 
      \s*    
      (?P<last_point> \d+ \s+ \d+) # (6) 
      \s* \), 
    )*       # (2 end) 
     (?P<last_polygon>    # (7 start) 
      \(\s* 
      (?P<points>     # (8 start) 
       (?P<point>     # (9 start) 
        \s* 
        (\d+ \s+ \d+)    # (10) 
        \s* 
        , 
       ){3,}       # (9 end) 
      )        # (8 end) 
      \s* 
      (?P<last_point> \d+ \s+ \d+) # (11) 
      \s* \) 
    )        # (7 end) 
     \s* \) 
)        # (1 end) 

输入

POLYGON ((0 0, 0 10, 10 10, 10 0, 0 0),(3 3, 3 7, 7 7, 7 3, 3 3)) 

输出

** Grp 0    - (pos 0 , len 65) 
POLYGON ((0 0, 0 10, 10 10, 10 0, 0 0),(3 3, 3 7, 7 7, 7 3, 3 3)) 
** Grp 1    - (pos 0 , len 65) 
POLYGON ((0 0, 0 10, 10 10, 10 0, 0 0),(3 3, 3 7, 7 7, 7 3, 3 3)) 
** Grp 2 [polygons]  - (pos 9 , len 30) 
(0 0, 0 10, 10 10, 10 0, 0 0), 
** Grp 3 [points]  - (pos 10 , len 23) 
0 0, 0 10, 10 10, 10 0, 
** Grp 4 [point]  - (pos 27 , len 6) 
10 0, 
** Grp 5    - (pos 28 , len 4) 
10 0 
** Grp 6 [last_point] - (pos 34 , len 3) 
0 0 
** Grp 7 [last_polygon] - (pos 39 , len 25) 
(3 3, 3 7, 7 7, 7 3, 3 3) 
** Grp 8 [points]  - (pos 40 , len 19) 
3 3, 3 7, 7 7, 7 3, 
** Grp 9 [point]  - (pos 54 , len 5) 
7 3, 
** Grp 10    - (pos 55 , len 3) 
7 3 
** Grp 11 [last_point] - (pos 60 , len 3) 
3 3 

可能的解决方案

这不是不可能的。它只需要一些额外的步骤。
(顺便说一下,是不是有一个WKT库可以解析这个给你吗?)

现在,我不知道你的语言能力,所以这只是一个普遍的方法。

1.验证您要解析的表单。
这将验证并返回所有多边形集合作为All_Polygons组中的单个字符串。

目标POLYGON ((0 0, 0 10, 10 10, 10 0, 0 0),(3 3, 3 7, 7 7, 7 3, 3 3))

POLYGON\s*\((?P<All_Polygons>(?:\(\s*\d+\s+\d+(?:\s*,\s*\d+\s+\d+){2,}\s*\))(?:\s*,\(\s*\d+\s+\d+(?:\s*,\s*\d+\s+\d+){2,}\s*\))*)\s*\)

** Grp 1 [All_Polygons] - (pos 9 , len 55) 
(0 0, 0 10, 10 10, 10 0, 0 0),(3 3, 3 7, 7 7, 7 3, 3 3) 

2.如果1是成功的,设置使用All_Polygons串的输出的循环的匹配。

目标(0 0, 0 10, 10 10, 10 0, 0 0),(3 3, 3 7, 7 7, 7 3, 3 3)

(?:\(\s*(?P<Single_Poly_All_Pts>\d+\s+\d+(?:\s*,\s*\d+\s+\d+){2,})\s*\))

这一步是等同的找到所有类型的比赛。它应该匹配在Single_Poly_All_Pts组字符串中返回的单个多边形的所有点的连续值。

这将会给你这2场单独的比赛,这可以被放入一个临时阵列,具有2名值的字符串:

** Grp 1 [Single_Poly_All_Pts] - (pos 1 , len 27) 
0 0, 0 10, 10 10, 10 0, 0 0 

** Grp 1 [Single_Poly_All_Pts] - (pos 31 , len 23) 
3 3, 3 7, 7 7, 7 3, 3 3 

3.如果2是成功的,设置使用临时数组循环比赛输出步骤2.
这会给你个别点的每个多边形。

(?P<Single_Point>\d+\s+\d+)

再次,这是一个循环的匹配(或找到所有类型匹配的)。对于每个阵列元素
(多边形),这将产生各个点。

目标[件1] 0 0, 0 10, 10 10, 10 0, 0 0

** Grp 1 [Single_Point] - (pos 0 , len 3) 
0 0 
** Grp 1 [Single_Point] - (pos 5 , len 4) 
0 10 
** Grp 1 [Single_Point] - (pos 11 , len 5) 
10 10 
** Grp 1 [Single_Point] - (pos 18 , len 4) 
10 0 
** Grp 1 [Single_Point] - (pos 24 , len 3) 
0 0 

而且,

目标[件2] 3 3, 3 7, 7 7, 7 3, 3 3

** Grp 1 [Single_Point] - (pos 0 , len 3) 
3 3 
** Grp 1 [Single_Point] - (pos 5 , len 3) 
3 7 
** Grp 1 [Single_Point] - (pos 10 , len 3) 
7 7 
** Grp 1 [Single_Point] - (pos 15 , len 3) 
7 3 
** Grp 1 [Single_Point] - (pos 20 , len 3) 
3 3 
+0

谢谢您的简化,但是这不是我问。我编辑了我的问题,以更具体地说明预期的结果 – GwydionFR

+0

@GwydionFR - 它可能不是您想要听到的答案,但它告诉了您为什么您从未在“point”中获得超过1个值。这个'(?d (\ d \ d),){3,}'是一个量化的捕获组。这个组只包含它找到的最后一个'\ d \ d'。此外,您也有重复的捕获组名称。 – sln

+0

那么这意味着不可能得到我想要的结果?如果这是一种语言限制,那么我很好,我可以关闭这个主题 – GwydionFR