我有一个数据框,其中包含一列文本。我需要捕捉某个短语后面的数字(可能是最可能的1到4位数字的任意位数),即'楼层面积'或'楼面面积'。我的数据看起来类似以下内容:在R中提取特定文本中的一个数字
"A beautiful flat on the 3rd floor with floor area: 50 sqm and a lift"
"Newbuild flat. Floor Area: 30 sq.m"
"6 bed house with floor area 50 sqm, lot area 25 sqm"
如果我尝试只提取次数,或者我从平方米回头我有时会得到通过mistake.If人的很多区域可以帮我一个超前的正则表达式或在stringr类似,我会很感激。正则表达式对我来说是一个弱点。提前谢谢了。
为什么要使用前瞻/后视?使用stringr'str_match(df,“(?i)\\ bfloor area:?\\ s *(\\ d +)\\ s * sq”)'并获得第二列值('[,2]'): '> str_match(v,“(?i)\\ bfloor area:?\\ s *(\\ d +)\\ s * sq“)[,2] // [1]”50“”30“”50“' –