我有这样的代码正则表达式不与蟒蛇正常工作
site = hxs.select("//h1[@class='state']")
mydata = site.select("string()").extract()
cleaned_mydata = re.sub(ur'(\s)\s+', ur'\1', mydata[0], flags=re.MULTILINE + re.UNICODE)
log.msg(str(mydata),level=log.ERROR)
log.msg(str(cleaned_mydata),level=log.ERROR)
第一输出
ERROR: [u'\r\n 212\r\n jobs containing php in xxxx \r\n ']
其他输出
jobs containing php in xxxxxx
正则表达式也剥离212
数字与它。我该如何解决这个问题
什么是你想匹配? – npinti
我试图删除多个空格和结束行。我从互联网复制这个,我不知道它究竟做了什么 – user825904
作为一个测试,为什么不替换可见的东西,而不是:ur'\ 1',使用:'XYZ'。在运行正则表达式之前,为什么不移除\ r \ n?此外,当使用标志=他们应该OR'd在一起,而不是ADDED(即使用|不+ +) – fileoffset