2017-10-09 35 views
0
<span style='mso-tab-count:1'>         </span> 
<span style='mso-tab-count:1'>   </span> 

上面的底线来自“查看源代码”页面,顶行来自Chrome开发者工具源代码视图。下面的RegEx匹配底部标签,它包含一系列空格,但不包括顶部标签,它们只包含空的空格。在https://regex101.com/r/P9dUP9/2匹配由Chrome devtools源视图创建的空白区域?

(<span style='mso-tab-count:1'>)\s{2,}(<\/span>) 

见到这对正则表达式测试仪我如何才能让正则表达式也匹配上线了,我怎么能知道屏幕上的两种空白之间的区别,而不复制和粘贴两者成文本编辑器?

感谢正则表达式新手谢谢你,由于时区差异,我将无法检查并确认答案再过12小时。

+0

我在网站上转换表格数据的2500个字符的逗号分隔的列表。该表还包含约2500个空间。但源代码是由文字处理器生成的,该文字处理器将表格的文件大小扩大到50,000个字符,其中4000个是空格,而16,000个是XML,这似乎与表格无关。我使用正则表达式来清除膨胀和CSS,只留下数据,因为我不知道如何使用java或jsoup。 – Commata

回答

0

我想这是一个不可打印的控制字符。我的十六进制编辑器告诉我这是\x20,但这并不是我所掌握的。最好的办法是使用排除如:

(<span style='mso-tab-count:1'>)[^<]{2,}(<\/span>)

(<span style='mso-tab-count:1'>)\W{2,}(<\/span>)

+0

这正是我所需要的。日* NKS! – Commata