我正在用一对Perl模块解析一个HTML文档:HTML::TreeBuilder和HTML::Element。出于某种原因,每当一个标签的内容仅仅是
,这是可以预料的,它就会通过HTML ::元素作为一个奇怪的字符回到我以前从来没见过:为什么这个A0字符出现在我的HTML :: Element输出中?
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
我可以”不要复制这个字符,所以不能在谷歌中找到它,在字符映射中找不到它,奇怪的是当我用正则表达式搜索时,\w
发现它。当我将返回的文档转换为ANSI或UTF-8时,它完全消失。我在HTML :: Element文档中也找不到任何信息。
我该如何侦测并用null
这个更有用的东西来检测和替换这个角色,我将来应该如何处理这种奇怪的角色呢?
图像链接已经烂 –