我有一个Yahoo管道从Google组采用Atom源,我想对消息的全文(运行各种正则表达式以提取数据)执行一些处理。我可以用一个url像这样获得来自谷歌的纯文本邮件的文本:在Yahoo管道中获取纯文本
http://groups.google.com/group/(group_name)/msg/(message_id)?dmode=source&output=gplain
但是,我无法得到它的雅虎管道内部作为一个字符串值。抓取页面会拒绝非HTML页面。使用HTML表格YQL似乎工作,并包装AP元素中的纯文本,其文本我可以提取这样的:
select * from html where url="..." and xpath="//p"
但是,如果消息文本包含HTML标记,YQL返回一个HTML子树,而不是一个字符串。有什么办法可以将它平面化回到它的HTML源代码中吗?
您可以发布链接到管? – Victor 2009-10-23 10:03:44