2009-12-21 90 views
1

我试图从一个域回顾一组链接和内容。YQL刮整个网站/域

查询在谷歌将

"site:www.newswebsite.com search_term" 

我已经看到了一些接近的东西来得到这个工作,但我似乎无法完全得到搜索横跨整个网站的工作,然后通过过滤搜索词。

这可能没有自定义数据表吗?

+0

这似乎是越来越接近我, 选择HTML,从search.web抽象那里查询= “newswebsite.com SEARCH_TERM” – 2009-12-21 14:36:20

+0

并进一步 选择标题,摘要,URL从search.web这里查询=” newswebsite.com search_term“ – 2009-12-21 14:40:27

回答

2

我到最后的底部。

select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse() 

这搜索3网站,按日期排序和最新的第一。有一种替代方法可以扭转这种情况,但这似乎现在起作用。我认为这是降序=真正的排序内(字段='日期',降序='真')

非常有用,即使我这样说自己。

0

Christian Heilmann刚刚在YQL上写了一篇相当不错的文章,并从24ways website上的HTML数据源获取信息。