我试图从一个域回顾一组链接和内容。YQL刮整个网站/域
查询在谷歌将
"site:www.newswebsite.com search_term"
我已经看到了一些接近的东西来得到这个工作,但我似乎无法完全得到搜索横跨整个网站的工作,然后通过过滤搜索词。
这可能没有自定义数据表吗?
我试图从一个域回顾一组链接和内容。YQL刮整个网站/域
查询在谷歌将
"site:www.newswebsite.com search_term"
我已经看到了一些接近的东西来得到这个工作,但我似乎无法完全得到搜索横跨整个网站的工作,然后通过过滤搜索词。
这可能没有自定义数据表吗?
我到最后的底部。
select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse()
这搜索3网站,按日期排序和最新的第一。有一种替代方法可以扭转这种情况,但这似乎现在起作用。我认为这是降序=真正的排序内(字段='日期',降序='真')
非常有用,即使我这样说自己。
Christian Heilmann刚刚在YQL上写了一篇相当不错的文章,并从24ways website上的HTML数据源获取信息。
这似乎是越来越接近我, 选择HTML,从search.web抽象那里查询= “newswebsite.com SEARCH_TERM” – 2009-12-21 14:36:20
并进一步 选择标题,摘要,URL从search.web这里查询=” newswebsite.com search_term“ – 2009-12-21 14:40:27