2012-08-04 14 views
0

可能重复:
Get random site names in bash获取随机网站的链接在bash

我正在做一个项目为已找到的网页上的文字的出现了大学。我需要制定一种算法来查找网站并计算所用单词的数量,然后记录它们并根据它们的使用次数进行排序。因此,我的程序检查的大多数网站越好。首先我想计算随机IP,但问题是这个过程需要的太多了(我离开计算机搜索整晚,只发现了15个站点)。我想这是因为网站的IP不是均匀分布在网络上,大部分IP都属于用户或其他服务。现在我有一个新的方法在脑海中,我想知道你们的想法:

如果我通过谷歌使用某种字典进行随机搜索会怎样?字典从一开始就会是空的,每次执行搜索时,我都会检查一个网站,并且只会向字典添加一次出现的单词,这样就不会再通过破坏发生的情况将我发送到该网站。

这很简单吗?

我想要做的第一件事就是在谷歌搜索中搜索随机页面,而不仅仅是第一个,这怎么做?我无法弄清楚如何计算该搜索页面,以及如何最大号码直接转到特定页面

感谢

+0

您能澄清一下你的意思吗?'我检查一个网站,并且只添加一次发生的字词,这样就不会再通过破坏发生的事件将我发送到该网站'。 我不明白这是如何阻止你访问一个网站两次。 – WaelJ 2012-08-04 15:11:28

回答

0

虽然我不认为你可以(或应该)做为此在请单独看看Google Custom Search APIthis question。它允许直接以编程方式查询Google搜索。

至于使用什么疑问,您可以求助于从字典文件中随机挑选的话 - 尽管这不会给你一个均匀分布像“猫”字“epichorial”更受欢迎,说。如果你需要考虑到这些差异,你可以使用word frequency dictionary,虽然这似乎是你自己研究的重点,所以也许这不合适。