2016-04-13 56 views
0

我为我的博客创建了一个非常基本的搜索选项,并且按照主题和关键词生成结果,但是我正在寻找的是在某些文章中我必须添加链接所以如果我的搜索可以通过这些基本上是外部网站的链接,例如,如果我指的是其他人的博客了解更多信息,然后搜索从中找到。是否有可能?我不想去GCSE。 在此先感谢。这将有很大的帮助。blog_website的搜索引擎(在链接中搜索)

再次感谢。

+0

请问您可以编辑您的Q,以便它不会读作1个长时间运行的句子?另外,请您澄清缩写GCSE是什么?我从未见过这个缩写词。 – Clomp

回答

0

是的,可以编写一个机器人从链接抓取外部网站。我做了一个。它抓取了100K +网站的网址。所以是的,有可能创建一个,它可以从您的博客中抓取链接。

要创建一个搜索引擎,你需要知道关于他们是如何工作的一些内部...

搜索机器人工作是这样的:

  1. 履带获取页面。这一步很简单,因为它使用curl
  2. 解析器将HTML拆分成块,以便可以从页面提取数据。这有2个子组件,它...

    a。从您想要捕获的页面提取任何数据&然后将该数据保存到数据库中。

    b。提取链接&将它们放回到抓取队列中。这将创建一个无限循环,让你的机器人永远不会停止爬行......(除非别人的恶意URL崩溃了,它发生了很多。所以要准备好经常修复它。)

  3. 索引创建查找的索引,将关键字映射到网页的内容。这有2个子组件,因为它...

    a。创建一个Forward Index,它将每个文档映射到该文档中的关键字。

    doc1 | bird, aviary, robin, dove, blue jay, cardinal 
    doc2 | birds, bird watching, binoculars 
    doc3 | cats, eat, birds 
    doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs 
    doc5 | dog, shows, look, fun 
    

    b。从Forward Index创建一个Inverted Index,这反转了索引。这允许用户通过关键字&进行搜索,然后搜索脚本查找&建议哪些文档,用户可能想查看。是这样的...

    bird | doc1, doc2 
    cat | doc3, doc4 
    dog | doc4, doc5 
    

搜索表单工作是这样的:

  1. 搜索显示HTML输入框给用户。
  2. 搜索脚本将搜索倒置索引以查找要在搜索引擎结果页面中显示的文档链接。
  3. 小号目录操作搜索Ë ngine [R esults P年龄(是的,SERP是搜索引擎结果页面的实际行业首字母缩写)。这将显示搜索结果链接的列表。你可以用任何你想要的方式来设计它的样式,它不一定像谷歌的,微软的Bing或雅虎的引擎。

例子:

搜索:

"bird" returns links to "doc1, doc2" 
"cat" returns links to "doc3, doc4" 
"dog" returns links to "doc4, doc5" 

好运建立您的搜索引擎为您的博客!

+0

非常感谢你的回答,我会努力工作,肯定会回来更怀疑:) –