我为我的博客创建了一个非常基本的搜索选项,并且按照主题和关键词生成结果,但是我正在寻找的是在某些文章中我必须添加链接所以如果我的搜索可以通过这些基本上是外部网站的链接,例如,如果我指的是其他人的博客了解更多信息,然后搜索从中找到。是否有可能?我不想去GCSE。 在此先感谢。这将有很大的帮助。blog_website的搜索引擎(在链接中搜索)
再次感谢。
我为我的博客创建了一个非常基本的搜索选项,并且按照主题和关键词生成结果,但是我正在寻找的是在某些文章中我必须添加链接所以如果我的搜索可以通过这些基本上是外部网站的链接,例如,如果我指的是其他人的博客了解更多信息,然后搜索从中找到。是否有可能?我不想去GCSE。 在此先感谢。这将有很大的帮助。blog_website的搜索引擎(在链接中搜索)
再次感谢。
是的,可以编写一个机器人从链接抓取外部网站。我做了一个。它抓取了100K +网站的网址。所以是的,有可能创建一个,它可以从您的博客中抓取链接。
要创建一个搜索引擎,你需要知道关于他们是如何工作的一些内部...
搜索机器人工作是这样的:
解析器将HTML拆分成块,以便可以从页面提取数据。这有2个子组件,它...
a。从您想要捕获的页面提取任何数据&然后将该数据保存到数据库中。
b。提取链接&将它们放回到抓取队列中。这将创建一个无限循环,让你的机器人永远不会停止爬行......(除非别人的恶意URL崩溃了,它发生了很多。所以要准备好经常修复它。)
索引创建查找的索引,将关键字映射到网页的内容。这有2个子组件,因为它...
a。创建一个Forward Index,它将每个文档映射到该文档中的关键字。
doc1 | bird, aviary, robin, dove, blue jay, cardinal
doc2 | birds, bird watching, binoculars
doc3 | cats, eat, birds
doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
doc5 | dog, shows, look, fun
b。从Forward Index创建一个Inverted Index,这反转了索引。这允许用户通过关键字&进行搜索,然后搜索脚本查找&建议哪些文档,用户可能想查看。是这样的...
bird | doc1, doc2
cat | doc3, doc4
dog | doc4, doc5
搜索表单工作是这样的:
例子:
搜索:
"bird" returns links to "doc1, doc2"
"cat" returns links to "doc3, doc4"
"dog" returns links to "doc4, doc5"
好运建立您的搜索引擎为您的博客!
非常感谢你的回答,我会努力工作,肯定会回来更怀疑:) –
请问您可以编辑您的Q,以便它不会读作1个长时间运行的句子?另外,请您澄清缩写GCSE是什么?我从未见过这个缩写词。 – Clomp