2008-09-19 72 views
3

我试图抓取两个独立的农场,但无法让它在任何一个上运行。他们都具有两个WFE,并将其他WFE配置为索引服务器。还有一台专用于查询的服务器和两台用于数据库的集群SQL 2005后端服务器。我没有成功尝试过至少50个不同的网站,我通过搜索引擎找到了解决方案。我已配置(扩展)我的Web App,以将http://servername:12345用作默认区域,将http://abc.companyname.com用作自定义和Intranet区域。当我进入每个那些到内容源,然后再尝试运行爬,我得到的爬网日志几个错误:MOSS 2007爬行

http://servername:12345回报:
“无法连接到服务器请确认网站是可访问的。“

http://abc.companyname.com回报:
“由采集删除(起始地址或包含此项目已被删除,因此该项目被删除的内容源。)。”

不过,我可以单击这两个网址和页面是可访问的。

任何想法?


更多信息:

我两讫,可以这么说,跑到另一抓取提供更新的样本。

我的内容来源是这样:

http://servername:33333
http://sharepoint.portal.fake.com
SPS3://服务器名称:33333

我现在爬网日志错误是:

SPS3://服务器名称:33333
PortalCrawl Web服务中的错误。

此URL

http://servername:33333/mysites
内容是由服务器,因为没有一个索引属性排除。

http://servername:33333/mysites
抓取

STS3://服务器:33333/contentdbid = {62a647a ...
抓取

STS3://服务器:33333

http://servername:33333
爬行

http://sharepoint.portal.fake.com
爬取程序无法与服务器通信。检查服务器是否可用并且防火墙访问配置是否正确。

我仔细检查了上面的错别字,我没有看到任何,所以这应该是一个准确的反映。

回答

4

要记住的一件事是,爬网SharePoint网站与爬网文件共享或非SharePoint网站不同。

其他一些简单的指针:

  • 的SPS3:协议是爬行用户配置文件用于人员搜索。您可以忽略抓取工具提到的任何内容,直到您准备好了用户配置文件。
  • 您的抓取帐户应该可以访问您的整个农场。如果您看到权限错误,请查找KB文章,该文章告诉您如何重置爬网帐户(这是特定的stsadm.exe命令)。如果您尝试抓取其他农场的内容,那么您需要另外做一些工作才能为您的抓取帐户授予访问权限。我认为这是你目前最大的问题。
  • 爬网程序(从索引服务器运行)将尝试访问公共URL。我之前有过服务器间通信问题;确保所有三台服务器都可以互相ping通,并确保索引服务器可以访问公共URL(打开索引服务器上的IE并检查它)。如果你有问题,是时候把你的索引服务器的hosts文件弄脏了。无论如何,这是SharePoint为你做的事情,所以不要觉得这样做太糟糕。如果您已经设置了集成Windows身份验证以外的任何设置,则必须更加努力才能使抓取工具正常工作。

无论如何,回复中有很多来回,所以我只是在那里寻找一堆建议,也许其中一个是针对目标的。

0

在“服务器上的服务”部分,检查搜索爬网帐户的属性,确保它已设置,并且有权访问这些网站。

1

我对您的服务器场拓扑有点困惑。作为WFE安装的机器不能成为索引器。安装为“完整”的计算机可以是索引器,查询和/或任意数量的计算机...

此外,您可能希望添加爬网规则,而不是更改默认内容访问帐户并运行)

你能看到有用的东西是否在你的索引器上的%commonprogramfiles%/ microsoft shared/web server extensions/12/logs?

日志文件可能有点冗长,你可以搜索“开始”或“完整”,这通常会让你到你的爬行开始日志中的行。

另外,在您的sql机器上,您可能能够从MSScrawlurlhistory表中获取更多信息。

1

你能为http://www.cnn.com创建一个内容源并开始一个完整爬网了么?你有同样的错误吗?

此外,我们可能想要脱机,让我知道如果你想这样做。

我不确定是否有办法通过stackoverflow发送私人消息。

0

感谢您的新输入!

所以我从我的周末回来,我想通过你的指针,尝试每一个,然后报告他们如何不工作,然后发布我得到的结果。不过,有趣的事情发生了。

我去了我的索引器(servername5),我尝试从Internet Explorer连接到Central Admin和主门户。都没有工作。所以我进入了Indexer的IIS,尝试从IIS内部浏览主门户。这也没有奏效,我收到一个错误,告诉我其他人正在使用该端口。所以我从以前的版本中看到了我的旧网站,并将其从相应的应用程序池中从IIS中删除。然后,我从新版本开始为该网站开发App Pool并浏览网站。成功。然后我从自己的PC上的浏览器浏览网站。再次成功。再次

http://sharepoint.portal.fake.com

成功:然后我跑了爬行通过完整的URL,而不是服务器名称,像这样。它像我想要的那样爬满整个门户网站,包括子网站。 “索引中的项目”很快就被填充了,我可以说我在滚动。

我仍然无法从servername5访问servername4上托管的中央管理站点。我不确定为什么不行,但我不知道在这一点上它很重要。

这是什么给我留下的?什么是修复?

我还不确定。也许这是重建。也许只要我重建了服务器场,我就拥有了所有我需要的工具,但它不能工作,因为之前的网站仍然在IIS中。 (有趣的是,卸载SharePoint可能会有多松散,手动删除内容数据库,网站和应用程序池似乎是必要的,而且可能不应该如此)。

无论如何,它现在正在运行我的“测试”农场,所以关键是让它在生产农场上工作。我希望在这个经历之后它不会如此困难。

感谢大家的帮助!

1

你的大部分问题都与Kerberos有关,听起来像。如果您没有应用基础架构更新,则Sharepoint将无法使用kerberos身份验证来访问具有非默认(80/443)端口的网站。这也是为什么(我敢打赌),当服务器4位于服务器4上时,您无法从服务器5访问CA.如果您没有正确设置SPN,则只能从安装它的机器访问CA.如果您已经使用端口80安装Sharepoint作为默认网址,那么您将可以毫无困难地执行本地共享点爬网。但通过设计,本地SharePoint站点爬网使用默认的URL访问SharePoint站点。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry了解更多关于如何让Kerberos & Sharepoint在一起工作的更多细节。