MOSS 2007爬行

我试图抓取两个独立的农场，但无法让它在任何一个上运行。他们都具有两个WFE，并将其他WFE配置为索引服务器。还有一台专用于查询的服务器和两台用于数据库的集群SQL 2005后端服务器。我没有成功尝试过至少50个不同的网站，我通过搜索引擎找到了解决方案。我已配置（扩展）我的Web App，以将http://servername:12345用作默认区域，将http://abc.companyname.com用作自定义和Intranet区域。当我进入每个那些到内容源，然后再尝试运行爬，我得到的爬网日志几个错误：MOSS 2007爬行

http://servername:12345回报：
“无法连接到服务器请确认网站是可访问的。“

http://abc.companyname.com回报：
“由采集删除（起始地址或包含此项目已被删除，因此该项目被删除的内容源。）。”

不过，我可以单击这两个网址和页面是可访问的。

任何想法？

更多信息：

我两讫，可以这么说，跑到另一抓取提供更新的样本。

我的内容来源是这样：

http://servername:33333
http://sharepoint.portal.fake.com
SPS3：//服务器名称：33333

我现在爬网日志错误是：

SPS3：//服务器名称：33333
PortalCrawl Web服务中的错误。

此URL

http://servername:33333/mysites
内容是由服务器，因为没有一个索引属性排除。

http://servername:33333/mysites
抓取

STS3：//服务器：33333/contentdbid = {62a647a ...
抓取

STS3：//服务器：33333
爬

http://servername:33333
爬行

http://sharepoint.portal.fake.com
爬取程序无法与服务器通信。检查服务器是否可用并且防火墙访问配置是否正确。

我仔细检查了上面的错别字，我没有看到任何，所以这应该是一个准确的反映。

来源

2008-09-19 RJ Russell

要记住的一件事是，爬网SharePoint网站与爬网文件共享或非SharePoint网站不同。

其他一些简单的指针：

的SPS3：协议是爬行用户配置文件用于人员搜索。您可以忽略抓取工具提到的任何内容，直到您准备好了用户配置文件。
您的抓取帐户应该可以访问您的整个农场。如果您看到权限错误，请查找KB文章，该文章告诉您如何重置爬网帐户（这是特定的stsadm.exe命令）。如果您尝试抓取其他农场的内容，那么您需要另外做一些工作才能为您的抓取帐户授予访问权限。我认为这是你目前最大的问题。
爬网程序（从索引服务器运行）将尝试访问公共URL。我之前有过服务器间通信问题;确保所有三台服务器都可以互相ping通，并确保索引服务器可以访问公共URL（打开索引服务器上的IE并检查它）。如果你有问题，是时候把你的索引服务器的hosts文件弄脏了。无论如何，这是SharePoint为你做的事情，所以不要觉得这样做太糟糕。如果您已经设置了集成Windows身份验证以外的任何设置，则必须更加努力才能使抓取工具正常工作。

无论如何，回复中有很多来回，所以我只是在那里寻找一堆建议，也许其中一个是针对目标的。

来源

2008-10-06 13:05:29

在“服务器上的服务”部分，检查搜索爬网帐户的属性，确保它已设置，并且有权访问这些网站。

来源

2008-09-22 03:59:23

我对您的服务器场拓扑有点困惑。作为WFE安装的机器不能成为索引器。安装为“完整”的计算机可以是索引器，查询和/或任意数量的计算机...

此外，您可能希望添加爬网规则，而不是更改默认内容访问帐户并运行）

你能看到有用的东西是否在你的索引器上的％commonprogramfiles％/ microsoft shared/web server extensions/12/logs？

日志文件可能有点冗长，你可以搜索“开始”或“完整”，这通常会让你到你的爬行开始日志中的行。

另外，在您的sql机器上，您可能能够从MSScrawlurlhistory表中获取更多信息。

来源

2008-10-02 18:43:32 RedDeckWins

你能为http://www.cnn.com创建一个内容源并开始一个完整爬网了么？你有同样的错误吗？

此外，我们可能想要脱机，让我知道如果你想这样做。

我不确定是否有办法通过stackoverflow发送私人消息。

来源

2008-10-03 17:54:52 RedDeckWins

感谢您的新输入！

所以我从我的周末回来，我想通过你的指针，尝试每一个，然后报告他们如何不工作，然后发布我得到的结果。不过，有趣的事情发生了。

我去了我的索引器（servername5），我尝试从Internet Explorer连接到Central Admin和主门户。都没有工作。所以我进入了Indexer的IIS，尝试从IIS内部浏览主门户。这也没有奏效，我收到一个错误，告诉我其他人正在使用该端口。所以我从以前的版本中看到了我的旧网站，并将其从相应的应用程序池中从IIS中删除。然后，我从新版本开始为该网站开发App Pool并浏览网站。成功。然后我从自己的PC上的浏览器浏览网站。再次成功。再次

http://sharepoint.portal.fake.com

成功：然后我跑了爬行通过完整的URL，而不是服务器名称，像这样。它像我想要的那样爬满整个门户网站，包括子网站。 “索引中的项目”很快就被填充了，我可以说我在滚动。

我仍然无法从servername5访问servername4上托管的中央管理站点。我不确定为什么不行，但我不知道在这一点上它很重要。

这是什么给我留下的？什么是修复？

我还不确定。也许这是重建。也许只要我重建了服务器场，我就拥有了所有我需要的工具，但它不能工作，因为之前的网站仍然在IIS中。（有趣的是，卸载SharePoint可能会有多松散，手动删除内容数据库，网站和应用程序池似乎是必要的，而且可能不应该如此）。

无论如何，它现在正在运行我的“测试”农场，所以关键是让它在生产农场上工作。我希望在这个经历之后它不会如此困难。

感谢大家的帮助！

来源

2008-10-08 07:48:34

你的大部分问题都与Kerberos有关，听起来像。如果您没有应用基础架构更新，则Sharepoint将无法使用kerberos身份验证来访问具有非默认（80/443）端口的网站。这也是为什么（我敢打赌），当服务器4位于服务器4上时，您无法从服务器5访问CA.如果您没有正确设置SPN，则只能从安装它的机器访问CA.如果您已经使用端口80安装Sharepoint作为默认网址，那么您将可以毫无困难地执行本地共享点爬网。但通过设计，本地SharePoint站点爬网使用默认的URL访问SharePoint站点。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry了解更多关于如何让Kerberos & Sharepoint在一起工作的更多细节。

来源

2009-01-19 16:35:52

回答

相关问题