0
正如标题所示,我设法配置我的GSA来抓取我的PDF文件。它们显示在列表页面上,并带有指向它们的链接,以便可以抓取URL并将其添加到特定的集合(本文中称为“我的PDF”)。索引的PDF文件没有通过谷歌搜索返回
爬网成功,我可以看到GSA抓取诊断下面的“我的PDF档案”收集:
抓取诊断
File/Directory | Crawl Status
http://mydomain.com/Listings/MyPdfs.aspx | Crawled: New Document
http://mydomain.com/mypdfs/cat1/issue5.pdf | Crawled: New Document
http://mydomain.com/mypdfs/cat2/issue4.pdf | Crawled: New Document
http://mydomain.com/mypdfs/cat3/issue2.pdf | Crawled: New Document
http://mydomain.com/mypdfs/cat4/issue3.pdf | Crawled: New Document
http://mydomain.com/mypdfs/cat5/issue1.pdf | Crawled: New Document
抓取诊断为单文件:
有关此页的更多信息
- 链接到此页
- 缓存版本不可用
- 的PageRank:无
- 最后修改:
- 此页面上的链接数量来抓取网页:未知
- 号码链接到此页的已抓取页面:未知
- 此页面包含以下项目:
- 我的PDF文件中
然而,使用在相同的“我的PDF文件中”收集GSA测试中心进行搜索时,该PDF文件将不会返回。我确保在测试中心使用适当的前端选择,并且使用正确的收集('My-PDFs'),然后使用文档中的关键字。我也尝试使用文档的文件名,但仍然没有结果。我总是得到:
您的搜索 - TestKeyword - 与任何文档都不匹配。
未找到包含“TestKeyword”的页面。
(显然,实际使用关键字)
任何想法?
注意:使用GSA 5.0。