使用爬网日志的最佳实践 (SharePoint Server 2010)

 

适用于: SharePoint Server 2010

上一次修改主题: 2015-03-09

爬网日志可跟踪有关已爬网内容状态的信息。利用该日志,您可以确定是否已将已爬网内容成功添加到索引中,是否因爬网规则而排除已爬网内容,或者索引创建是否因错误而失败。爬网日志还包含有关已爬网内容的更多信息,包括上次成功爬网的时间、内容源以及是否应用了任何爬网规则。您可以使用爬网日志诊断搜索体验问题。

本文内容:

  • 查看爬网日志

  • 爬网日志视图

  • 爬网日志计时器作业

  • 处理常见问题

查看爬网日志

  1. 确认执行此过程的用户帐户是 Search Service 应用程序的管理员。

  2. 在管理中心的“快速启动”中,单击“应用程序管理”。

  3. 在“应用程序管理”页上的“服务应用程序”下,单击“管理服务应用程序”。

  4. 在“服务应用程序”页上的服务应用程序列表中,单击所需的 Search Service 应用程序。

  5. 在“搜索管理”页上的“快速启动”中,单击“爬网”下的“爬网日志”。

  6. 在“爬网日志 – 内容源”页上,单击所需视图。

爬网日志视图

下表显示了在查看已爬网内容的状态时可以选择的不同视图。

视图 说明

内容源

按内容源汇总已爬网的项目。显示成功、警告、错误、顶级错误和删除信息。该视图中的数据可表示每个内容源索引中已有项目的当前状态。对象模型可提供该视图的数据。

主机名

按主机汇总已爬网的项目。显示成功、警告、错误、删除、顶级错误和总计信息。该视图中的数据可表示每个主机索引中已有项目的当前状态。如果您所属的环境中有多个爬网数据库,则按爬网数据库显示数据。搜索管理数据库可提供该视图的数据。通过在“查找以下面的主机名称/路径开头的 URL:”框中键入 URL,可以筛选结果。

URL

允许您按内容源、URL 或主机名搜索爬网日志,并查看索引中所有项目的详细信息。爬网数据库中的 MSSCrawlURLReport 表可提供该视图的数据。通过设置“状态”、“消息”、“开始时间”和“结束时间”字段,可以筛选结果。

爬网历史记录

汇总爬网过程中完成的爬网事务。一次爬网中每个项目可能有多个爬网事务,因此事务数可能大于项目总数。该视图可显示三种爬网数据:

  • 完全。对内容源中的所有项目进行爬网。

  • 增量。对自上次完全或增量爬网后更改的项目进行爬网。这种爬网仅按计划运行。

  • 删除。如果从内容源中删除起始地址,则在完全或增量爬网运行前,删除爬网时会删除与从索引中删除的起始地址关联的项目。这种爬网无法进行计划。

搜索管理数据库可提供该视图的数据。可以按内容源筛选结果。

错误消息

按内容源或主机名提供错误聚合。爬网数据库中的 MSSCrawlURLReport 表可提供该视图的数据。可以按内容源或主机进行筛选。

备注

筛选下拉框仅显示包含错误的内容源。如果没有显示在索引中的项目有错误,则该错误不会显示在此视图中。

内容源、主机名和爬网历史记录视图将显示以下各列中的数据:

  • 成功。成功爬网并可搜索的项目。

  • 警告。可能未成功爬网且可能不可搜索的项目。

  • 错误。未成功爬网且可能不可搜索的项目。

  • 删除。已从索引中删除且不再能够搜索的项目。

  • 顶级错误。首要文档(包括起始地址、虚拟服务器和内容数据库)中的错误。每个顶级错误被视为一个错误,但并非所有错误都被视为顶级错误。由于“错误”列包含“顶级错误”列中的计数,因此顶级错误不再计入主机名视图。

  • 未修改。在两次爬网之间未修改的项目。

  • 安全更新。由于已修改而对其安全设置进行爬网的项目。

爬网日志计时器作业

默认情况下,搜索应用程序 <Search Service 应用程序名称> 的计时器作业爬网日志报告每五分钟对爬网日志中各个视图的数据刷新一次。您可以更改此计时器作业的刷新速率,但该设置通常保持原样。

提示

如果认为爬网日志未显示刷新数据,应确保计时器作业没有暂停并且最近一直在运行。

检查爬网日志计时器作业的状态

  1. 确认执行此过程的用户帐户是 SharePoint 组“Farm Administrators”的成员。

  2. 在管理中心的“监控”部分,单击“检查作业状态”。

  3. 在“计时器作业状态”页上,单击“作业历史记录”。

  4. 在“作业历史记录”页上,在搜索应用程序 <Search Service 应用程序名称> 的爬网日志报告中查找所需 Search Service 应用程序并查看状态。

更改爬网日志计时器作业的刷新速率

  1. 确认执行此过程的用户帐户是 SharePoint 组“Farm Administrators”的成员。

  2. 在管理中心的“监控”部分,单击“检查作业状态”。

  3. 在“计时器作业状态”页上,单击“作业历史记录”。

  4. 在“作业历史记录”页上,针对所需 Search Service 应用程序单击“搜索应用程序 <Search Service 应用程序名称> 的爬网日志报告”。

  5. 在“编辑计时器作业”页上的“定期计划”部分,将计时器作业计划更改为所需时间间隔。

  6. 单击“确定”。

处理常见问题

本节提供有关常见爬网日志错误、爬网程序行为以及维护正常爬网环境所要执行的操作的信息。

从索引中删除项目时

如果爬网程序因 URL 过时而找不到索引中的项目,或因网络中断而无法访问该项目,则在此次爬网中,爬网程序会针对该项目报告一个错误。如果在后续三次爬网过程中仍出现这种情况,则系统会从索引中删除该项目。对于文件共享内容源,在从文件共享中删除项目时,会从索引中立即删除这些项目。

针对文件共享的“找不到对象”错误

导致该错误的原因是:已爬网的文件共享内容源中包含有效的主机名和无效的文件名。例如,对于主机名和文件名 \\ValidHost\files\file1,\\ValidHost 存在,但文件 file1 不存在。在此情况下,爬网程序会报告错误“找不到对象”,并会从索引中删除该项目。爬网历史记录视图显示:

  • 错误: 1

  • 删除: 1

  • 顶级错误: 1(\\ValidHost\files\file1 显示为顶级错误,因为它是起始地址)

内容源视图显示:

  • 错误: 0

  • 删除: 0

  • 顶级错误: 0

由于内容源视图仅显示索引中项目的状态,而此起始地址未输入索引中,因此该视图全部显示零。但是,爬网历史记录视图会显示所有爬网事务,不管是否已将其输入索引。

针对文件共享的“无法解析项目的网络路径”错误

导致该错误的原因是:已爬网的文件共享内容源包含无效的主机名和无效的文件名。例如,对于主机名和文件名 \\InvalidHost\files\file1,\\InvalidHost 和文件 file1 均不存在。在此情况下,爬网程序会报告错误“无法解析项目的网络路径”,但不会从索引中删除该项目。爬网历史记录视图显示:

  • 错误: 1

  • 删除: 0

  • 顶级错误: 1(\\InvalidHost\files\file1 显示为顶级错误,因为它是起始地址)

内容源视图显示:

  • 错误: 0

  • 删除: 0

  • 顶级错误: 0

由于爬网程序无法确定是该项目确实不存在还是有阻止访问该项目的网络中断问题,因此不会从索引中删除该项目。

过时的起始地址

爬网日志会对首要文档或起始地址报告顶级错误。若要确保内容源正常,应执行下列操作:

  • 始终调查非零的顶级错误。

  • 始终调查总是出现在爬网日志中的顶级错误。

  • 此外,建议您在与网站所有者联系和沟通后,每两周删除一次过时的起始地址。

处理问题和删除过时的起始地址

  1. 确认执行此过程的用户帐户是 Search Service 应用程序的管理员。

  2. 在确定起始地址可能过时时,先通过 Ping 网站确定该地址是否存在。如果收到响应,则确定下面哪些问题会导致出现该问题:

    • 如果可以从浏览器访问 URL,爬网程序可能因网络连接问题而无法对起始地址进行爬网。

    • 如果可以从浏览器重定向 URL,应将起始地址更改为与新地址相同的地址。

    • 如果 URL 在浏览器中收到错误,请在其他时间再试一次。如果多次尝试后仍收到错误,请与网站所有者联系,以确保该网站可用。

  3. 如果 Ping 网站后未收到响应,则表示该网站不存在,应将其删除。在删除网站前,请与网站所有者进行确认。

访问被拒绝

如果爬网日志对某起始地址频繁报告“访问被拒绝”错误,则表示该内容访问帐户可能不具有对该网站进行爬网所需的读取权限。如果可以使用管理帐户查看 URL,则更新权限的方式可能有问题。在此情况下,应与网站所有者联系,以请求相应权限。有关如何为爬网程序设置权限的信息,请参阅管理爬网规则 (SharePoint Server 2010)

在主机分布过程中内容源视图中的数字都被设为零

在主机分布过程中,内容源视图中所有列的数字都被设为零。这是因为内容源视图中的数字直接来源于爬网数据库表。在主机分布过程中,这些表中的数据都在移动,因此在主机分布期间这些值保持为零。

在完成主机分布后,对内容源运行增量爬网,才能还原原始数字。

在内容源视图中显示文件共享删除信息

在从成功进行爬网的文件共享内容源中删除文档后,系统会在下次完全或增量爬网时从索引中立即删除这些文档。这些项目在爬网日志的内容源视图中计为错误,但在其他视图中计为删除操作。

停止或重新启动 SharePoint Server 搜索服务会导致爬网日志事务差异

SharePoint Server 搜索服务 (OSearch14) 可能会因管理操作或服务器功能而被重置或重新启动。出现此情况时,爬网日志的爬网历史记录视图中会出现差异。您可能会注意到每个爬网报告的事务数与每个爬网执行的实际事务数之间存在差异。出现这种现象的原因是 OSearch14 服务在内存中存储活动事务并在其完成后写入这些事务。如果在将内存中事务写入爬网日志数据库之前停止、重置或重新启动 OSearch14 服务,则会错误显示每个爬网的事务数。