上次修改时间: 2015年3月9日
适用范围: SharePoint Server 2010
本文内容
自定义 optionalprocessing.xml
optionalprocessing.xml 的文件格式
属性提取
文档转换
不良内容筛选
元数据提取
本文介绍如何针对管道中的可选项处理阶段更新配置文件,如下所示:
自定义 optionalprocessing.xml
您可在 optionalprocessing.xml 配置文件中启用或禁用可选项处理阶段。
每次重置、启动或重新启动项处理器时都会读取此配置文件。此文件必须包含每个可选阶段的名称和激活状态。默认情况下,停用所有的可选处理阶段。
若要修改此配置文件,您必须是 FAST Search Server 2010 for SharePoint 管理服务器上的 FASTSearchAdministrators 本地组的成员。
备注
您可以通过使用 optionalprocessing.xml 启用或禁用可选项处理阶段,但不能使用此文件向管道中添加新的自定义处理阶段。有关如何添加项处理的信息,请参阅集成外部项处理组件。
使用文本编辑器或 XML 编辑器来更改此文件。
更改 optionalprocessing.xml 文件
在 FAST Search Server 2010 for SharePoint 管理服务器上,编辑 <FASTSearchFolder>\etc\config_data\DocumentProcessor\OptionalProcessing.xml。
其中 <FASTSearchFolder> 是安装 FAST Search Server 2010 for SharePoint 的文件夹,例如 C:\FASTSearch。
在 FAST Search Server 2010 for SharePoint 管理服务器上,运行以下命令。
<FASTSearchFolder>\bin\psctrl reset
这将重置系统中当前正在运行的所有项处理器。
optionalprocessing.xml 的文件格式
optionalprocessing.xml 配置文件具有以下语法。
<optionalprocessing>
<processor name="personnameextraction" active="yes|no" />
<processor name="XMLMapper" active="yes|no" />
<processor name="OffensiveContentFilter" active="yes|no" />
<processor name="FFDDumper" active="yes|no" />
<processor name="wholewordsextractor1" active="yes|no" />
<processor name="wholewordsextractor2" active="yes|no" />
<processor name="wholewordsextractor3" active="yes|no" />
<processor name="wordpartextractor1" active="yes|no" />
<processor name="wordpartextractor2" active="yes|no" />
<processor name="MetadataExtraction" active="yes|no" />
<processor name="SearchExportConverter" active="yes|no" />
</optionalprocessing>
备注
您不得在此文件中添加或删除条目;可选的处理阶段 MetadataExtraction 除外。只能更改各个 processor 元素的 active 属性值。
表 1 描述了可选项处理阶段。
表 1. 可选项处理阶段
可选阶段名称 |
说明 |
||
|---|---|---|---|
personnameextraction |
启用内置的人员名称属性提取。有关详细信息,请参阅属性提取。 |
||
XMLMapper |
通过使用 XML 元素到已爬网属性的自定义映射,启用 XML 内容映射。有关详细信息,请参阅自定义 XML 项处理。 |
||
OffensiveContentFilter |
启用内置的不良内容筛选。此功能会删除包含色情内容的项。有关详细信息,请参阅不良内容筛选。 |
||
FFDDumper |
指定项处理管道调试阶段。有关详细信息,请参阅调试自定义项处理。 备注 您只应在测试过程中使用此阶段,因为此阶段对馈送速率有重大影响,并且可能会迅速填满本地硬盘 (%FASTSEARCH\data\ffd\)。 |
||
wholewordsextractor1、wholewordsextractor2、wholewordsextractor3、wordpartextractor1、wordpartextractor2 |
包含这些自定义属性提取阶段的目的是为了实现向后兼容。
有关基于这些阶段迁移自定义属性的信息,请参阅迁移在安装 Service Pack 1 之前定义的自定义属性提取程序。 |
||
MetadataExtraction |
对 Microsoft Word 和 Microsoft PowerPoint 文档启用扩展元数据提取。如果启用此阶段,标题和日期将基于文档的内容,而不是文档元数据。有关详细信息,请参阅元数据提取。
|
||
SearchExportConverter |
启用其他文档格式的转换。有关详细信息,请参阅文档转换。 备注 不要直接在配置文件 optionalprocessing.xml 中启用或禁用此功能,而是按照 Microsoft TechNet 上的启用高级筛选器包 (FAST Search Server 2010 for SharePoint) 中描述的步骤操作。 |
备注
如果更改项处理配置,则必须对受项处理配置更改影响的所有内容重新爬网。
下面的示例演示如何启用包含从已处理内容中提取的人员名称的 personnames 爬网属性的生成。您可以通过将 active 属性值更改为 yes 来启用此阶段。
<optionalprocessing>
<processor name="personnameextraction" active="yes"/>
</optionalprocessing>
下面的示例演示如何启用 XML 内容到已爬网属性的映射。
<optionalprocessing>
<processor name="XMLMapper" active="yes"/>
</optionalprocessing>
备注
XMLMapper 处理阶段需要一个额外的配置文件用于 XML 映射。有关信息,请参阅自定义 XML 项处理。
属性提取
属性提取是从项的可见文本内容中提取信息并将该信息存储为文档的其他爬网属性的过程。
FAST Search Server 2010 for SharePoint 项处理管道中存在三个内置的属性提取阶段,它们执行以下任务:
人员名称提取程序基于通用字典提取人员的名称。默认情况下禁用此阶段,因为 FAST Search Server 2010 for SharePoint 包含其他与人员名称提取相关的功能(作者属性和人员搜索功能)。如果您还需要提取不是特定于您的公司或组织的名称,您可以在 optionalprocessing.xml 中启用此阶段。
位置提取程序基于通用字典提取地理位置的名称。默认情况下,此阶段处于启用状态。如果这种属性提取与您的应用程序无关,您就不必将生成的爬网属性映射到索引中的托管属性。
公司提取程序基于通用字段提取公司的名称。默认情况下,此阶段处于启用状态。如果这种属性提取与您的应用程序无关,您就不必将生成的爬网属性映射到索引中的托管属性。
内置属性提取阶段支持以下语言:
阿拉伯语
荷兰语
英语
法语
德语
意大利语
日语
挪威语
葡萄牙语
俄语
西班牙语
为了实现对采用本节前面所示语言的公共新闻内容的合理覆盖,已创建默认的人员、位置和公司词典。
您可以通过添加包含列表和排除列表来修改内置属性提取程序。有关信息,请参阅 Microsoft TechNet 上的管理属性提取 (FAST Search Server 2010 for SharePoint)。
您可以将自定义属性提取程序添加到管道中。有关信息,请参阅创建自定义属性提取程序。
文档转换
名为 SearchExportConverter 的处理阶段控制 FAST Search Server 2010 for SharePoint 高级筛选器包。此功能允许从数百种文件格式提取文本和元数据,同时补充标准筛选器包支持的文档格式。默认情况下,禁用高级筛选器包。
备注
不要直接在配置文件 optionalprocessing.xml 中启用或禁用此功能,而是按照 Microsoft TechNet 上的启用高级筛选器包 (FAST Search Server 2010 for SharePoint) 中描述的步骤操作。
您也可以部署针对特定文件格式开发的自定义 IFilter 组件。这通过 user_converter_rules.xml 配置文件进行控制。有关信息,请参阅将 FAST Search Server for SharePoint 配置为使用第三方 IFilter。
不良内容筛选
FAST Search Server 2010 for SharePoint 不良内容筛选作为单独的项处理阶段实现。通过筛选器运行的项内容与字典中的预定义字词进行比较。筛选器的输出是指示某一项属色情内容的相似度的总分。该项的不良程度分数写入爬网属性 OCF::Score。超过分数阈值 30 的任何项都将从索引中删除。
FAST Search Server 2010 for SharePoint 不良内容筛选器使用单个词或多词表达式作为筛选的基础。
默认情况下禁用不良内容筛选器。您可以通过使用 optionalprocessing.xml 中的激活关键字 OffensiveContentFilter 来启用它,如以下示例中所示。
<optionalprocessing>
<processor name="OffensiveContentFilter" active="yes"/>
</optionalprocessing>
备注
不良内容筛选器不会使用网站信息,也不会考虑可视信息(图像)。该功能仅限于包含不良文本的页面。对于这类页面,它提供很高的识别率。
不良内容筛选支持以下语言:
阿拉伯语
中文
捷克语
英语
芬兰语
法语
德语
印度语
意大利语
日语
朝鲜语
立陶宛语
挪威语
俄语
西班牙语
瑞典语
土耳其语
不良内容筛选器扫描已爬网属性 title、body 和 ocfcontribution。最后一个属性未经爬网程序设置,但可用于扫描其他内容。例如,您可以使用 XMLMapper 将自定义内容映射到 ocfcontribution。
在处理过程中将删除被认为是色情内容的项,并向索引连接器提供相应的反馈。
元数据提取
某些已爬网属性包含 Microsoft Office 文档的元数据。当作者创建新文档时,他或她通常使用模板或其他文档作为起始点。许多情况下,作者并不更新元数据,因此元数据容易让人误解。对于 Microsoft Word 和 Microsoft PowerPoint 文档,则可以从文档内容中提取日期和标题信息。大多数情况下,这会生成更好的元数据。
FAST Search Server 2010 for SharePoint 包含一个扩展元数据提取阶段。如果启用此阶段,标题和日期将基于文档的内容,而不是文档元数据。
默认情况下,扩展元数据提取处于启用状态。若要禁用扩展元数据提取,可以在 optionalprocessing.xml 中添加关键字 MetadataExtraction,如以下示例所示。
<optionalprocessing>
<processor name="MetadataExtraction" active="no" />
</optionalprocessing>
如果禁用扩展元数据提取,则标题和日期将基于文档元数据。
重要说明 |
|---|
扩展元数据提取是在 FAST Search Server 2010 for SharePoint Service Pack 1 中引入的,安装该 Service Pack 后,该功能默认处于启用状态。Service Pack 升级不会修改 optionalprocessing.xml。 |
如果使用扩展元数据提取,则会在项处理管道中创建两个已爬网属性:
提取的标题:
已爬网属性名称:302
属性集:012357BD-1113-171D-1F25-292BB0B0B0B0
变体类型:31
映射到托管属性:Title
提取日期:
已爬网属性名称:263
属性集:012357BD-1113-171D-1F25-292BB0B0B0B0
变体类型:64
映射到托管属性:Write
重要说明