Microsoft Office SharePoint Server 2007 中的爬网程序使用协议处理程序访问内容,然后使用 IFilter 从已爬网文件中提取内容。在引擎对文档内容编制索引之前,IFilter 会移除特定于应用程序的格式设置。Office SharePoint Server 2007 只对为其安装了协议处理程序和 IFilter 的文件类型进行爬网。
本节介绍所安装的 Office SharePoint Server 2007 默认情况下包含的 IFilter 和协议处理程序,以及如何安装和注册其他 IFilter 和协议处理程序。
爬网程序按如下方式使用协议处理程序和 IFilter:
爬网程序检索内容源的开始地址,并根据 URL 的前缀调用协议处理程序。
协议处理程序连接到内容源,并提取系统级元数据和访问控制列表信息。
协议处理程序根据文件扩展名识别每个内容项的文件类型,并调用与该文件类型关联的相应 IFilter。
IFilter 提取内容,并移除任何嵌入的格式设置,然后检索内容项元数据。
内容由一个或多个相应语言的分词系统进行分析,并添加到内容索引(也称为全文检索)中。元数据和访问控制列表将添加到搜索数据库中。
本节内容: