适用于: SharePoint Server 2010
上一次修改主题: 2015-03-09
非索引字(又称“干扰词”)是指搜索系统在最终用户搜索查询中忽略的词。如果一个词在语言中频繁地出现,以致于它不可能对标识或缩小搜索结果提供帮助,则可以将其指定为非索引字。例如,通常将英语中的“an”和“the”这类冠词指定为非索引字。如果一个用户键入英文查询“the highest mountain”,则会从查询中删除作为非索引字的“the”,这样,查询就变成了“highest mountain”。有时,还会将潜在的带有攻击性字词指定为非索引字。
本文内容:
了解非索引字文件
编辑非索引字文件
按语言区分的非索引字文件
了解非索引字文件
给定语言的非索引字将在该语言对应的非索引字文件 中列出。Microsoft SharePoint Server 2010 安装程序会为产品所支持的每种语言自动安装一个非索引字文件。在安装之后,许多非索引字文件中都会包含相关语言中的一些常见的非索引字。例如,默认情况下,美国英语对应的非索引字文件 (noiseenu.txt) 包含单词 a、and、is、in、it、of、the 和 to。在产品安装之后的任何时间,搜索管理员都可以在非索引字文件中添加或删除单词,以改进搜索结果的关联性或符合组织标准。有关在非索引字文件中添加或删除单词的信息,请参阅本文后面的编辑非索引字文件。有关支持的语言的信息,请参阅本文后面的按语言区分的非索引字文件。
在查询时,查询语言的分词系统通过根据语言的词法规则来确定单词的边界,从而标识搜索查询中的各个单词。然后,分词系统从查询中删除非索引字文件列出的任何单词。
默认情况下,所有支持语言的非索引字文件安装在 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Office Servers\Config 文件夹中。当服务器场管理员创建一个 Search Service 应用程序时,搜索系统自动从上述安装位置将非索引字文件(包括搜索管理员在此位置编辑过的任何非索引字文件)复制到 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Applications\GUID\Config 文件夹中,此处的 GUID 为新的 Search Service 应用程序的 GUID。搜索系统在正在运行新的 Search Service 应用程序的每台查询服务器上执行相同的操作。这样,正在运行该 Search Service 应用程序的每台查询服务器上都会有每个非索引字文件的备份。
编辑非索引字文件
如果在安装位置编辑非索引字文件,系统会自动将编辑过的非索引字文件传播到此后创建的 Search Service 应用程序。然而,非索引字文件不会自动传播到现有 Search Service 应用程序。针对您想要对其应用更改的每个现有 Search Service 应用程序,您必须在正在运行该 Search Service 应用程序的每台查询服务器上将已编辑的文件手动复制到 Search Service 应用程序文件夹。
备注
-
如果删除某个非索引字文件,则搜索系统可能会将所有的单个字符视为非索引字,并将它们从搜索结果中删除。非索引字文件中必须至少包含一个条目,哪怕仅仅是一个句点 (.) 字符也可以。
-
如果删除某个非索引字文件,然后重新启动 SharePoint Server Search 14 服务,则搜索系统会通过从 %Program Files%Microsoft Office Servers\14.0\Data\Office Server\Config 中复制相同名称的文件到已删除文件所在的文件夹来自动替换该文件。
可使用下面的过程编辑非索引字文件。
编辑非索引字文件
确认执行此过程的用户帐户是本地服务器 Administrators 组的成员。
在一个文本编辑器中打开非索引字文件。有关查找和标识适当的非索引字文件的信息,请参阅本文前面的了解非索引字文件。
编辑文件,使其仅包含您希望搜索系统在搜索查询中忽略的字词。
保存非索引字文件。
备注
保存非索引字文件时,请始终使用默认“编码”值,即“Unicode”。
通过下列步骤重新启动 SharePoint Server Search 14 服务:
单击“开始”,指向“管理工具”,然后单击“服务”。
右键单击“SharePoint Server Search 14”,然后单击“重新启动”。
SharePoint Server Search 14 服务重新启动之后,非索引字的更改将会生效。
备注
在 Microsoft Office SharePoint Server 2007 中,搜索系统会从查询和索引中排除非索引字。因此,在管理员从非索引文件中删除某个单词之后,有必要执行完全爬网以对爬网程序可能会遇到的该非索引字的所有实例进行索引。相反地,在 SharePoint Server 2010 中,搜索系统仅从查询中排除非索引字,根据设计,它并不从索引中排除非索引字。因此,在 SharePoint Server 2010 中,如果从非索引字文件中删除某个单词,则无需执行新的爬网。这是因为,在爬网期间遇到该非索引字时,则该非索引字已经存在于索引中。(如果在非索引字文件中添加某个单词,也无需执行新的爬网,因为搜索系统不会在索引中查找非索引字。)
按语言区分的非索引字文件
安装 SharePoint Server 2010 时,将会为以下语言安装非索引字文件。如果某个语言的非索引字文件不存在,则搜索系统将使用非特定语言的非索引文件 noiseneu.txt。
| 语言 | 非索引字文件名称 |
|---|---|
阿拉伯语 |
noiseara.txt |
孟加拉语 |
noiseben.txt |
保加利亚语 |
noisebul.txt |
加泰罗尼亚语 |
noisecat.txt |
捷克语 |
noiseces.txt |
简体中文 |
noisechs.txt |
繁体中文 |
noisecht.txt |
克罗地亚语 |
noisecro.txt |
丹麦语 |
noisedan.txt |
荷兰语(荷兰) |
noisenld.txt |
英语(英国) |
noiseeng.txt |
英语(美国) |
noiseenu.txt |
芬兰语 |
noisefin.txt |
法语 |
noisefra.txt |
德语 |
noisedeu.txt |
希腊语 |
noisegrc.txt |
古吉拉特语 |
noiseguj.txt |
希伯来语 |
noiseheb.txt |
印地语 |
noisehin.txt |
匈牙利语 |
noisehun.txt |
冰岛语 |
noiseice.txt |
印度尼西亚语 |
noiseind.txt |
意大利语 |
noiseita.txt |
日语 |
noisejpn.txt |
埃纳德语 |
noisekan.txt |
朝鲜语 |
noisekor.txt |
非特定语言 |
noiseneu.txt |
拉脱维亚语 |
noiselav.txt |
立陶宛语 |
noiselit.txt |
马来语 |
noisemal.txt |
马拉雅拉姆语 |
noisemly.txt |
马拉地语 |
noisemar.txt |
挪威语(博克马尔语) |
noisenor.txt |
波兰语 |
noiseplk.txt |
葡萄牙语(葡萄牙) |
noisepor.txt |
葡萄牙语(巴西) |
noiseptb.txt |
旁遮普语 |
noisepun.txt |
罗马尼亚语 |
noiserom.txt |
俄语 |
noiserus.txt |
塞尔维亚语(西里尔文) |
noisesbc.txt |
塞尔维亚语(拉丁语系) |
noisesbl.txt |
斯洛伐克语 |
noisesvk.txt |
斯洛文尼亚语 |
noiseslo.txt |
西班牙语 |
noiseesn.txt |
瑞典语 |
noisesve.txt |
泰米尔语 |
noisetam.txt |
泰卢固语 |
noisetel.txt |
泰语 |
noisetha.txt |
土耳其语 |
noisetur.txt |
乌克兰语 |
noiseurk.txt |
乌尔都语(巴基斯坦) |
noiseurd.txt |
越南语 |
noisevie.txt |