Udostępnij przez


Program Word podziały i Stemmers

Program Word wyłączników i stemmers do wykonywania analizy językowe na wszystkich danych indeksowanych pełnego tekstu.Analiza językowe pociąga za sobą znajdowania wyrazu granice (dzielenia wyrazów) i conjugating zleceń (mapowanie rdzeni).Program Word wyłączników i stemmers są języka i reguł do analizy językowe są różne dla różnych języków.Dla danego języka Dzielenie wyrazów identyfikuje poszczególne wyrazy, określając wówczas, gdy istnieją zależności leksykalne reguły języka granice wyraz.Każdy wyraz (nazywane także Token) zostanie wstawiony do indeksu całego tekstu przy użyciu skompresowanych reprezentacja zmniejszyć jego rozmiar.The program szukający rdzeni generates inflectional forms of a particular word based on the rules of that language (for example, "running", "ran", and "runner" are various forms of the word "run").

Za pomocą wyłączników wyraz specyficzne dla języka umożliwia wynikowe warunki są dokładniejsze dla tego języka.W przypadku dzielącego dla systemów z rodziny język, ale nie dla konkretnych sub-language, używany jest język głównych.Na przykład francuskiej dzielącego jest używany do obsługi tekstu, który jest kanadyjski francuski.Jeśli dzielącego nie jest dostępny dla określonego języka, używany jest neutralne dzielącego.Neutralny dzielącego wyrazy są na znaki neutralne, takie jak spacje i znaki interpunkcyjne.

Rejestracja zamykania programu Word

Dla wyłączników słowo z języka ma być używany muszą być one zarejestrowane.Dla wyłączników wyrazów zarejestrowanych skojarzone zasoby językowe — stemmers słowa ignorowane (stopwords) i plików tezaurusa — również stają się dostępne dla pełnotekstowe indeksowanie i wyszukiwanie operacji.Aby wyświetlić listę języków, których wyłączników słowa są aktualnie zarejestrowane w systemie SQL Server, należy użyć następujących wpisów Transact-SQL instrukcja:

SELECT * FROM sys.fulltext_languages

Dodaje, usuwa lub zmienia dzielenie wyrazów należy odświeżyć listę identyfikatorów regionalny systemu Microsoft Windows (LCID), które są obsługiwane w przypadku pełnotekstowe indeksowanie i wyszukiwanie.Aby uzyskać więcej informacji zobaczHow to: Alter the List of Registered Word Breakers and Filters (Transact-SQL).

Kilka wyłączników licencjonowanego wyraz innych firm są dostarczane z SQL Server 2008. Można ręcznie ładować wyłączników dodatkowe słowo innej firmy (i stemmers) w kilku językach (duński, polskim i turecki).Aby uzyskać więcej informacji zobaczJak Ładowanie podziały licencjonowanego Third-Party programu Word.

Opcje językowe pełnego tekstu

Dla zlokalizowaną wersja SQL Server, SQL Server Instalator ustawia domyślny język pełnego tekstu opcję, aby język serwera, jeśli istnieje odpowiedni dopasowanie.Wersja niezlokalizowana SQL Server, default full-text language Opcja jest angielski.

Podczas tworzenia lub zmieniania indeks pełnotekstowy, można określić inny język dla każdej kolumna indeksowanej pełnego tekstu.Jeśli język nie został określony dla kolumna, wartością domyślną jest wartość opcji konfiguracja default full-text language.

Aby uzyskać więcej informacji zobaczdefault full-text language Option.

Uwaga

Wszystkich kolumn wymienionych w klauzula funkcja jednej zapytanie pełnotekstowe muszą używać ten sam język, o ile w kwerendzie zostanie użyta opcja LANGUAGE.Język używany kolumna indeksowanej pełnego tekstu poszukiwanych określa lingwistyczne analizy przeprowadzone na argumenty (predykaty zapytanie pełnotekstoweZAWIERA and FREETEXT) funkcje ( iCONTAINSTABLE and FREETEXTTABLE).

Wybieranie języka podczas indeksowania kolumna Full-Text

Podczas tworzenia indeksu pełnotekstowego, firma Microsoft zaleca, aby określić język dla każdej kolumna indeksowanej.Jeśli język nie jest określony dla kolumna, używany jest język domyślny systemu.Język kolumna określa dzielącego i program szukający rdzeni, które są używane do indeksowania tej kolumna.Ponadto plik tezaurusa tego języka będzie używany przez kwerendy pełnego tekstu na kolumna.

Istnieje kilka rzeczy, które należy wziąć pod uwagę przy wyborze kolumna język do tworzenia indeksu pełnotekstowego.Zagadnienia te odnoszą się do sposobu tokenized tekst, a następnie zaindeksowane przez aparat Full-Text.Aby uzyskać więcej informacji zobaczBest Practices for Choosing a Language When Creating a Full-Text Index.

Aby wyświetlić języka dzielenie wyrazów kolumna

Wpływ nowe podziały programu Word w programie SQL Server 2008

SQL Server 2008 zawiera wyraz wyłączników więcej niż 50 różnych języków, w których 23 istnieją również w SQL Server 2005. Tylko wyłączników słów w języku angielskim, tajski, koreański i chiński (wszystkie formularze) pozostają bez zmian.W przypadku innych języków SQL Server 2008 wprowadzenie do nowej generacji wyłączników wyraz, lepiej lingwistyczne zasady i są bardziej precyzyjne niż wcześniejsze wyłączników wyraz. Potencjalnie importowane nowe słowo wyłączników może działają nieco inaczej niż wyłączników wyrazu SQL Server 2005 indeksy pełnotekstowe. Jest to istotne, jeśli wykaz pełnotekstowy zostały zaimportowane podczas SQL Server 2005 bazy danych został uaktualniony do SQL Server 2008. Używane przez indeksy pełnotekstowe w katalogu całego tekstu w jednym lub kilku językach teraz może zostać skojarzony z nowego wyłączników wyraz.Aby uzyskać więcej informacji zobaczFull-Text Search Upgrade.

Word dzielenie wersje dla języków obsługiwanych w programie SQL Server 2005

Tylko wyłączników słów w języku angielskim, tajski, koreański i chiński (wszystkie formularze) pozostają bez zmian.W poniższej tabela przedstawiono wyłączników słowo, które istniały w SQL Server 2005 Wskazuje, czy zostały one zaktualizowane w SQL Server 2008. Aby uzyskać pełną listę wszystkich SQL Server 2008 Word wyłączników, zobacz sys.fulltext_languages (języka Transact-SQL).

Uwaga

Domyślnie są rejestrowane wyłączników wyrazu w większości języków.Jednak liczba wyłączników licencjonowanego wyraz innych firm są domyślnie wyłączone.Aby uzyskać informacje na temat tych języków i jak zarejestrować wyłączników tych wyrazów Zobacz Jak Ładowanie podziały licencjonowanego Third-Party programu Word.

Język

LCID

Program Word wyłączników

Brazylijski

1046

Nowość

Chiński (Hongkong SAR, PRC)

3076

Bez zmian

Chiński (Makau SAR)

5124

Bez zmian

Chiński (Singapur)

4100

Bez zmian

Duński (domyślnie wyłączone)

1030

Bez zmian

Holenderski

1043

Nowość

Angielski

1033

Bez zmian

Assamski (Indie)

2057

Bez zmian

Francuski

1036

Nowość

Niemiecki

1031

Nowość

Włoski

1040

Nowość

Japanese

1041

Nowość

Koreański

1042

Bez zmian

Przewód zerowy

0

Nowość

Polski (wyłączone domyślnie)

1045

Bez zmian

Portugalski

2070

Nowość

Rosyjski

1049

Nowość

Chiński uproszczony

2052

Bez zmian

Hiszpański

3082

Nowość

Szwedzki

1053

Nowość

Thai

1054

Bez zmian

Chiński tradycyjny

1028

Bez zmian

Turecki (domyślnie wyłączone)

1055

Bez zmian

Aby uzyskać pełną listę obsługiwanych języków Zobacz sys.fulltext_languages (języka Transact-SQL).

Program Word podział błędy limit czas

Błąd przekroczenia limitu czas dzielenia wyrazów, może wystąpić w różnych sytuacjach.Aby uzyskać informacje na temat tych sytuacji i sposobu odpowiedzi w każdej sytuacji zobacz MSSQLSERVER_30053.

Uzyskiwanie informacji na temat programu Word podziały

Wyświetlanie wyniku tokenizacja dzielącego, tezaurus i kombinacja Stoplist

Aby zwrócić informacji na temat wyłączników zarejestrowanych wyrazu

Historia zmian

Microsoft Learning

Zaktualizowane sekcji "Word dzielenie rejestracja".