Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez niestandardową funkcję klasyfikacji tekstu.
Opcja wielojęzyczna
Dzięki niestandardowej klasyfikacji tekstu można wytrenować model w jednym języku i użyć go do klasyfikowania dokumentów w innym języku. Ta funkcja jest przydatna, ponieważ pomaga zaoszczędzić czas i nakład pracy. Zamiast kompilować oddzielne projekty dla każdego języka, można obsługiwać wielojęzyczny zestaw danych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub nowszych ustawień projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej ilości danych w tych językach do zestawu szkoleniowego.
Możesz wytrenować swój projekt w całości przy użyciu dokumentów angielskich i wykonywać na nim zapytania: francuski, niemiecki, mandaryński, japoński, koreański i inne. Niestandardowa klasyfikacja tekstu ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.
Za każdym razem, gdy określisz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Wprowadzenie większej liczby dokumentów dla tego języka do modelu jest wprowadzane do bardziej składni tego języka i uczy się przewidywać go lepiej.
Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i zaczniesz testować go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa, a także inne dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów w języku angielskim w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.
Podczas dodawania danych w innym języku nie należy oczekiwać, że będzie ona negatywnie wpływać na inne języki.
Języki obsługiwane przez niestandardową klasyfikację tekstu
Niestandardowa klasyfikacja tekstu obsługuje .txt pliki w następujących językach:
| Język | Kod języka |
|---|---|
| Afrikaans | af |
| Amharski | am |
| Arabski | ar |
| Asamski | as |
| Azerbejdżański | az |
| Białoruski | be |
| Bułgarski | bg |
| Bengalski | bn |
| Bretoński | br |
| Bośniacki | bs |
| Kataloński | ca |
| Czeski | cs |
| Walijski | cy |
| Duński | da |
| Niemiecki | de |
| Grecki | el |
| Język angielski (USA) | en-us |
| Esperanto | eo |
| Hiszpański | es |
| Estoński | et |
| Baskijski | eu |
| Perski | fa |
| Fiński | fi |
| Francuski | fr |
| Zachodni Fryzyjscy | fy |
| Irlandzki | ga |
| Język szkocki gaelicki | gd |
| Galicyjski | gl |
| Gudżarati | gu |
| Hausa | ha |
| Hebrajski | he |
| Hindi | hi |
| Chorwacki | hr |
| Węgierski | hu |
| Ormiański | hy |
| Indonezyjski | id |
| Włoski | it |
| japoński | ja |
| Jawajski | jv |
| Gruziński | ka |
| Kazachski | kk |
| Khmerski | km |
| Kannada | kn |
| Koreański | ko |
| Kurdyjski (Kurmjski) | ku |
| Kirgiski | ky |
| Łacina | la |
| Laotański | lo |
| Litewski | lt |
| Łotewski | lv |
| Malgaski | mg |
| Macedoński | mk |
| Malayalam | ml |
| Mongolski | mn |
| Marathi | mr |
| Malajski | ms |
| Birmański | my |
| Nepalski | ne |
| Niderlandzki | nl |
| Norweski (Bokmal) | nb |
| Orija | or |
| Pendżabski | pa |
| Polski | pl |
| Paszto | ps |
| Portugalski (Brazylia) | pt-br |
| Portugalski (Portugalia) | pt-pt |
| Rumuński | ro |
| Rosyjski | ru |
| Sanskryt | sa |
| Sindhi | sd |
| Sinhala | si |
| Słowacki | sk |
| Słoweński | sl |
| Somalijski | so |
| Albański | sq |
| Serbski | sr |
| Sundanese | su |
| Szwedzki | sv |
| Suahili | sw |
| Tamilski | ta |
| Telugu | te |
| Tajlandzki | th |
| Filipino | tl |
| Turecki | tr |
| Ujgurski | ug |
| Ukraiński | uk |
| Urdu | ur |
| Uzbecki | uz |
| Wietnamski | vi |
| Xhosa | xh |
| Jidysz | yi |
| Chiński (uproszczony) | zh-hans |
| Zulu | zu |