Trenowanie modeli niestandardowych
Usługa Azure Document Intelligence platformy Azure obsługuje nadzorowane uczenie maszynowe. Modele niestandardowe można trenować i tworzyć modele złożone przy użyciu dokumentów formularzy i dokumentów JSON zawierających pola oznaczone etykietami.
Aby wytrenować model niestandardowy:
- Przechowuj przykładowe formularze w kontenerze obiektów blob platformy Azure wraz z plikami JSON zawierającymi informacje o polu układu i etykiety.
- Możesz wygenerować plik ocr.json dla każdego przykładowego formularza przy użyciu funkcji analizowania dokumentów w usłudze Azure Document Intelligence. Ponadto potrzebny jest pojedynczy plik fields.json opisujący pola, które chcesz wyodrębnić, oraz plik labels.json dla każdego przykładowego formularza mapowania pól na ich lokalizację w tym formularzu.
- Wygeneruj adres URL zabezpieczeń dostępu współdzielonego (SAS) dla kontenera.
- Użyj funkcji Build model interfejsu API REST (lub równoważnej metody zestawu SDK).
- Użyj funkcji interfejsu API REST Get model (lub równoważnej metody zestawu SDK), aby uzyskać wytrenowany identyfikator modelu .
LUB
- Użyj programu Azure Document Intelligence Studio do etykietowania i trenowania. Istnieją dwa typy modeli bazowych dla formularzy niestandardowych niestandardowych modeli szablonów lub niestandardowych modeli neuronowych.
- niestandardowe modele szablonów dokładnie wyodrębnić pary klucz-wartość, znaczniki wyboru, tabele, regiony i podpisy z dokumentów. Trenowanie trwa tylko kilka minut, a obsługiwanych jest ponad 100 języków.
- Niestandardowe modele neuronowe to głębokie modele, które łączą funkcje układu i języka w celu dokładnego wyodrębnienia pól z etykietami z dokumentów. Ten model jest najlepszy w przypadku dokumentów częściowo ustrukturyzowanych lub nieustrukturyzowanych.