Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Przegląd
Możliwości analizy usługi Azure Content Understanding ułatwiają przekształcanie danych bez struktury na ustrukturyzowane informacje czytelne dla maszyn. Dzięki precyzyjnemu identyfikowaniu i wyodrębnieniu elementów przy zachowaniu ich relacji strukturalnych można tworzyć zaawansowane przepływy pracy przetwarzania dla szerokiej gamy aplikacji.
Obiekt contents z typem document obsługuje dane wyjściowe dla różnych plików wejściowych, w tym dokumentów, obrazów, tekstu i plików strukturalnych. Te dane wyjściowe umożliwiają wyodrębnianie znaczącej zawartości z plików, zachowywanie struktur dokumentów i odblokowywanie pełnego potencjału danych.
Rodzaj zawartości dokumentu zawiera dane wyjściowe dla plików wejściowych, takich jak:
- Dokumenty: pliki PDF, dokumenty programu Word, prezentacje programu PowerPoint i arkusze kalkulacyjne programu Excel
- Ilustracje: Zdjęcia, zeskanowane dokumenty, wykresy i diagramy
- Pliki tekstowe: zwykły tekst, HTML, Markdown i RTF
- Zawartość ustrukturyzowana: pliki XML, JSON, CSV i TSV
- Wiadomość e-mail: formaty wiadomości EML i MSG
Aby uzyskać więcej informacji na temat obsługiwanych typów plików, limitów rozmiaru plików i innych ograniczeń, zobacz Limity przydziału i limity usługi.
Struktura odpowiedzi JSON
Interfejs API usługi Content Understanding zwraca wyniki analizy w formacie JSON ze strukturą. Oto ogólna struktura kontenera:
{
"id": "10a01d32-e21e-46e3-bb5c-361375f184de",
"status": "Succeeded",
"result": {
"analyzerId": "my-analyzer",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-06-18T22:50:34Z",
"warnings": [],
"contents": [
{
"markdown": "# Example Document\n\n...",
"fields": { /* extracted field values */ },
"kind": "document",
"startPageNumber": 1,
"endPageNumber": 2,
"unit": "inch",
"pages": [ /* page-level elements */ ],
"paragraphs": [ /* paragraph elements */ ],
"sections": [ /* section elements */ ],
"tables": [ /* table elements */ ],
"figures": [ /* figure elements */ ],
"hyperlinks": [ /* hyperlink elements */ ],
"annotations": [ /* annotation elements */ ]
}
]
}
}
Elementy dokumentu
Następujące elementy dokumentu można wyodrębnić za pomocą analizy dokumentów:
- Markdown
- Obiekty strony
- Struktura dokumentu
Nie wszystkie elementy zawartości i układu mają zastosowanie lub są obecnie obsługiwane przez wszystkie typy plików dokumentów.
Elementy treści Markdown
Usługa Content Understanding generuje sformatowany język Markdown, który zachowuje strukturę oryginalnego dokumentu. Z tego powodu duże modele językowe mogą lepiej zrozumieć kontekst dokumentu i hierarchiczne relacje na potrzeby zadań analizy i generowania opartej na sztucznej inteligencji. Oprócz wyrazów, znaczników zaznaczenia, kodów kreskowych, formuł i obrazów jako zawartości, język Markdown zawiera również sekcje, tabele i metadane stron na potrzeby renderowania wizualnego i przetwarzania maszynowego. Dowiedz się więcej o tym, jak usługa Content Understanding reprezentuje elementy zawartości i układu w języku Markdown.
Słowa
Wyraz jest elementem zawartości składającym się z sekwencji znaków. Załącznik standardowy Unicode nr 29 definiuje granice wyrazów. W przypadku języków łacińskich, wyrazy mogą być oddzielone od znaków interpunkcyjnych nawet bez występowania spacji. W niektórych językach, takich jak chiński, słowniki wyrazów uzupełniających są używane do włączania łamania wyrazów na granicach semantycznych. Aby uzyskać więcej informacji, zobacz Analiza granic.
Przykład JSON:
{
"words": [
{
"content": "Example",
"span": {
"length": 7
},
"confidence": 0.992,
"source": "D(1,1.265,1.0836,2.4972,1.0816,2.4964,1.4117,1.2645,1.4117)"
}
]
}
Znaczniki wyboru
Znacznik zaznaczenia jest elementem zawartości reprezentującym wizualny glif, który wskazuje stan zaznaczenia. Znaczniki zaznaczenia mogą być wyświetlane w dokumencie jako pola wyboru, znaczniki wyboru lub przyciski. Możesz zaznaczyć lub wyczyścić znacznik wyboru z inną reprezentacją wizualną, aby wskazać stan. Znaczniki zaznaczenia są kodowane jako wyrazy w wyniku analizy dokumentu przy użyciu znaków ☒ Unicode (zaznaczonych) i ☐ (wyczyszczone).
Usługa Content Understanding wykrywa znaczniki wyboru wewnątrz komórki tabeli jako znaczniki wyboru w wybranym stanie. Nie wykrywa pustych komórek tabeli jako znaków zaznaczenia w stanie wyczyszczonego.
Przykład JSON:
{
"words": [
{
"content": "☒",
"span": {
"length": 1
},
"confidence": 0.983,
"source": "D(1,1.258,2.7952,1.3705,2.7949,1.371,2.9098,1.2575,2.9089)"
}
]
}
Kody kreskowe
Kod kreskowy to element zawartości opisujący kody kreskowe (na przykład UPC lub EAN) i dwuwymiarowe (na przykład kody kreskowe QR lub MaxiCode). Usługa Content Understanding reprezentuje kody kreskowe przy użyciu wykrytego typu i wyodrębnionej wartości. Obecnie obsługiwane są następujące formaty kodów kreskowych:
| Typ kodu kreskowego | Opis |
|---|---|
QRCode |
Kod QR, zgodnie z definicją w normie ISO/IEC 18004:2015 |
PDF417 |
PDF417, zgodnie z definicją w standardze ISO 15438 |
UPCA |
GS1 12-cyfrowy kod produktu uniwersalnego |
UPCE |
GS1 6-cyfrowy kod produktu uniwersalnego |
Code39 |
Kod kreskowy 39, zgodnie z definicją w normie ISO/IEC 16388:2007 |
Code128 |
Kod kreskowy 128, zgodnie z definicją w normie ISO/IEC 15417:2007 |
EAN8 |
GS1 8-cyfrowy numer artykułu międzynarodowego (europejski numer artykułu) |
EAN13 |
GS1 13-cyfrowy numer artykułu międzynarodowego (numer artykułu europejskiego) |
DataBar |
Kod kreskowy GS1 DataBar |
Code93 |
Kod kreskowy 93, zgodnie z definicją w ANSI/AIM BC5-1995 |
Codabar |
Kod kreskowy Codabar, zgodnie z definicją w ANSI/AIM BC3-1995 |
DataBarExpanded |
Rozszerzony kod kreskowy GS1 DataBar |
ITF |
Kod kreskowy Przeplatany 2 z 5 (ITF) zgodnie z definicją w ANSI/AIM BC2-1995 |
MicroQRCode |
Kod Mikro QR, zgodnie z definicją w normie ISO/IEC 23941:2022 |
Aztec |
Kod Aztec, zgodnie z definicją w normie ISO/IEC 24778:2008 |
DataMatrix |
Kod macierzy danych, zgodnie z definicją w normie ISO/IEC 16022:2006 |
MaxiCode |
MaxiCode, zgodnie z definicją w normie ISO/IEC 16023:2000 |
Przykład JSON:
{
"barcodes": [
{
"kind": "Code39",
"value": "Hello World",
"source": "D(1,2.5738,4.8186,3.8617,4.8153,3.8621,4.9894,2.5743,4.9928)",
"span": {"offset": 192, "length": 10 },
"confidence": 0.977
}
]
}
Formuły
Formuła to element zawartości reprezentujący wyrażenia matematyczne w dokumencie. Może to być wbudowana formuła osadzona z innym tekstem lub formułą wyświetlania, która zajmuje cały wiersz. Formuły wielowierszowe są reprezentowane jako wiele elementów formuł wyświetlania pogrupowanych w akapity w celu zachowania relacji matematycznych.
Formuła może być rodzajowa inline lub display w zależności od umieszczania formuły w dokumencie.
Przykład JSON:
{
"formulas": [
{
"kind": "inline",
"value": "x = \\frac { - b \\pm \\sqrt { b ^ { 2 } - 4 a c } } { 2 a }",
"confidence": 0.708,
"source": "D(1,3.4282,7.0195,4.0452,7.0307,4.0425,7.1803,3.4255,7.1691)",
"span": {
"offset": 394,
"length": 51
}
}
]
}
Rysunki
Rysunek to element zawartości reprezentujący osadzony obraz, rysunek lub wykres w dokumencie. Usługa Content Understanding generuje podsumowanie wykrytych liczb, konwertuje wybrane obrazy na reprezentację chart.js i wyodrębnia dowolny osadzony tekst z obrazów oraz skojarzonych podpisów i przypisów dolnych. Wykresy są reprezentowane w treści rysunku przy użyciu składni chart.js, a diagramy są reprezentowane w treści rysunku przy użyciu składni mermaid. Jest to opcjonalna funkcja, którą można włączyć w konfiguracji analizatora, ustawiając enableFigureAnalysis i enableFigureDescription jako true.
Obecnie obsługiwane są następujące typy ilustracji:
| Typ rysunku | Reprezentacja |
|---|---|
Bar chart |
Chart.js |
Line chart |
Chart.js |
Pie chart |
Chart.js |
Radar chart |
Chart.js |
Scatter chart |
Chart.js |
Bubble chart |
Chart.js |
Quadrant chart |
Chart.js |
Mixed chart (e.g. combined bar and line chart) |
Mermaid.js |
Flow chart |
Mermaid.js |
Sequence diagrams |
Mermaid.js |
Gantt chart |
Mermaid.js |
Przykład JSON:
{
"figures": [
{
// enableFigureDescription = True
"description": "This figure illustrates the sales revenue over the year 2023.",
// enableFigureAnalysis = True
"kind": "chart",
"content": {
"type": "line",
"data": {
"labels": ["January", "February", "March", "April", "May", "June", "July"],
"datasets": [
{
"label": "A",
"data": [93, -29, -17, -8, 73, 98, 40]
},
{
"label": "B",
"data": [20, 85, -79, 93, 27, -81, -22]
}
]
},
"options": {
"title": { "text": "Title" }
}
}
},
{
"kind": "mermaid",
"content": "xychart-beta\n title \"Sales Revenue\"\n x-axis [jan, feb, mar, apr]..."
},
]
}
Hyperlinks
Hiperlink to element zawartości reprezentujący osadzony link łączący się z innym zasobem, takim jak strona internetowa w dokumencie. Content Understanding reprezentuje hiperlinki za pomocą osadzonego linku.
Przykład JSON:
{
"hyperlinks": [
{
"content": "Microsoft",
"url": "https://www.microsoft.com",
"span": {...},
"source": "..."
}
]
}
Annotations
Adnotacje są dodatkowymi metadanymi w dokumencie w celu dostarczenia dodatkowych informacji, wyjaśnień lub opinii bez konieczności zmieniania samej zawartości głównej. Istnieje wiele typów adnotacji, które mogą zawierać określone zakresy zawartości, a nawet odwoływać się do określonych pól ograniczenia. Poniżej znajduje się lista typów adnotacji, które obsługujemy.
Uwaga / Notatka
Należy pamiętać, że adnotacje są obecnie obsługiwane tylko w cyfrowych danych wejściowych PDF.
| Rodzaj adnotacji |
|---|
highlight |
underline |
strikethrough |
rectangle |
circle |
drawing |
comments |
other |
Przykład JSON:
{
"annotations": [
{
"id": "underline-1",
"kind": "underline",
"spans": [...],
"source": "D(pageNumber,l,t,w,h)",
"comments": [
{
"message": "Hi",
"author": "johndoe",
"createdAt": "2023-10-01T12:00:00Z",
"tags": ["approved"]
}
]
"author": "paulhsu",
"createdAt": "2023-10-01T12:00:00Z",
"lastModifiedAt": "2023-10-02T12:00:00Z",
"tags": [ ... ],
}
]
}
Elementy układu
Elementy układu dokumentu to składniki wizualne i strukturalne, takie jak strony, tabele, akapity, wiersze, tabele, sekcje i ogólna struktura, które ułatwiają interpretację zawartości. Wyodrębnianie tych elementów umożliwia narzędziom efektywne analizowanie dokumentów pod kątem zadań, takich jak pobieranie informacji, interpretacja semantyczna i struktura danych.
Strony
Strona to grupa zawartości, która zazwyczaj odpowiada jednej stronie arkusza papieru. Renderowana strona charakteryzuje się szerokością i wysokością w określonej lekcji. Ogólnie rzecz biorąc, obrazy używają pikseli, podczas gdy pliki PDF używają cali. Właściwość angle opisuje ogólny kąt tekstu w stopniach dla stron, które mogą być obracane.
W przypadku arkuszy kalkulacyjnych, takich jak program Excel, każdy arkusz jest mapowany na stronę. W przypadku prezentacji, takich jak program PowerPoint, każdy slajd jest mapowany na stronę. W przypadku formatów plików, takich jak dokumenty HTML lub Word, które nie mają koncepcji strony natywnej bez renderowania, cała zawartość główna jest traktowana jako pojedyncza strona.
Przykład JSON:
{
"pages": [
{
"pageNumber": 1,
"angle": 0.0739153,
"width": 8.5,
"height": 11,
"spans": [
{
"offset": 0,
"length": 620
}
],
"words": [ /* array of word objects */ ],
"barcodes": [ /* details of barcodes */ ],
"lines": [ /* array of line objects */ ],
"formulas": [ /* array of formula objects */ ]
}
]
}
Ustępy
Akapit to uporządkowana sekwencja wierszy tworzących jednostkę logiczną. Zazwyczaj linie mają wspólne wyrównanie i odstępy między liniami. Akapity są często rozdzielane przez wcięcie, dodane odstępy lub punktory/numerowanie. Niektóre akapity mają specjalne role funkcjonalne w dokumencie. Obecnie obsługiwane role obejmują nagłówek strony, stopkę strony, numer strony, tytuł, nagłówek sekcji, przypis dolny i blok formuły.
Przykład JSON:
{
"paragraphs": [
{
"role": "title",
"content": "Example Document",
"source": "D(1,1.264,1.0836,4.1584,1.0795,4.1589,1.4083,1.2644,1.4124)",
"span": {
"offset": 0,
"length": 18
}
}
]
}
Linie
Wiersz to uporządkowana sekwencja kolejnych elementów zawartości, które są często oddzielone spacjami wizualnymi. Elementy zawartości w tej samej płaszczyźnie poziomej (wierszu), ale oddzielone jedną przestrzenią wizualną są najczęściej podzielone na wiele wierszy. Ta funkcja czasami dzieli semantycznie ciągłą zawartość na oddzielne wiersze. Umożliwia również reprezentację zawartości tekstowej podzielonej na wiele kolumn lub komórek. Linie w zapisie pionowym są wykrywane w kierunku pionowym.
Przykład JSON:
{
"lines": [
{
"content": "Example Document",
"source": "D(1,1.264,1.0836,4.1583,1.0795,4.1589,1.4083,1.2645,1.4117)",
"span": {
"offset": 0,
"length": 16
}
}
]
}
Tabele
Tabela organizuje zawartość w grupę komórek w układzie siatki. Wiersze i kolumny mogą być wizualnie oddzielone liniami siatki, paskowaniem kolorów lub większym odstępem. Pozycja komórki tabeli jest określana za pośrednictwem indeksów wierszy i kolumn. Komórka może obejmować wiele wierszy i kolumn.
Na podstawie położenia i stylu komórka jest klasyfikowana jako ogólna zawartość, nagłówek wiersza, nagłówek kolumny, nagłówek wycinków lub opis:
- Komórka nagłówka wiersza jest zazwyczaj pierwszą komórką w wierszu opisającą inne komórki w wierszu.
- Komórka nagłówka kolumny jest zazwyczaj pierwszą komórką w kolumnie, która opisuje inne komórki w kolumnie.
- Wiersz lub kolumna może zawierać wiele komórek nagłówka w celu opisania zawartości hierarchicznej.
- Komórka głowy wycinków jest zazwyczaj komórką w pierwszym wierszu i pierwszej pozycji kolumny. Komórka jest pusta lub opisuje wartości w komórkach nagłówka w tym samym wierszu/kolumnie.
- Komórka opisu zazwyczaj pojawia się w najbardziej górnym lub najbardziej dolnym obszarze tabeli i opisuje ogólną zawartość tabeli. Czasami może pojawić się w środku tabeli, aby podzielić tabelę na sekcje. Zazwyczaj komórki opisu obejmują wiele komórek w jednym wierszu.
Podpis tabeli określa zawartość, która wyjaśnia tabelę. Tabela może również zawierać zestaw przypisów dolnych. W przeciwieństwie do komórki opisu podpis zwykle znajduje się poza układem siatki. Przypisy dolne tabeli dodają adnotacje do zawartości w tabeli i są często oznaczone symbolami przypisu dolnego. Często znajdują się pod siatką tabeli.
Tabela może obejmować kolejne strony dokumentu. W takiej sytuacji kontynuacje tabeli na kolejnych stronach zwykle zachowują tę samą liczbę kolumn, szerokość i styl. Często powtarzają nagłówki kolumn. Zazwyczaj między początkową tabelą a jej kontynuacjami nie ma żadnych pośredniców zawartości, z wyjątkiem nagłówków stron, stopek i numerów stron.
Tabela może obejmować kolejne strony dokumentu. W takiej sytuacji kontynuacje tabeli na kolejnych stronach zwykle zachowują tę samą liczbę kolumn, szerokość i styl. Często powtarzają nagłówki kolumn. Poza nagłówkami stron, stopkami i numerami stron, zazwyczaj nie ma żadnej pośredniej zawartości między początkową tabelą a jej kontynuacjami.
Uwaga / Notatka
Zakres tabel obejmuje zarówno podstawową zawartość, jak i skojarzone z nią podpisy i przypisy dolne.
Przykład JSON:
{
"tables": [
{
"rowCount": 6,
"columnCount": 2,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"rowSpan": 1,
"columnSpan": 1,
"content": "Category",
"source": "D(2,1.1674,5.0483,4.1733,5.0546,4.1733,5.2358,1.1674,5.2358)",
"span": {
"offset": 798,
"length": 8
},
"elements": [
"/paragraphs/7"
]
}
],
"source": "D(2,1.1566,5.0425,7.1855,5.0428,7.1862,6.1853,1.1574,6.1858)",
"span": {
"offset": 781,
"length": 280
},
"caption": {
"content": "Table 1: This is a table",
"source": "D(2,1.1566,5.0425,7.1855,5.0428,7.1862,6.1853,1.1574,6.1858)",
"span": {
"offset": 335,
"length": 30
}
}
}
]
}
Sekcje
Sekcja to logiczne grupowanie powiązanych elementów zawartości, które tworzą hierarchiczną strukturę w dokumencie. Często zaczyna się od nagłówka sekcji, będącego pierwszym akapitem. Sekcja może zawierać podsekcje umożliwiające utworzenie zagnieżdżonej struktury dokumentów, która zachowuje relacje semantyczne.
Przykład JSON:
{
"sections": [
{
"span": {
"offset": 113,
"length": 77
},
"elements": [
"/paragraphs/3",
"/paragraphs/4"
]
}
]
}
Właściwości elementu
Dokumenty składają się z różnych składników, które są podzielone na elementy strukturalne, tekstowe i związane z formularzem. Te elementy definiują organizację i prezentację dokumentu. Można systematycznie identyfikować i wyodrębniać elementy do dalszej analizy lub aplikacji.
Zakres
Właściwość span określa logiczną pozycję elementu w dokumencie poprzez przesunięcie i długość znaków w odniesieniu do właściwości ciągu najwyższego poziomu markdown. Domyślnie przesunięcia i długości znaków są zwracane w punktach kodu Unicode, które są używane przez język Python 3. Aby obsłużyć różne środowiska programistyczne korzystające z różnych jednostek znaków, można określić stringEncoding parametr zapytania, aby zwrócić przesunięcia i długości zakresu w jednostkach kodu UTF16 (Java, JavaScript lub .NET) lub UTF8 (Go, Rust, Ruby lub PHP).
Źródło
Właściwość source opisuje położenie wizualne elementu w pliku przy użyciu zakodowanego ciągu. W przypadku dokumentów ciąg źródłowy jest w jednym z następujących formatów:
-
Wiązanie wielokąta:
D({pageNumber},{x1},{y1},{x2},{y2},{x3},{y3},{x4},{y4}) -
Pole ograniczenia wyrównane do osi:
D({pageNumber},{left},{top},{width},{height})
Numery stron to jeden indeksowany. Wielokąt opisuje sekwencję punktów zgodnie z ruchem wskazówek zegara, zaczynając od lewej strony względem naturalnej orientacji elementu. W przypadku czworokątów punkty reprezentują lewy górny, prawy górny, prawy dolny i dolny lewy róg. Każdy punkt reprezentuje współrzędną x,y w jednostce długości określonej przez unit właściwość . Ogólnie rzecz biorąc, jednostka miary dla obrazów to piksele. Pliki PDF używają cali.
Uwaga / Notatka
Obecnie funkcja Content Understanding zwraca tylko czteropunktowy czworokąt jako wielokąt ograniczenia. Przyszłe wersje mogą zwracać inną liczbę punktów, aby opisać bardziej złożone kształty, takie jak krzywe linie lub obrazy nieznaczące. Obecnie źródło jest zwracane tylko dla elementów z renderowanych plików (PDF/image).
Treści powiązane
- Spróbuj przetwarzać zawartość dokumentu przy użyciu programu Content Understanding Studio.
- Zapoznaj się z przewodnikiem Szybki start dotyczący usługi Content Understanding Studio.
- Dowiedz się, jak analizować zawartość dokumentu przy użyciu szablonów analizatora.
- Przejrzyj przykłady kodu z wyszukiwaniem dokumentów wizualnych.
- Przejrzyj szablony analizatora przykładowego kodu.
Kompletny przykład kodu JSON
W poniższym przykładzie przedstawiono kompletną strukturę odpowiedzi JSON z analizy dokumentu. Ten kod JSON reprezentuje pełne dane wyjściowe z usługi Content Understanding podczas przetwarzania dokumentu PDF z wieloma typami elementów:
{
"id": "10a01d32-e21e-46e3-bb5c-361375f184de",
"status": "Succeeded",
"result": {
"analyzerId": "auto-labeling-model-1750287025291-104",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-06-18T22:50:34Z",
"warnings": [],
"contents": [
{
"markdown": "# Example Document\n\n\n## 1. Selection Marks (Checkboxes)\n\nEmployee Preferences Form\n☐\nRemote\n☒\nHybrid\n☐\nOn-site\n\n\n## 2. Barcodes\n\nGo check out Azure Content Understanding at the below link\n\n\n## 3. Formulas\n\nBayesian Inference (Posterior Probability):\n\n$$P \\left( \\theta \\mid D \\right) = \\frac { P \\left( D \\mid \\theta \\right) \\cdot P \\left( \\theta \\right) } { P \\left( D \\right) }$$\n\nWhere:\n\n$$P \\left( \\theta \\mid D \\right)$$\nis the posterior\n\n$P \\left( D \\mid \\theta \\right)$ is the likelihood\n$P \\left( \\theta \\right)$ is the prior\n\n$$P \\left( D \\right) i s \\quad t h e \\quad e v i d e n c e$$\n\n<!-- PageBreak -->\n\n\n## 4. Images\n\nSample Product Image\n\n\n<figure>\n\nContent\nUnderstanding\n\n</figure>\n\n\nImage Description: \"A ceramic coffee mug with company logo.\"\n\n\n## 5. Tables\n\n\n<table>\n<tr>\n<th>Category</th>\n<th>Amount ($)</th>\n</tr>\n<tr>\n<td>Rent</td>\n<td>1,200</td>\n</tr>\n<tr>\n<td>Utilities</td>\n<td>150</td>\n</tr>\n<tr>\n<td>Groceries</td>\n<td>300</td>\n</tr>\n<tr>\n<td>Transportation</td>\n<td>100</td>\n</tr>\n<tr>\n<td>Total</td>\n<td>1,750</td>\n</tr>\n</table>\n\n\n## 6. Paragraphs\n\nOur company is committed to fostering a productive and inclusive work environment. All\nemployees are expected to comply with the outlined policies and demonstrate mutual\nrespect in day-to-day operations. Regular reviews will ensure that these policies remain\nrelevant and effective.\n",
"fields": {
"EmployeePreferences": {
"type": "string",
"valueString": "Hybrid",
"spans": [
{
"offset": 94,
"length": 6
}
],
"confidence": 0.987,
"source": "D(1,1.4104,2.7836,1.8760,2.7823,1.8760,2.9377,1.4110,2.9396)"
},
"ImageDescription": {
"type": "string",
"valueString": "\"A ceramic coffee mug with company logo.\"",
"spans": [
{
"offset": 722,
"length": 41
}
],
"confidence": 0.958,
"source": "D(2,2.5222,4.2511,5.3236,4.2497,5.3237,4.4422,2.5223,4.4436)"
}
},
"kind": "document",
"startPageNumber": 1,
"endPageNumber": 2,
"unit": "inch",
"pages": [
{
"pageNumber": 1,
"angle": 0.0739153,
"width": 8.5,
"height": 11,
"spans": [
{
"offset": 0,
"length": 620
}
],
"words": [
{
"content": "Example",
"span": {
"length": 7
},
"confidence": 0.992,
"source": "D(1,1.265,1.0836,2.4972,1.0816,2.4964,1.4117,1.2645,1.4117)"
},
{
"content": "Document",
"span": {
"length": 8
},
"confidence": 0.996,
"source": "D(1,2.6252,1.084,4.1615,1.0886,4.1615,1.3993,2.6241,1.4117)"
},
{
"content": "☒",
"span": {
"length": 1
},
"confidence": 0.983,
"source": "D(1,1.258,2.7952,1.3705,2.7949,1.371,2.9098,1.2575,2.9089)"
},
{
"content": "Hybrid",
"span": {
"length": 6
},
"confidence": 0.996,
"source": "D(1,1.4104,2.7836,1.876,2.7823,1.876,2.9377,1.411,2.9396)"
}
],
"lines": [
{
"content": "Example Document",
"source": "D(1,1.264,1.0836,4.1583,1.0795,4.1589,1.4083,1.2645,1.4117)",
"span": {
"offset": 0,
"length": 16
}
}
],
"formulas": [
{
"confidence": 0.583
},
{
"confidence": 0.708
}
]
},
{
"pageNumber": 2,
"angle": 0.1008425,
"width": 8.5,
"height": 11,
"spans": [
{
"offset": 620,
"length": 744
}
],
"words": [
{
"content": "Images",
"source": "D(2,1.4516,1.0434,2.0254,1.0463,2.0254,1.229,1.4506,1.224)"
},
{
"content": "ceramic",
"source": "D(2,2.5230,4.2539,2.6591,4.2543,2.6584,4.4392,2.5223,4.4407)"
}
],
"lines": [
{
"content": "4. Images",
"source": "D(2,1.24,1.0409,2.0238,1.0463,2.0226,1.2284,1.2387,1.223)"
}
]
}
],
"paragraphs": [
{
"role": "title",
"content": "Example Document",
"source": "D(1,1.264,1.0836,4.1584,1.0795,4.1589,1.4083,1.2644,1.4124)",
"span": {
"offset": 0,
"length": 18
}
},
{
"role": "sectionHeading",
"content": "1. Selection Marks (Checkboxes)",
"source": "D(1,1.2461,1.8719,3.8532,1.8731,3.8531,2.065,1.246,2.0638)",
"span": {
"offset": 21,
"length": 34
}
},
{
"content": "Employee Preferences Form ☐ Remote ☒ Hybrid ☐ On-site",
"source": "D(1,1.246,2.0993,3.1019,2.1007,3.101,3.2724,1.2451,3.2709)",
"span": {
"offset": 57,
"length": 53
}
}
],
"sections": [
{
"span": {
"offset": 0,
"length": 1364
},
"elements": [
"/paragraphs/0",
"/sections/1",
"/sections/2",
"/sections/3",
"/sections/4",
"/sections/5",
"/sections/6"
]
},
{
"span": {
"offset": 21,
"length": 89
},
"elements": [
"/paragraphs/1",
"/paragraphs/2"
]
}
],
"tables": [
{
"rowCount": 6,
"columnCount": 2,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"rowSpan": 1,
"columnSpan": 1,
"content": "Category",
"source": "D(2,1.1674,5.0483,4.1733,5.0546,4.1733,5.2358,1.1674,5.2358)",
"span": {
"offset": 798,
"length": 8
}
},
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 1,
"rowSpan": 1,
"columnSpan": 1,
"content": "Amount ($)",
"source": "D(2,4.1733,5.0546,7.1668,5.0546,7.1668,5.2358,4.1733,5.2358)",
"span": {
"offset": 816,
"length": 10
}
}
],
"source": "D(2,1.1566,5.0425,7.1855,5.0428,7.1862,6.1853,1.1574,6.1858)",
"span": {
"offset": 781,
"length": 280
}
}
],
"figures": [
{
"source": "D(2,1.3465,1.8481,3.4788,1.8484,3.4779,3.8286,1.3456,3.8282)",
"span": {
"offset": 658,
"length": 42
},
"elements": [
"/paragraphs/14"
],
"id": "2.1"
}
]
}
]
}
}
W tym kompletnym przykładzie pokazano, jak usługa Content Understanding wyodrębnia i struktury wszystkich różnych typów elementów z dokumentu. Udostępnia zarówno nieprzetworzone treści, jak i szczegółowe informacje pozycyjne i strukturalne, które umożliwiają zaawansowane przepływy pracy przetwarzania dokumentów.