Partager via


Baliser les documents

En catégorisant les documents que vous avez chargés, vous apprenez à votre modèle AI Builder à extraire les champs et les tables que vous avez spécifiés.

Pour commencer la catégorisation, sélectionnez l’une des collections dans le volet de droite.

Catégoriser des champs

Pour baliser un champ, il suffit de tracer un rectangle autour du champ qui vous intéresse et de sélectionner le nom du champ auquel il correspond.

Animation des champs de balisage dans un document.

Vous pouvez le redimensionner à tout moment pour ajuster votre sélection.

Si un champ se termine sur une ligne et commence sur une autre, vous pouvez le catégoriser à l’aide de l’option Continuer la catégorisation.

Animation de la catégorisation de plusieurs mots et sauts de ligne.

Vous pouvez également utiliser la clé Contrôle dans Windows ou la Commande ⌘ dans macOS pour catégoriser plusieurs mots à la fois. Vous pouvez utiliser la touche Maj pour sélectionner le premier et le dernier mot pour catégoriser tous les mots entre les deux.

Lorsque vous survolez des mots dans vos documents, des cadres bleu clair peuvent apparaître. Ils indiquent que vous pouvez dessiner un rectangle autour de ces mots pour sélectionner un champ.

Capture d’écran de la sélection des champs en gros plan.

Pour le modèle de factures personnalisé uniquement

Vous pouvez remplacer le comportement d’un champ par défaut en redessinant un cadre englobant existant.

Capture d’écran du remplacement du comportement d’un champ par défaut.

Les champs par défaut de la facture qui n’ont pas été automatiquement détectés dans votre document sont marqués comme « Pas dans le document ». Vous pouvez modifier ce paramètre en Disponible dans le document et le marquer manuellement s’il est présent.

Capture d’écran du champ disponible dans le document.

Lors de la catégorisation, sélectionnez Personnalisé pour afficher la liste des champs non catégorisés que vous avez ajoutés, puis sélectionnez Par défaut pour afficher les champs par défaut non catégorisés marqués comme « Disponible dans le document ».

Capture d’écran de la vue par défaut.

Catégoriser des tables

  1. Dessinez un rectangle autour de la table dans le document qui vous intéresse, puis sélectionnez le nom de table correspondant. Le contenu du volet à droite est modifié.

  2. Dessinez des lignes en cliquant avec le bouton gauche entre les séparateurs de lignes.

  3. Dessinez des colonnes en appuyant sur Ctrl + clic gauche.

  4. Une fois les lignes et les colonnes définies, affectez les en-têtes à extraire en sélectionnant la colonne d’en-tête et en la mappant à celle souhaitée.

    Un aperçu de la façon dont le tableau sera extrait apparaît dans le panneau de droite.

  5. Si l’en-tête de la table est catégorisé, sélectionnez Ignorer la première ligne, afin qu’il ne soit pas extrait en tant que contenu de la table.

    L’animation suivante illustre ce processus :

    Animation du balisage d’une table dans un document.

Vous pouvez également définir les lignes et les colonnes d’une table en sélectionnant Délimiter les lignes et les colonnes en haut de l’écran.

Capture d’écran de Délimiter les lignes et les colonnes.

Utiliser le mode de balisage avancé

Le mode de balisage avancé vous permet de baliser les tableaux au niveau de la cellule. Utilisez ce mode pour les tableaux complexes tels que :

  • Tableaux asymétriques, où le balisage avec une grille n’est pas possible.
  • Lorsque vous devez extraire des éléments imbriqués, comme un élément dans une cellule.

Étant donné le tableau de l’exemple suivant, pour extraire le prix unitaire, vous le définissez comme une colonne distincte à l’étape Choisir les informations à extraire. Vous définissez Description, Prix unitaire, Quantité et Montant en tant que colonne individuelle de la table et les catégorisez en conséquence en utilisant le mode de catégorisation avancé.

Animation de Délimiter les lignes et les colonnes.

Vous pouvez commencer à baliser dans le mode par défaut pour capturer rapidement toutes les lignes et colonnes. Passez ensuite en mode avancé pour ajuster chaque cellule et baliser les éléments imbriqués.

Éléments imbriqués dans les tableaux

Vous pouvez catégoriser des éléments imbriqués dans une ligne en les définissant comme des colonnes. Étant donné le tableau de l’exemple suivant, pour extraire le prix unitaire, définissez-le comme une colonne distincte à l’étape Choisir les informations à extraire précédemment dans cet article. Définissez Description, Prix unitaire, Quantité et Montant en tant que colonne individuelle du tableau et les balisons en conséquence.

Capture d’écran du balisage des éléments imbriqués dans les tables.

Tables à plusieurs pages

Si une table s’étend sur plusieurs pages, assurez-vous de le baliser sur toutes les pages. Une fois que vous avez terminé de catégoriser la table sur une page, sélectionnez Cette table se prolonge sur la page suivante et continuez à catégoriser la table sur la page suivante. En faisant cela, vous apprenez au modèle que la table peut s’étendre sur plusieurs pages.

Capture d’écran montrant qu’il faut sélectionner l’option « Ce tableau continue sur la page suivante » pour continuer à baliser un tableau qui s’étend sur plusieurs pages.

Une fois que vous avez catégorisé toutes les pages où la table est présente, sélectionnez Terminé pour marquer la table comme entièrement catégorisée.

Vous pouvez baliser des tables complexes qui contiennent des cellules fusionnées, des éléments imbriqués, des bordures ou l’absence de bordures, ou des éléments inattendus comme une tache de café, comme illustré dans l’exemple suivant.

Capture d’écran montrant qu’il faut sélectionner l’option « Terminé » une fois que le tableau a été balisé dans toutes les pages.

Pourboire

Comme bonne pratique, assurez-vous de charger des documents pour la formation avec les variations attendues. Par exemple, incluez des exemples où le tableau entier se trouve sur une seule page et où les tableaux s’étendent sur deux pages ou plus.

Baliser des cases à cocher

Pour baliser une case à cocher, il suffit de tracer un rectangle autour de la case à cocher que vous souhaitez extraire et de sélectionner le nom de la case à cocher à laquelle il correspond.

Animation du balisage d’une case à cocher.

Si la qualité du document est faible, AI Builder peut ne pas être en mesure de détecter la case à cocher. Si vous ne pouvez pas baliser une case à cocher, procédez comme suit :

  1. Dans le panneau de droite, sélectionnez les trois points à côté de la case à cocher que vous souhaitez extraire.
  2. Sélectionnez Non disponible dans le document.

AI Builder prend en charge la détection et l’extraction des marques de sélection telles que les cases à cocher et les boutons radio, avec différents marqueurs pour indiquer si la sélection est marquée ou non.

Champ, case à cocher ou table absent(e) d’un document ou d’une collection

Si un champ, une case à cocher ou une table n’est pas présent dans l’un des documents ou dans la collection que vous avez chargés pour la formation, sélectionnez Non disponible dans le document ou Non disponible dans la collection sur le panneau de droite, à côté d’un champ, d’une case à cocher ou d’une table.

Animation d’un champ ou d’une table absente d’un document ou d’une collection.

Catégoriser tous les documents dans toutes les collections

Tous les documents que vous avez chargés sont présents afin que vous puissiez les catégoriser. Si vous avez créé plusieurs collections, catégorisez tous les documents dans toutes les collections.

Si les champs ne peuvent pas être balisés dans votre document, accédez à Les champs n’ont pas pu être chargés pour ce document pour d’éventuelles résolutions.

Étape suivante

Extraire les dates et les nombres

Formation : traiter les documents personnalisés avec AI Builder (module)