Utiliser Agent Bricks: Information Extraction

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Cette page explique comment créer un agent IA génératif pour l’extraction d’informations à l’aide d’Agent Bricks : Extraction d’informations.

Agent Bricks fournit une approche simple pour créer des systèmes d’agent IA spécifiques à un domaine et de haute qualité pour les cas d’usage courants de l’IA.

Qu’est-ce qu’Agent Bricks : Extraction d’informations ?

Agent Bricks prend en charge l’extraction des informations et simplifie le processus de transformation d’un grand volume de documents texte non étiquetés en une table structurée avec des informations extraites pour chaque document.

Voici quelques exemples d’extraction d’informations :

Extraction des prix et des informations sur les contrats de location à partir des contrats.
Organisation des données à partir de notes client.
Obtention de détails importants à partir d’articles d’actualités.

Briques de l’agent : l’extraction d’informations tire parti des fonctionnalités d’évaluation automatisées, notamment MLflow et Agent Evaluation, pour permettre une évaluation rapide du compromis de qualité des coûts pour votre tâche d’extraction spécifique. Cette évaluation vous permet de prendre des décisions éclairées sur l’équilibre entre l’exactitude et l’investissement en ressources.

Agent Bricks utilise le stockage par défaut pour stocker des transformations de données temporaires, des points de contrôle de modèle et des métadonnées internes qui alimentent chaque agent. Lors de la suppression de l’agent, toutes les données associées à l’agent sont supprimées du stockage par défaut.

Requirements

Espace de travail qui inclut les éléments suivants :
- Mosaic AI Agent Bricks Preview (bêta) activé. Consultez Gérer les préversions d’Azure Databricks.
- Le calcul serverless est activé. Consultez les exigences en matière de calcul serverless.
- Catalogue Unity activé. Consultez Activer un espace de travail pour le catalogue Unity.
- Espace de travail dans l’une des régions prises en charge : centralus, , eastuseastus2, northcentralus, southcentralus. westus, ou westus2.
- Accès aux modèles de base dans le catalogue Unity via le system.ai schéma.
- Accédez à une stratégie budgétaire serverless avec un budget différent de zéro.
Possibilité d’utiliser la ai_query fonction SQL.
Fichiers à partir duquel vous souhaitez extraire des données. Les fichiers doivent se trouver dans un volume ou une table du catalogue Unity.
- Si vous souhaitez utiliser des fichiers PDF, convertissez-les d’abord en table de catalogue Unity. Consultez Utiliser des fichiers PDF dans Agent Bricks.
- Pour générer votre agent, vous avez besoin d'au moins 1 document non étiqueté dans votre catalogue Unity ou d'1 ligne dans votre table.

Créer un agent d’extraction d’informations

Accédez à l’icône Agents. Agents dans le volet de navigation gauche de votre espace de travail. Dans la vignette Extraction d’informations , cliquez sur Générer.

Étape 1 : Configurer votre agent

Configurez votre agent :

Dans le champ Nom , entrez un nom pour votre agent.
Sélectionnez le type de données que vous souhaitez fournir. Vous pouvez choisir un jeu de données sans étiquette ou un jeu de données étiqueté.
Sélectionnez le jeu de données à fournir.

Jeu de données sans étiquette

Si vous sélectionnez Jeu de données sans étiquette :
1. Dans le champ d’emplacement du jeu de données , sélectionnez le dossier ou la table que vous souhaitez utiliser à partir de votre volume de catalogue Unity. Si vous sélectionnez un dossier, le dossier doit contenir des documents dans un format de document pris en charge.
  
  Voici un exemple de volume :
  
  /Volumes/main/info-extraction/bbc_articles/
2. Si vous fournissez un tableau, sélectionnez la colonne contenant vos données de texte dans la liste déroulante. La colonne de table doit contenir des données dans un format de données pris en charge.
  
  Si vous souhaitez utiliser des fichiers PDF, convertissez-les d’abord en table de catalogue Unity. Consultez Utiliser des fichiers PDF dans Agent Bricks.
3. Agent Bricks déduit et génère automatiquement un exemple de sortie JSON contenant des données extraites de votre jeu de données dans le champ De sortie JSON Exemple . Vous pouvez accepter l’exemple de sortie, le modifier ou le remplacer par un exemple de sortie JSON souhaitée. L’agent retourne des informations extraites à l’aide de ce format.
Jeu de données étiqueté

Si vous sélectionnez Jeu de données étiqueté :
1. Dans le champ ensemble de données Ground truths, sélectionnez la table Unity Catalog contenant vos données de vérité de base.
2. Dans le champ Colonne d’entrée , sélectionnez la colonne contenant le texte que vous souhaitez que l’agent traite. Les données de cette colonne doivent être au str format.
3. Dans le champ de colonne de réponse Ground truth , sélectionnez la colonne contenant les réponses idéales attendues. Les données de cette colonne doivent être une chaîne JSON. Chaque ligne de cette colonne doit suivre le même format JSON. Les lignes contenant des clés supplémentaires ou manquantes ne sont pas acceptables.
4. Dans le champ Exemple de sortie JSON, Agent Bricks génère automatiquement un exemple de sortie JSON en utilisant la première ligne de données de la colonne de réponse de vérité terrain. Vérifiez que cette sortie JSON correspond au format attendu.

Vérifiez que l’exemple de champ de sortie JSON correspond au format de réponse souhaité. Modifiez si nécessaire.

Par exemple, l’exemple de sortie JSON suivant peut être utilisé pour extraire des informations à partir d’un ensemble d’articles d’actualités :

{
  "title": "Economy Slides to Recession",
  "category": "Politics",
  "paragraphs": [
    {
      "summary": "GDP fell by 0.1% in the last three months of 2004.",
      "word_count": 38
    },
    {
      "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
      "word_count": 42
    }
  ],
  "tags": ["Recession", "Economy", "Consumer Spending"],
  "estimate_time_to_read_min": 1,
  "published_date": "2005-01-15",
  "needs_review": false
}

Sous Modèle de choix, sélectionnez le meilleur modèle pour votre agent d’extraction d’informations :
- Optimiser pour la mise à l’échelle (par défaut) : choisissez cette option si vous traitez de grands volumes de données ou préférez un agent économique. Ce modèle est conçu pour un débit élevé et un délai de traitement plus rapide et convient à la plupart des tâches d’extraction d’informations.
- Optimiser la complexité : choisissez cette option si vous avez besoin d’un raisonnement complexe et hiérarchiser la précision par rapport à la vitesse et au coût. Ce modèle offre des fonctionnalités de raisonnement plus élevées pour les documents plus longs (tels que les dépôts financiers) et peut gérer des extractions plus complexes (telles que l’extraction de champs de schéma 40+).
Cliquez sur Créer un agent.

Formats de document pris en charge

Le tableau suivant présente les types de fichiers de documents pris en charge pour vos documents sources si vous fournissez un volume de catalogue Unity.

Fichiers de code	Fichiers de documents	Fichiers de logs
`.c` `.cc` `.cpp` `.cs` `.css` `.cxx` `.go` `.h` `.hpp` `.htm` `.html` `.java` `.js` `.json` `.jsonl` `.jsx` `.lua` `.md` `.php` `.pl` `.py` `.rb` `.sh` `.swift` `.tex` `.ts` `.tsx`	`.md` `.rst` `.tex` `.txt` `.xml` `.xsd` `.xsl`	`.diff` `.err` `.log` `.out` `.patch`

Formats de données pris en charge

Agent Bricks: Information Extraction prend en charge les types de données et les schémas suivants pour vos documents sources si vous fournissez une table Unity Catalog. Agent Bricks peut également extraire ces types de données de chaque document.

str
int
float
boolean
enum (utilisé pour les tâches de classification où l’agent doit uniquement sélectionner parmi les catégories prédéfinies)
Objet
Tableaux

enum (adapté aux tâches de classification où nous voulons que l’agent génère uniquement à partir d’un ensemble de catégories prédéfinies) objet (à la place de "champs imbriqués personnalisés") tableau

Étape 2 : Améliorer votre agent

Dans l’onglet Build , passez en revue les exemples de sorties pour vous aider à affiner votre définition de schéma et à ajouter des instructions pour obtenir de meilleurs résultats.

À gauche, passez en revue les exemples de réponses et fournissez des commentaires pour affiner votre agent. Ces exemples sont basés sur votre configuration actuelle de l’agent.
1. Cliquez sur une ligne pour passer en revue l’entrée et la réponse complètes.
2. En bas, en regard de cette réponse est-elle correcte ?, fournissez des commentaires en sélectionnant Icône Oui ou Corrigez-le. Pour corriger les feedback, fournissez des détails supplémentaires sur la façon dont l’agent doit modifier sa réponse, puis cliquez sur Enregistrez.
3. Une fois que vous avez terminé d’examiner toutes les réponses, cliquez sur Oui, mettez à jour l’agent. Vous pouvez également cliquer sur Enregistrer les commentaires et mettre à jour après avoir examiné au moins trois réponses.
À droite, sous Champs sortie, affinez les descriptions de vos champs de schéma d’extraction. Ces descriptions sont ce que l’agent s’appuie pour comprendre ce que vous souhaitez extraire. Utilisez les exemples de réponses sur la gauche pour vous aider à affiner la définition du schéma.
1. Pour chaque champ, passez en revue et modifiez la définition de schéma en fonction des besoins. Utilisez les exemples de réponses à gauche pour vous aider à affiner ces descriptions.
2. Pour modifier le nom et le type du champ, cliquez sur Champ Modifier.
3. Pour ajouter un nouveau champ, cliquez sur Ajoutez un nouveau champ. Entrez le nom, le type et la description, puis cliquez sur Confirmer.
4. Pour supprimer un champ, cliquez sur Supprimer le champ.
5. Cliquez sur Enregistrer et mettre à jour pour mettre à jour la configuration de votre agent.
(Facultatif) À droite, sous Instructions, entrez les instructions globales de votre agent. Ces instructions s’appliquent à tous les éléments extraits. Cliquez sur Enregistrer et mettre à jour pour appliquer les instructions.
De nouveaux exemples de réponses sont générés sur le côté gauche. Passez en revue ces réponses mises à jour et continuez à affiner la configuration de votre agent jusqu’à ce que les réponses soient satisfaisantes.

Étape 3 : Utiliser votre agent

Vous pouvez utiliser votre agent dans des flux de travail dans Databricks. Par défaut, les endpoints Agent Bricks passent à zéro après trois jours d'inactivité, vous n'êtes donc facturé que pour le temps de fonctionnement.

Pour commencer à utiliser votre agent, cliquez sur Utiliser. Vous pouvez choisir d’utiliser votre agent de plusieurs façons :

Extrayez des données pour tous les documents : cliquez sur Démarrer l’extraction pour ouvrir l’éditeur SQL et utiliser ai_query pour envoyer des demandes à votre nouvel agent d’extraction d’informations.
Créer un pipeline ETL : cliquez sur Créer un pipeline pour déployer un pipeline qui s’exécute à intervalles planifiés pour utiliser votre agent sur de nouvelles données. Consultez pipelines déclaratifs Spark Lakeflow pour plus d’informations sur les pipelines.
Testez votre agent : cliquez sur Ouvrir dans Playground pour essayer votre agent dans un environnement de test pour voir comment il fonctionne. Voir Chat with LLMs et prototyper des applications IA génératives à l'aide d'AI Playground pour en savoir plus sur AI Playground.

(Facultatif) Étape 4 : Évaluer votre agent

Pour vous assurer que vous avez créé un agent de haute qualité, exécutez une évaluation et examinez le rapport de qualité résultant.

Basculez vers l’onglet Qualité .
Cliquez sur Exécuter l’évaluation.
Dans le volet Nouvelle évaluation qui s’affiche, configurez l’évaluation :
1. Sélectionnez le nom du test d'analyse. Vous pouvez choisir d’utiliser un nom généré ou de fournir un nom personnalisé.
2. Sélectionnez le jeu de données d’évaluation. Vous pouvez choisir d’utiliser le même jeu de données source utilisé pour générer votre agent ou fournir un jeu de données d’évaluation personnalisé à l’aide de données étiquetées ou non étiquetées.
Cliquez sur Démarrer l’évaluation.
Une fois votre exécution d’évaluation terminée, passez en revue le rapport de qualité :
- Un affichage Résumé s’affiche par défaut. Passez en revue le rapport global sur la qualité, le coût, le débit et le résumé des métriques d’évaluation. Cliquez sur à côté du champ de schéma pour voir comment ce champ est évalué.
- Basculez vers l’affichage détaillé pour plus d’informations. Cette vue affiche chaque requête et le score d’évaluation pour chaque métrique. Cliquez sur une requête pour voir des détails supplémentaires tels que l’entrée, la sortie, les évaluations, les traces et les invites liées. Vous pouvez également modifier les évaluations de la demande et fournir des commentaires supplémentaires.

Interroger le point de terminaison de l’agent

Dans la page de l’agent, cliquez sur l’icône de service modèle. Voir l’état de l’agent en haut à droite afin d'obtenir le point de terminaison de votre agent déployé et consulter les détails de ce dernier.

Il existe plusieurs façons d’interroger le point de terminaison de l’agent créé. Utilisez les exemples de code fournis dans AI Playground comme point de départ :

Dans la page de l’agent, cliquez sur Utiliser.
Cliquez sur Ouvrir dans le terrain de jeux.
Dans Playground, cliquez sur Obtenir le code.
Choisissez la façon dont vous souhaitez utiliser le point de terminaison :
- Sélectionnez Appliquer sur les données pour créer une requête SQL qui applique l’agent à une colonne de table spécifique.
- Sélectionnez l’API Curl pour obtenir un exemple de code pour interroger le point de terminaison à l’aide de curl.
- Sélectionnez l’API Python pour un exemple de code pour interagir avec le point de terminaison à l’aide de Python.

Gérer les autorisations

Par défaut, seuls les auteurs de l’agent Bricks et les administrateurs de l’espace de travail disposent d’autorisations pour l’agent. Pour permettre à d’autres utilisateurs de modifier ou d’interroger votre agent, vous devez leur accorder explicitement l’autorisation.

Pour gérer les autorisations sur votre agent :

Ouvrez votre agent dans Agent Bricks.
En haut, cliquez sur Menu kebab.
Cliquez sur Gérer les autorisations.
Dans la fenêtre Paramètres d’autorisation , sélectionnez l’utilisateur, le groupe ou le principal du service.
Sélectionnez l’autorisation d’accorder :
- Peut gérer : permet de gérer les briques de l’agent, notamment la définition des autorisations, la modification de la configuration de l’agent et l’amélioration de sa qualité.
- Peut exécuter des requêtes : permet d'exécuter des requêtes sur le point de terminaison Agent Bricks dans AI Playground et via l’API. Les utilisateurs disposant uniquement de cette autorisation ne peuvent pas afficher ou modifier l’agent dans Agent Bricks.
Cliquez sur Ajouter.
Cliquez sur Enregistrer.

Note

Pour les points de terminaison d’agent créés avant le 16 septembre 2025, vous pouvez accorder des autorisations Can Query au point de terminaison à partir de la page Points de terminaison de service .

Utiliser des PDF dans Agent Bricks

Les fichiers PDF ne sont pas encore pris en charge en mode natif dans Agent Bricks : Extraction d’informations et LLM personnalisé. Toutefois, vous pouvez utiliser le flux de travail de l’interface utilisateur de l’agent Brick pour convertir un dossier de fichiers PDF en markdown, puis utiliser la table de catalogue Unity obtenue comme entrée lors de la génération de votre agent. Ce flux de travail utilise ai_parse_document pour la conversion. Suivez ces étapes :

Cliquez sur Agents dans le volet de navigation gauche pour ouvrir Agent Bricks dans Databricks.
Dans les cas d’utilisation de l’extraction d’informations ou de LLM personnalisés, cliquez sur Utiliser des fichiers PDF.
Dans le volet latéral qui s’ouvre, entrez les champs suivants pour créer un flux de travail pour convertir vos fichiers PDF :
1. Sélectionnez un dossier avec des fichiers PDF ou des images : sélectionnez le dossier catalogue Unity contenant les fichiers PDF que vous souhaitez utiliser.
2. Sélectionnez la table de destination : sélectionnez le schéma de destination de la table markdown convertie et, si vous le souhaitez, ajustez le nom de la table dans le champ ci-dessous.
3. Sélectionnez l’entrepôt SQL actif : sélectionnez l’entrepôt SQL pour exécuter le flux de travail.
Cliquez sur Démarrer l’importation.
Vous êtes redirigé vers l’onglet Tous les flux de travail , qui répertorie tous vos flux de travail PDF. Utilisez cet onglet pour surveiller l’état de vos travaux.

Si votre flux de travail échoue, cliquez sur le nom du travail pour l’ouvrir et afficher les messages d’erreur pour vous aider à déboguer.
Une fois votre flux de travail terminé, cliquez sur le nom du travail pour ouvrir la table dans l’Explorateur de catalogues pour explorer et comprendre les colonnes.
Utilisez la table Catalogue Unity comme données d’entrée dans Agent Bricks lors de la configuration de votre agent.

Limitations

Les agents d’extraction d’informations ont une longueur de contexte maximale de 128 000 jetons.
Les espaces de travail dont la sécurité et la conformité renforcées sont activés ne sont pas pris en charge.
Les types de schémas union ne sont pas pris en charge.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-12-22