Overzicht van gegevensextractie

Voltooid

Opmerking

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

Gegevensextractie is een workload waarin meerdere AI-technieken worden gecombineerd om gegevens uit inhoud te extraheren, vaak digitale documenten. Een uitgebreide oplossing voor het extraheren van informatie omvat elementen van Computer Vision om tekst in op afbeeldingen gebaseerde gegevens te detecteren; en machine learning, of steeds meer generatieve AI, om de geëxtraheerde tekst semantisch toe te wijzen aan specifieke gegevensvelden.

Diagram van het proces voor gegevensextractie.

  1. Tekstdetectie en -extractie van afbeeldingen met optische tekenherkenning (OCR).
  2. Waardeidentificatie en toewijzing van de OCR-resultaten aan gegevensvelden.

Een oplossing voor het verwerken van onkostenclaims op basis van AI kan bijvoorbeeld automatisch de relevante velden extraheren uit ontvangstbevestigingen om claims efficiënter te verwerken.

Gescande ontvangstbevestiging Geëxtraheerde gegevens
Diagram van een ontvangstbewijs.
  • Leverancier: Vierde koffie
  • Datum: 2024-08-15
  • Subtotaal: $ 6,48
  • Belasting: $ 0,49
  • Totale claim: $ 6,97

De juiste benadering kiezen

Bij het plannen van een oplossing voor gegevensextractie is het belangrijk om rekening te houden met de vereisten en beperkingen die het systeem moet aanpakken. Enkele belangrijke overwegingen zijn:

  • Documentkenmerken. De documenten waaruit u gegevens moet extraheren, vormen de basis van de hele oplossing. Houd rekening met factoren zoals:

    • Consistentie van indeling: gestandaardiseerde formulieren zijn bevorderlijk voor sjabloongebaseerde benaderingen, terwijl voor het verwerken van meerdere indelingen mogelijk een complexere machine learning-gebaseerde oplossing vereist is.
    • Volumevereisten: De verwerking van grote volumes profiteert van geautomatiseerde machine learning-modellen die worden uitgevoerd op geoptimaliseerde systeemhardware.
    • Nauwkeurigheidsvereisten: Kritieke toepassingen hebben mogelijk human-in-the-loop-validatie nodig.
  • Vereisten en beperkingen voor technische infrastructuur. Voor uw oplossing is hardware- en software-infrastructuur nodig om te opereren. Houd rekening met factoren zoals:

    • Beveiliging en privacy: de documenten die u verwerkt, kunnen gevoelige of vertrouwelijke gegevens bevatten. Uw oplossing moet voldoende maatregelen bevatten om de toegang tot de gegevens te beveiligen en te voldoen aan de vereisten van de branche voor het opslaan en verwerken van beveiligde gegevens.
    • Verwerkingskracht: Deep Learning- en generatieve AI-modellen die vaak worden gebruikt in oplossingen voor informatieextractie, vereisen aanzienlijke rekenbronnen.
    • Latentievereisten: realtimeverwerking kan de complexiteit van modellen beperken.
    • Schaalbaarheidsbehoeften: cloudoplossingen bieden betere schaalbaarheid voor variabele workloads.
    • Integratiecomplexiteit: Overweeg vereisten voor API-compatibiliteit en gegevensindeling.

Aanbeveling

In veel gevallen kunnen oplossingen voor gegevensextractie worden gebouwd met behulp van softwareservices, zoals Azure Document Intelligence in Microsoft Foundry Tools en Azure Content Understanding in Microsoft Foundry Tools. Het gebruik van services zoals deze als de basis voor uw oplossing kan de benodigde ontwikkelingsinspanningen aanzienlijk verminderen en tegelijkertijd zeer schaalbare, bewezen prestaties, nauwkeurigheid en integratiemogelijkheden bieden.