Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
MLflow 3 voor GenAI is een open platform dat tracering, evaluatie en waarneembaarheid voor GenAI-apps en -agents in de gehele ontwikkelings- en productielevenscyclus samenhoudt. Het omvat realtime traceringslogboeken, ingebouwde en aangepaste scorers, het opnemen van menselijke feedback en het bijhouden van versies, zodat u de app-kwaliteit efficiënt kunt evalueren en verbeteren tijdens de ontwikkeling en de kwaliteit van de productie kunt blijven volgen en verbeteren.
Beheerde MLflow op Databricks breidt open source MLflow uit met mogelijkheden die zijn ontworpen voor productie GenAI-toepassingen, waaronder ondernemingsklare governance, volledig beheerde hosting, productieschaalvergroting en integratie met uw gegevens in de Databricks Lakehouse en Unity Catalog.
Zie Mosaic AI Agent Evaluation (MLflow 2) en de migratiehandleiding voor informatie over de evaluatie van agents in MLflow 2. Voor MLflow 3 zijn de sdk-methoden voor agentevaluatie geïntegreerd met door Databricks beheerde MLflow.
Zie Aan de slag voor een reeks zelfstudies om u op weg te helpen.
Hoe MLflow 3 helpt de kwaliteit van genAI-apps te optimaliseren
Het evalueren van GenAI-toepassingen en -agents is complexer dan het evalueren van traditionele software. Invoer en uitvoer zijn vaak vrije tekst en veel verschillende uitvoerwaarden kunnen als correct worden beschouwd. Kwaliteit is niet alleen afhankelijk van juistheid, maar ook van factoren zoals precisie, lengte, volledigheid, geschiktheid en andere criteria die specifiek zijn voor de use-case. Omdat LLM's inherent niet-deterministisch zijn en GenAI-agents aanvullende onderdelen bevatten, zoals retrievers en hulpprogramma's, kunnen hun antwoorden variëren van uitvoering tot uitvoering.
Ontwikkelaars hebben concrete metrische gegevens van kwaliteit, geautomatiseerde evaluatie en continue bewaking nodig om robuuste AI-apps te bouwen en te implementeren. MLflow 3 voor GenAI biedt deze belangrijke onderdelen voor efficiënte ontwikkeling, implementatie en continue verbetering:
- Tracering registreert automatisch invoer, tussenliggende stappen en uitvoer en biedt de gegevensbasis voor evaluatie en bewaking.
- Met ingebouwde en aangepaste LLM-rechters en scorers kunt u verschillende aspecten van kwaliteit definiëren en metrische gegevens aanpassen aan uw use-case.
- Review-apps voor deskundige feedback stellen u in staat om datasets te verzamelen en te labelen voor evaluatie en om geautomatiseerde beoordelaars en scoreprogrammas af te stemmen op deskundig oordeel.
- Geautomatiseerde evaluatie en controle maken gebruik van dezelfde juryleden en scorers tijdens de ontwikkeling en productie.
- Met app- en promptversiebeheer kunt u versies vergelijken en verbeteringen in iteraties bijhouden.
Met MLflow 3 op Databricks kunt u AI aan uw gegevens toevoegen om u te helpen de kwaliteit diep te begrijpen en te verbeteren. Unity Catalog biedt consistente governance voor prompts, apps en traceringen. Met behulp van elk model of framework ondersteunt MLflow u overal in de ontwikkelingslus tot en met productie.
Get started
Begin met het bouwen van betere GenAI-toepassingen met uitgebreide waarneembaarheids- en evaluatiehulpprogramma's.
| Opdracht | Beschrijving |
|---|---|
| Snelstartgids | Ga in enkele minuten aan de slag met stapsgewijze instructies voor het instrumenteren van uw eerste toepassing met tracering, het uitvoeren van evaluatie en het verzamelen van menselijke feedback. |
| Aan de slag: MLflow Tracing voor GenAI (Databricks Notebook) | Instrumenteer een eenvoudige GenAI-app om automatisch gedetailleerde traceringen vast te leggen voor foutopsporing en optimalisatie. |
| Zelfstudie: Een GenAI-toepassing evalueren en verbeteren | U wordt stapsgewijs begeleid bij het evalueren van een app voor het genereren van e-mail die gebruikmaakt van Retrieval-Augmented Generation (RAG). |
| Demo van 10 minuten: Menselijke feedback verzamelen | Verzamel feedback van eindgebruikers, voeg aantekeningen voor ontwikkelaars toe, maak deskundige beoordelingssessies en gebruik die feedback om de kwaliteit van uw GenAI-app te evalueren. |
Tracering
MLflow Tracing biedt waarneembaarheid en registreert de traceringsgegevens die vereist zijn voor evaluatie en bewaking.
| Feature | Beschrijving |
|---|---|
| MLflow-volgsysteem | End-to-end waarneembaarheid voor GenAI-toepassingen, inclusief complexe op agents gebaseerde systemen. Volg invoer, uitvoer, tussenliggende stappen en metagegevens voor een volledig beeld van hoe uw app zich gedraagt. |
| Wat is gegevensvolging? | Inleiding tot traceringsconcepten. |
| Het gedrag en de prestaties van uw app controleren | Met volledige zichtbaarheid van de uitvoering kunt u prompts, ophaalbewerkingen, hulpprogrammaaanroepen, antwoorden, latentie en kosten vastleggen. |
| Waarneembaarheid van productie | Gebruik dezelfde instrumentatie in ontwikkel- en productieomgevingen voor consistente evaluatie. |
| Evaluatiegegevenssets bouwen | Analyseer traceringen om kwaliteitsproblemen te identificeren, selecteer representatieve traceringen, maak evaluatiegegevenssets en verbeter uw toepassing systematisch. |
| Traceringsintegraties | MLflow Tracing is geïntegreerd met veel bibliotheken en frameworks voor automatische tracering waarmee u onmiddellijk waarneembaar kunt worden in uw GenAI-toepassingen met minimale installatie. |
Evaluatie en monitoring
Vervang handmatige tests door geautomatiseerde evaluatie met behulp van ingebouwde en aangepaste LLM-rechters en scorers die overeenkomen met menselijke expertise en kunnen worden toegepast in zowel ontwikkeling als productie. Elke productie-interactie wordt een kans om te verbeteren met geïntegreerde feedback- en evaluatiewerkstromen.
| Feature | Beschrijving |
|---|---|
| GenAI-agents evalueren en bewaken | Overzicht van het evalueren en bewaken van agents met MLflow 3 op Databricks. |
| LLM rechters en scorers | MLflow 3 bevat ingebouwde LLM-beoordelaars voor veiligheid, relevantie, juistheid, ophalingskwaliteit en meer. U kunt ook op maat gemaakte LLM-beoordelaars en codegebaseerde scorers maken, afgestemd op uw specifieke zakelijke vereisten. |
| Evaluatie | Voer evaluatie uit tijdens de ontwikkeling of als onderdeel van een releaseproces. |
| Productiebewaking | Bewaak continu een voorbeeld van het productieverkeer met behulp van LLM-beoordelaars en scorers. |
| Menselijke feedback verzamelen | Verzamel en gebruik feedback van domeinexperts en eindgebruikers tijdens de ontwikkeling en tijdens de productie voor continue verbetering. |
De levenscyclus van de GenAI-app beheren
Versie, traceer en beheer van uw hele GenAI-toepassing met hulpprogramma's voor levenscyclusbeheer en governance op bedrijfsniveau.
| Feature | Beschrijving |
|---|---|
| Versiebeheer van toepassingen | Metrische gegevens voor code, parameters en evaluatie bijhouden voor elke versie. |
| Promptregister | Gecentraliseerd beheer voor prompts voor versiebeheer en delen in uw organisatie met A/B-testmogelijkheden en Integratie van Unity Catalog. |
| Bedrijfsintegratie |
Unity Catalog. Geïntegreerde governance voor alle AI-assets met bedrijfsbeveiligings-, toegangsbeheer- en nalevingsfuncties. Gegevensinformatie. Verbind uw GenAI-gegevens met uw bedrijfsgegevens in Databricks Lakehouse en lever aangepaste analyses aan uw zakelijke belanghebbenden. Mozaïek AI Agent serveren. Implementeer agents in productie met schaalaanpassing en operationele rigor. |