Erkunden des Modellkatalogs

Abgeschlossen

Der Modellkatalog in Microsoft Foundry bietet ein zentrales Repository von Modellen, das Sie durchsuchen können, um das richtige Sprachmodell für Ihren speziellen generativen KI-Anwendungsfall zu finden.

Screenshot des Modellkatalogs im Microsoft Foundry-Portal.

Die Auswahl eines Basismodells für Ihre generative KI-App ist wichtig, da sich dies darauf auswirkt, wie gut Ihre App funktioniert. Um das beste Modell für Ihre App zu finden, können Sie einen strukturierten Ansatz verwenden, indem Sie sich die folgenden Fragen stellen:

  • Kann KI meinem Anwendungsfall lösen?
  • Wie wähle ich das beste Modell für meinen Anwendungsfall aus?
  • Ist die Skalierung für echte Workloads möglich?

Lassen Sie uns diese Fragen untersuchen.

Kann KI meinem Anwendungsfall lösen?

Heutzutage haben wir Tausende von Sprachmodellen zur Auswahl. Die wichtigste Herausforderung besteht darin, zu verstehen, ob es ein Modell gibt, das Ihren Anforderungen entspricht, und um die Frage zu beantworten: Kann KI meinen Anwendungsfall lösen?

Um mit der Beantwortung dieser Frage zu beginnen, müssen Sie ein Modell ermitteln, filtern und bereitstellen. Sie können die verfügbaren Sprachmodelle über drei verschiedene Kataloge erkunden:

  • Hugging Face: Riesiger Katalog von Open-Source-Modellen in verschiedenen Domänen.
  • GitHub: Zugriff auf verschiedene Modelle über GitHub Marketplace und GitHub Copilot.
  • Microsoft Foundry: Umfassender Katalog mit robusten Tools für die Bereitstellung.

Obwohl Sie jeden dieser Kataloge verwenden können, um Modelle zu erkunden, macht der Modellkatalog in Microsoft Foundry es am einfachsten, ein Modell zu erkunden und bereitzustellen, um Ihren Prototyp zu erstellen, und bietet gleichzeitig die beste Auswahl an Modellen.

Sehen wir uns einige der Optionen an, die Sie bei der Suche nach geeigneten Modellen berücksichtigen müssen.

Wählen Sie zwischen Large Language Models und kleinen Sprachmodellen

Zunächst haben Sie die Wahl zwischen Large Language Models (LLMs) und kleinen Sprachmodellen (Small Language Models, SLMs).

  • LLMs wie GPT-4, Mistral Large, Llama3 70B, Llama 405B und Command R+ sind leistungsstarke KI-Modelle, die für Aufgaben entwickelt wurden, die tiefe Argumentation, komplexe Inhaltsgenerierung und umfassendes Kontextverständnis erfordern.

  • SLMs wie Phi3, Mistral OSS-Modelle und Llama3 8B sind effizient und kostengünstig, während weiterhin viele gängige NLP-Aufgaben (Natural Language Processing, Verarbeitung natürlicher Sprache) verarbeitet werden. Sie eignen sich perfekt für die Ausführung auf kostengünstiger Hardware oder Edgegeräten, bei denen Kosten und Geschwindigkeit wichtiger sind als die Modellkomplexität.

Konzentrieren auf eine Modalität, eine Aufgabe oder ein Tool

Sprachmodelle wie GPT-4 und Mistral Large werden auch als Chat-Vervollständigungsmodelle bezeichnet, die so konzipiert sind, dass kohärente und kontextbezogene textbasierte Antworten generiert werden. Wenn Sie ein höheres Leistungsniveau in komplexen Aufgaben wie Mathematik, Codierung, Wissenschaft, Strategie und Logistik benötigen, können Sie auch Reasoning-Modelle wie DeepSeek-R1 und o1 verwenden.

Über textbasierte KI hinaus sind einige Modelle multimodal, d. h., sie können Bilder, Audio und andere Datentypen zusammen mit Text verarbeiten. Modelle wie GPT-4o und Phi3-vision können sowohl Text als auch Bilder analysieren und generieren. Multimodale Modelle sind nützlich, wenn Ihre Anwendung Bilder verarbeiten und verstehen muss, z. B. bei maschinellem Sehen oder bei der Dokumentanalyse. Sie sind auch nützlich, wenn Sie eine KI-App erstellen möchten, die mit visuellen Inhalten interagiert, z. B. bei einer digitalen Begleitkraft, die Bilder oder Diagramme erklärt.

Wenn Ihr Anwendungsfall das Generieren von Bildern umfasst, können Tools wie DALL·E 3 und Stability AI realistische Visualisierungen aus Texteingaben erzeugen. Modelle für die Bildgenerierung eignen sich hervorragend zum Entwerfen von Marketingmaterialien, Illustrationen oder digitaler Kunst.

Eine weitere Gruppe aufgabenspezifischer Modelle sind Einbettungsmodelle wie Ada und Cohere. Einbettungsmodelle konvertieren Text in numerische Darstellungen und werden verwendet, um die Suchrelevanz durch das Verständnis der semantischen Bedeutung zu verbessern. Diese Modelle werden häufig in RAG-Szenarien (Retrieval Augmented Generation) implementiert, um Empfehlungsmodule zu verbessern, indem ähnliche Inhalte verknüpft werden.

Wenn Sie eine Anwendung erstellen möchten, die dynamisch mit anderen Softwaretools interagiert, können Sie Funktionsaufrufe und JSON-Unterstützung hinzufügen. Diese Funktionen ermöglichen es KI-Modellen, effizient mit strukturierten Daten zu arbeiten, wodurch sie für die Automatisierung von API-Aufrufen, Datenbankabfragen und strukturierte Datenverarbeitung nützlich sind.

Spezialisiert auf regionale und domänenspezifische Modelle

Bestimmte Modelle sind für bestimmte Sprachen, Regionen oder Branchen ausgelegt. Diese Modelle können allgemeine generative KI in ihren jeweiligen Domänen übertreffen. Beispiel:

  • Core42 JAIS ist ein arabisches Sprach-LLM und die beste Wahl für Anwendungen für arabischsprachige Benutzende.
  • Mistral Large hat einen starken Fokus auf europäische Sprachen und sorgt für eine bessere sprachliche Genauigkeit bei mehrsprachigen Anwendungen.
  • Nixtla TimeGEN-1 ist spezialisiert auf Zeitreihenprognosen und ist daher ideal für Finanzvorhersagen, Lieferkettenoptimierung und Bedarfsplanung.

Wenn Ihr Projekt regionale, sprachliche oder branchenspezifische Anforderungen hat, können diese Modelle relevantere Ergebnisse liefern als allgemeine KI.

Gleichgewicht zwischen Flexibilität und Leistung mit offenen und proprietären Modellen

Sie müssen zudem entscheiden, ob Open-Source-Modelle oder proprietäre Modelle verwendet werden sollen, die jeweils gewisse Vorteile haben.

Proprietäre Modelle eignen sich am besten für modernste Leistung und Unternehmensverwendung. Azure bietet Modelle wie GPT-4, Mistral Large und Cohere Command R+ von OpenAI, die branchenführende KI-Funktionen bieten. Diese Modelle eignen sich ideal für Unternehmen, die Sicherheit, Support und hohe Genauigkeit auf Unternehmensebene benötigen.

Open-Source-Modelle eignen sich am besten für Flexibilität und Kosteneffizienz. Es gibt Hunderte von Open-Source-Modellen im Microsoft Foundry-Modellkatalog von Hugging Face und Modelle von Meta, Databricks, Snowflake und Nvidia. Offene Modelle bieten Entwickelnden mehr Kontrolle, sodass Optimierung, Anpassung und lokale Bereitstellung möglich sind.

Welches Modell Sie auswählen, können Sie den Microsoft Foundry-Modellkatalog verwenden. Die Verwendung von Modellen durch den Modellkatalog erfüllt die wichtigsten Unternehmensanforderungen für die Nutzung:

  • Daten und Datenschutz: Sie können entscheiden, was mit Ihren Daten passiert.
  • Sicherheit und Compliance: integrierte Sicherheit.
  • Verantwortungsvolle KI und Inhaltssicherheit: Bewertungen und Inhaltssicherheit.

Jetzt kennen Sie die Sprachmodelle, die Ihnen zur Verfügung stehen, und sollten wissen, ob KI Ihren Anwendungsfall tatsächlich lösen kann. Wenn Sie denken, dass ein Sprachmodell Ihre Anwendung bereichern würde, müssen Sie das spezifische Modell auswählen, das Sie bereitstellen und integrieren möchten.

Wie wähle ich das beste Modell für meinen Anwendungsfall aus?

Um das beste Sprachmodell für Ihren Anwendungsfall auszuwählen, müssen Sie entscheiden, welche Kriterien Sie zum Filtern der Modelle verwenden. Die Kriterien sind die erforderlichen Merkmale, die Sie für ein Modell identifizieren. Vier Merkmale, die Sie berücksichtigen können, sind:

  • Aufgabentyp: Welche Art von Aufgabe benötigen Sie für das Modell? Umfasst dies das Verständnis nur von Text oder auch von Audio oder Video oder mehreren Modalitäten?
  • Präzision: Ist das Basismodell gut genug oder benötigen Sie ein fein abgestimmtes Modell, das auf eine bestimmte Qualifikation oder ein Dataset trainiert wird?
  • Offenheit: Möchten Sie das Modell selbst optimieren?
  • Bereitstellung: Möchten Sie das Modell lokal, auf einem serverlosen Endpunkt bereitstellen oder die Bereitstellungsinfrastruktur verwalten?

Sie haben im vorherigen Abschnitt bereits die verschiedenen Typen von Modellen untersucht, die verfügbar sind. Sehen wir uns nun genauer an, wie Genauigkeit und Leistung bei der Auswahl eines Modells wichtige Filter sein können.

Filtern von Modellen nach Genauigkeit

Bei der generativen KI bezieht sich Genauigkeit auf die Genauigkeit des Modells beim Generieren korrekter und relevanter Ausgaben. Sie misst den Anteil der True Positive-Ergebnisse (korrekte Ausgaben) in allen generierten Ausgaben. Hohe Genauigkeit bedeutet weniger irrelevante oder falsche Ergebnisse, wodurch das Modell zuverlässiger wird.

Wenn Sie ein Sprachmodell in eine App integrieren, können Sie zwischen einem Basismodell oder einem optimierten Modell wählen. Ein Basismodell, z. B. GPT-4, ist mit einem großen Dataset vortrainiert und kann verschiedene Aufgaben verarbeiten, in bestimmten Domänen kann es aber an Genauigkeit fehlen. Techniken wie Prompt Engineering können dies verbessern, aber manchmal ist eine Optimierung erforderlich.

Ein optimiertes Modell wird mit einem kleineren, aufgabenspezifischen Dataset weiter trainiert, um die Genauigkeit und Fähigkeit zu verbessern, relevante Ausgaben für bestimmte Anwendungen zu generieren. Sie können entweder ein optimiertes Modell verwenden oder ein Modell selbst optimieren.

Filtern von Modellen nach Leistung

Sie können die Modellleistung in verschiedenen Phasen bewerten, indem Sie verschiedene Auswertungsansätze verwenden.

Wenn Sie Modelle über den Microsoft Foundry-Modellkatalog untersuchen, können Sie Modell-Benchmarks verwenden, um öffentlich verfügbare Metriken wie Kohärenz und Genauigkeit für Modelle und Datasets zu vergleichen. Diese Benchmarks können Ihnen bei der ersten Erkundung helfen, aber wenig Informationen darüber geben, wie das Modell in Ihrem spezifischen Anwendungsfall abschneiden wird.

Benchmark Beschreibung
Genauigkeit Vergleicht den vom Modell generierten Text mit der richtigen Antwort gemäß dem Dataset. Das Ergebnis ist 1, wenn der generierte Text genau mit der Antwort übereinstimmt, andernfalls 0.
Kohärenz Misst, ob die Modellausgabe reibungslos erfolgt, natürlich gelesen wird und der menschlichen Sprache ähnelt.
Sprachfluss Bewertet, wie gut der generierte Text grammatikalische Regeln und syntaktische Strukturen einhält sowie passendes Vokabular verwendet, was zu sprachlich korrekten und natürlich klingenden Antworten führt.
Quellenübereinstimmung Misst die Ausrichtung zwischen den vom Modell generierten Antworten und den Eingabedaten.
GPT-Ähnlichkeit Quantifiziert die semantische Ähnlichkeit zwischen einem Grundwahrheitssatz (Ground Truth) (oder einem Dokument) und dem Vorhersagesatz, der von einem KI-Modell generiert wird.
Qualitätsindex Ein vergleichsbezogener Gesamtwert zwischen 0 und 1, leistungsstärkere Modellen erzielen einen höheren Wert
Kosten Die Kosten für die Verwendung des Modells basierend auf dem Preis pro Token. Die Kosten sind eine nützliche Metrik, mit der die Qualität verglichen werden kann, sodass Sie einen geeigneten Kompromiss für Ihre Anforderungen ermitteln können.

Um zu bewerten, wie ein ausgewähltes Modell in Bezug auf Ihre spezifischen Anforderungen ausgeführt wird, können Sie manuelle oder automatisierte Auswertungen in Betracht ziehen. Mit manuellen Auswertungen können Sie die Antworten Ihres Modells bewerten. Automatisierte Auswertungen umfassen herkömmliche Metriken für maschinelles Lernen und KI-gestützte Metriken, die für Sie berechnet und generiert werden.

Wenn Sie die Leistung eines Modells auswerten, ist es üblich, mit manuellen Auswertungen zu beginnen, da sie die Qualität der Antworten des Modells schnell bewerten. Für systematischere Vergleiche bieten automatisierte Auswertungen mithilfe von Metriken wie Genauigkeit, Abruf und F1-Score basierend auf Ihrer eigenen Grundwahrheit einen schnelleren, skalierbaren und objektiveren Ansatz.

Ist die Skalierung für echte Workloads möglich?

Sie haben ein Modell für Ihren Anwendungsfall ausgewählt und erfolgreich einen Prototyp erstellt. Jetzt müssen Sie verstehen, wie Sie die Skalierung für reale Workloads ausführen.

Zu den Überlegungen zur Skalierung einer generativen KI-Lösung gehören:

  • Modellimplementierung: Wo stellen Sie das Modell für die optimale Balance zwischen Leistung und Kosten bereit?
  • Modellüberwachung und -optimierung: Wie überwachen, bewerten und optimieren Sie die Modellleistung?
  • Promptverwaltung: Wie orchestrieren und optimieren Sie Prompts, um die Genauigkeit und Relevanz der generierten Antworten zu maximieren?
  • Modelllebenszyklus: Wie verwalten Sie Modell-, Daten- und Codeupdates im Rahmen eines laufenden Lebenszyklus für generative KI-Vorgänge (GenAIOps)?

Microsoft Foundry bietet visuelle und Code-first-Tools, mit denen Sie eine skalierbare generative KI-Lösung erstellen und verwalten können.