Delen via


Metrische rekengegevens weergeven

In dit artikel wordt uitgelegd hoe u het systeemeigen hulpprogramma voor metrische rekengegevens in de Gebruikersinterface van Azure Databricks kunt gebruiken om belangrijke hardware- en Spark-metrische gegevens te verzamelen. De gebruikersinterface voor metrische gegevens is beschikbaar voor alle algemene toepassingen en takenberekeningen.

Metrische clustergegevens voor de afgelopen 24 uur

Metrische gegevens zijn bijna in realtime beschikbaar met een normale vertraging van minder dan één minuut. Metrische gegevens worden opgeslagen in door Azure Databricks beheerde opslag, niet in de opslag van de klant.

Serverloze berekening voor notebooks en taken maakt gebruik van query-inzichten in plaats van de gebruikersinterface voor metrische gegevens. Zie Query-inzichten weergeven voor meer informatie over serverloze rekengegevens.

Toegang tot de gebruikersinterface voor metrische rekengegevens

Om de gebruikersinterface voor compute-metrieken weer te geven:

  1. Klik op Compute in de zijbalk.
  2. Klik op de rekenresource waarvoor u metrische gegevens wilt weergeven.
  3. Klik op het tabblad Metrische gegevens .

Hardwaregegevens voor alle knooppunten worden standaard weergegeven. Als u metrische Spark-gegevens wilt weergeven, klikt u op de vervolgkeuzelijst met het label Hardware en selecteert u Spark. U kunt ook GPU selecteren als de instantie is ingeschakeld voor GPU.

Metrische gegevens filteren op tijdsperiode

U kunt historische metrische gegevens weergeven door een tijdsbereik te selecteren met behulp van het filter voor datumkiezer. Metrische gegevens worden elke minuut verzameld, zodat u kunt filteren op elk dag-, uur- of minuutbereik van de afgelopen 30 dagen. Klik op het agendapictogram om een keuze te maken uit vooraf gedefinieerde gegevensbereiken of klik in het tekstvak om aangepaste waarden te definiëren.

Notitie

De tijdsintervallen die in de grafieken worden weergegeven, worden aangepast op basis van de tijdsduur die u bekijkt. De meeste metrische gegevens zijn gemiddelden op basis van het tijdsinterval dat u momenteel bekijkt.

U kunt ook de meest recente metrische gegevens ophalen door op de knop Vernieuwen te klikken.

Metrische gegevens weergeven op knooppuntniveau

Op de pagina met metrische gegevens worden standaard metrische gegevens weergegeven voor alle knooppunten binnen een cluster (inclusief het stuurprogramma) die gemiddeld zijn gedurende de periode.

U kunt metrische gegevens voor afzonderlijke knooppunten weergeven door te klikken op het vervolgkeuzemenu Alle knooppunten en het knooppunt te selecteren waarvoor u metrische gegevens wilt weergeven. GPU-metrische gegevens zijn alleen beschikbaar op het niveau van afzonderlijke knooppunten. Metrische Spark-gegevens zijn niet beschikbaar voor afzonderlijke knooppunten.

Om te helpen bij het identificeren van randgevallen binnen het cluster, kunt u ook de metrics voor alle afzonderlijke knooppunten op één pagina weergeven. Als u deze weergave wilt openen, klikt u op het vervolgkeuzemenu Alle knooppunten en selecteert u Op knooppunt en selecteert u vervolgens de subcategorie voor metrische gegevens die u wilt weergeven.

Metrische clustergegevens voor de afgelopen 24 uur

Grafieken met metrische hardwaregegevens

De volgende grafieken met metrische hardware zijn beschikbaar om weer te geven in de gebruikersinterface voor metrische rekengegevens:

  • CPU-gebruik en actieve knooppunten: in de lijngrafiek wordt het aantal actieve knooppunten weergegeven op elke tijdstempel voor de opgegeven rekenkracht. In het staafdiagram wordt het percentage tijd weergegeven dat de CPU in elke modus heeft besteed, op basis van de totale kosten voor CPU-seconden. De metrische gebruiksgegevens zijn het gemiddelde van het tijdsinterval dat in de grafiek wordt weergegeven. Hier volgen de bijgehouden modi:
    • gast: Als u VM's uitvoert, gebruiken die VM's de CPU
    • iowait: Tijd besteed aan wachten op I/O
    • inactief: tijd dat de CPU niets te doen had
    • irq: Tijd besteed aan onderbrekingsaanvragen
    • leuk: Tijd die wordt gebruikt door processen die een positieve aardigheid hebben, wat een lagere prioriteit betekent dan andere taken
    • softirq: Tijd besteed aan software-interruptaanvragen
    • nl-NL: stelen: Als u een virtuele machine bent, is dit de tijd die andere VM's van uw CPU's hebben 'gestolen'.
    • systeem: De tijd die in de kernel is besteed
    • gebruiker: De tijd die is besteed in de gebruikersomgeving
  • Geheugengebruik en -wisseling: in de lijngrafiek wordt het totale gebruik van geheugenwisseling per modus weergegeven, gemeten in bytes en gemiddelden gedurende het weergegeven tijdsinterval. In het staafdiagram ziet u het totale geheugengebruik per modus, ook gemeten in bytes en gemiddeld in het weergegeven tijdsinterval. De volgende gebruikstypen worden bijgehouden:
    • gebruikt: Totaal geheugen op besturingssysteemniveau dat wordt gebruikt, inclusief geheugen dat wordt gebruikt door achtergrondprocessen die worden uitgevoerd op een rekenproces. Omdat het stuurprogramma en de achtergrondprocessen geheugen gebruiken, kan het gebruik nog steeds worden weergegeven, zelfs wanneer er geen Spark-taken worden uitgevoerd.
    • gratis: Ongebruikt geheugen
    • buffer: geheugen gebruikt door kernelbuffers
    • in de cache opgeslagen: geheugen dat wordt gebruikt door de cache van het bestandssysteem op het niveau van het besturingssysteem
  • Netwerk ontvangen en verzonden: het aantal ontvangen en verzonden bytes via het netwerk per apparaat, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Vrije bestandssysteemruimte: het totale gebruik van het bestandssysteem per koppelpunt, gemeten in bytes en gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.

Grafieken met metrische Spark-gegevens

De volgende grafieken met metrische Spark-gegevens zijn beschikbaar om weer te geven in de gebruikersinterface voor metrische rekengegevens:

  • Distributie van serverbelasting: deze tegels tonen het CPU-gebruik in de afgelopen minuut voor elk knooppunt in de rekenresource. Elke tegel is een klikbare koppeling naar de pagina met metrische gegevens van het afzonderlijke knooppunt.
  • Actieve taken: het totale aantal taken dat op een bepaald moment wordt uitgevoerd, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Totaal aantal mislukte taken: het totale aantal taken dat is mislukt in uitvoerders, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Totaal voltooide taken: het totale aantal taken dat is voltooid in uitvoerders, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Totaal aantal taken: Het totale aantal taken (uitvoeren, mislukt en voltooid) in uitvoerders, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Totaal shuffle lees: de totale grootte van shuffle leesgegevens, gemeten in bytes en gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven. Shuffle read betekent de som van geserialiseerde uitleesgegevens op alle executors aan het begin van een fase.
  • Totale shuffle-schrijfbewerking: De totale grootte van shuffle-gegevens, gemeten in bytes en gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven. Shuffle Write is de som van alle geschreven geserialiseerde gegevens door alle uitvoerders voordat ze worden verzonden (meestal aan het einde van een fase).
  • Totale duur van de taak: de totale verstreken tijd die de JVM heeft besteed aan het uitvoeren van taken op uitvoerders, gemeten in seconden en gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.

Metrische GPU-grafieken

Notitie

GPU-metrische gegevens zijn alleen beschikbaar op Databricks Runtime ML 13.3 en hoger.

De volgende metrische GPU-grafieken zijn beschikbaar om weer te geven in de gebruikersinterface voor metrische rekengegevens:

  • Distributie van serverbelasting: in deze grafiek ziet u het CPU-gebruik in de afgelopen minuut voor elk knooppunt.
  • Per-GPU decoder benutting: Het percentage van GPU-decoder benutte capaciteit, gemiddeld op basis van het weergegeven tijdsinterval in de grafiek.
  • Per-GPU encodergebruik: het percentage gpu-encodergebruik, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Geheugengebruik van de framebuffer per GPU in bytes: het geheugengebruik van de framebuffer, gemeten in bytes en gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Per-GPU geheugengebruik: het percentage GPU-geheugengebruik, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.
  • Per-GPU gebruik: het percentage GPU-gebruik, gemiddeld op basis van het tijdsinterval dat in de grafiek wordt weergegeven.

Probleemoplossing

Als u onvolledige of ontbrekende metrische gegevens voor een periode ziet, kan dit een van de volgende problemen zijn:

  • Een storing in de Databricks-service die verantwoordelijk is voor het opvragen en opslaan van metrische gegevens.
  • Netwerkproblemen aan de kant van de klant.
  • De computer is of was in een ongezonde toestand.