Gegevens verkennen en verwerken met Microsoft Fabric

Voltooid

Gegevens vormen de hoeksteen van gegevenswetenschap, met name bij het trainen van een machine learning-model voor het bereiken van kunstmatige intelligentie. Modellen vertonen doorgaans verbeterde prestaties naarmate de grootte van de trainingsgegevensset toeneemt. Naast de hoeveelheid gegevens is de kwaliteit van de gegevens even cruciaal.

Om zowel de kwaliteit als de hoeveelheid van uw gegevens te garanderen, is het de moeite waard om de robuuste gegevensopname- en verwerkingsengines van Microsoft Fabric te gebruiken. U hebt de flexibiliteit om te kiezen voor een benadering met weinig code of code-first bij het tot stand brengen van de essentiƫle pijplijnen voor gegevensopname, verkenning en transformatie.

Uw gegevens opnemen in Microsoft Fabric

Als u wilt werken met gegevens in Microsoft Fabric, moet u eerst gegevens opnemen. U kunt gegevens uit meerdere bronnen opnemen, zowel lokale als cloudgegevensbronnen. U kunt bijvoorbeeld gegevens opnemen uit een CSV-bestand dat is opgeslagen op uw lokale computer of in een Azure Data Lake Storage (Gen2).

Nadat u verbinding hebt gemaakt met een gegevensbron, kunt u de gegevens opslaan in een Microsoft Fabric Lakehouse. U kunt lakehouse als centrale locatie gebruiken om gestructureerde, semi-gestructureerde en ongestructureerde bestanden op te slaan. U kunt vervolgens eenvoudig verbinding maken met het lakehouse wanneer u toegang wilt tot uw gegevens voor verkenning of transformatie.

Uw gegevens verkennen en transformeren

Als data scientist bent u misschien het meest bekend met het schrijven en uitvoeren van code in notebooks. Microsoft Fabric biedt een vertrouwde notebookervaring, mogelijk gemaakt door Spark Compute.

Apache Spark is een opensource-framework voor parallelle verwerking voor grootschalige gegevensverwerking en -analyse.

Notebooks worden automatisch gekoppeld aan Spark Compute. Wanneer u voor het eerst een cel in een notebook uitvoert, wordt een nieuwe Spark-sessie gestart. De sessie blijft behouden wanneer u volgende cellen uitvoert. De Spark-sessie stopt automatisch na enige tijd van inactiviteit om kosten te besparen. U kunt de sessie ook handmatig stoppen.

Wanneer u in een notitieblok werkt, kunt u de taal kiezen die u wilt gebruiken. Voor data science-workloads werkt u waarschijnlijk met PySpark (Python) of SparkR (R).

Schermopname van een notitieblok in Microsoft Fabric.

In het notebook kunt u uw gegevens verkennen met behulp van uw voorkeursbibliotheek of met een van de ingebouwde visualisatieopties. Indien nodig kunt u uw gegevens transformeren en de verwerkte gegevens opslaan door deze terug te schrijven naar het lakehouse.

Uw gegevens voorbereiden met Data Wrangler

Om u te helpen uw gegevens sneller te verkennen en te transformeren, biedt Microsoft Fabric de gebruiksvriendelijke Data Wrangler.

Nadat u Data Wrangler hebt gestart, krijgt u een beschrijvend overzicht van de gegevens waarmee u werkt. U kunt de overzichtsstatistieken van uw gegevens bekijken om eventuele problemen zoals ontbrekende waarden te vinden.

Als u uw gegevens wilt opschonen, kunt u een van de ingebouwde bewerkingen voor het opschonen van gegevens kiezen. Wanneer u een bewerking selecteert, wordt er automatisch een voorbeeld van het resultaat en de bijbehorende code voor u gegenereerd. Wanneer u alle benodigde bewerkingen hebt geselecteerd, kunt u de transformaties exporteren naar code en deze uitvoeren op uw gegevens.