Delen via


Woordenlijst voor technische terminologie van Azure Databricks

A

toegangsbeheerlijst (ACL)

Een lijst met machtigingen die zijn gekoppeld aan de werkruimte, het cluster, de taak, de tabel of het experiment. Een ACL geeft aan welke gebruikers of systeemprocessen toegang krijgen tot de objecten en welke bewerkingen op de assets zijn toegestaan. Elke vermelding in een typische ACL geeft een onderwerp en een bewerking op. Zie Toegangsbeheerlijsten.

toegangsmodus

Een beveiligingsfunctie die bepaalt wie een rekenresource en de gegevens kan gebruiken waartoe ze toegang hebben tijdens het gebruik van de rekenresource. Elke rekenresource in Azure Databricks heeft een toegangsmodus. Zie toegangsmodi.

ACID-transacties

Databasetransacties die betrouwbaar worden verwerkt. ACID staat voor atomiciteit, consistentie, isolatie, duurzaamheid. Zie best practices voor betrouwbaarheid.

Agent Bricks

Agent Bricks biedt een eenvoudige benadering voor het bouwen en optimaliseren van domeinspecifieke AI-agentsystemen van hoge kwaliteit voor algemene AI-use cases. Zie Agent Bricks.

kunstmatige intelligentie (AI)

De mogelijkheid van een computer om intelligent menselijk gedrag te imiteren. Zie AI en machine learning op Databricks.

AI-agent

Een toepassing met complexe redeneringsmogelijkheden waarmee het een eigen plan kan maken en de taak kan uitvoeren op basis van de hulpprogramma's die tot zijn beschikking staan. Zie Ontwerppatronen voor agentsystemen.

AI-functies

De ingebouwde SQL-functies waarmee u AI rechtstreeks vanuit SQL in Azure Databricks kunt toepassen op uw gegevens. Zie AI toepassen op gegevens met behulp van Azure Databricks AI Functions.

AI-speeltuin

Een Azure Databricks-functie waar gebruikers kunnen communiceren met, testen en vergelijken van generatieve AI-modellen die worden geleverd in uw Azure Databricks-werkruimte. Zie Chatten met LLM-modellen en prototype-AI-apps via AI Playground.

anomaliedetectie

Technieken en hulpprogramma's die worden gebruikt om ongebruikelijke patronen te identificeren die niet voldoen aan het verwachte gedrag in gegevenssets. Azure Databricks vereenvoudigt anomaliedetectie via de mogelijkheden voor machine learning en gegevensverwerking.

Apache Spark

Een opensource- gedistribueerd computingsysteem dat wordt gebruikt voor big data-workloads. Bekijk het overzicht van Apache Spark.

kunstmatig neuraal netwerk (ANN)

Een computersysteem dat is gepatroont na de werking van neuronen in het menselijk brein.

asset

Een entiteit in een Azure Databricks-werkruimte (bijvoorbeeld een object of bestand).

auditlogboek

Een record van gebruikersactiviteiten en -acties in de Azure Databricks-omgeving, cruciaal voor beveiliging, naleving en operationele bewaking. Zie Diagnostisch logboek referentie.

Automatische lader

Een functie voor gegevensopname die incrementeel en efficiënt nieuwe gegevensbestanden verwerkt wanneer ze binnenkomen in de cloudopslag zonder extra instellingen. Zie Wat is Auto Loader?

AutoML

Een Azure Databricks-functie die het proces voor het toepassen van machine learning op uw gegevenssets vereenvoudigt door automatisch het beste algoritme en de configuratie van hyperparameters voor u te vinden. Zie Wat is AutoML?

geautomatiseerde gegevensafstamming

Het proces van het automatisch bijhouden en visualiseren van de gegevensstroom van de oorsprong via verschillende transformaties naar de uiteindelijke vorm, essentieel voor foutopsporing, naleving en inzicht in gegevensafhankelijkheden. Azure Databricks faciliteert dit via integraties met hulpprogramma's voor gegevensherkomst.

automatisch schalen, horizontaal

Het toevoegen of verwijderen van uitvoerders op basis van het aantal taken dat moet worden gepland. Dit gebeurt dynamisch tijdens één update.

automatisch schalen, verticaal

Het vergroten of verkleinen van de grootte van een machine (stuurprogramma of uitvoerder) op basis van geheugendruk (of gebrek daarvan). Dit gebeurt alleen aan het begin van een nieuwe update.

Azure Databricks

Een versie van Databricks die is geoptimaliseerd voor het Microsoft Azure-cloudplatform.

B

Batchverwerking

Een gegevensverwerkingsmethode waarmee u expliciete instructies kunt definiëren voor het verwerken van een vaste hoeveelheid statische, niet-veranderende gegevens als één bewerking. Azure Databricks maakt gebruik van Spark SQL of DataFrames. Zie standardconnectoren in Lakeflow Connect.

detectie en beperking van vooroordelen

Het proces van het identificeren en aanpakken van vooroordelen in gegevens- en machine learning-modellen om billijkheid en nauwkeurigheid te garanderen. Databricks biedt hulpprogramma's en integraties om vooroordelen te detecteren en te beperken. Zie Eerlijkheid en vooroordelen bewaken voor classificatiemodellen.

business intelligence (BI)

De strategieën en technologieën die door ondernemingen worden gebruikt voor gegevensanalyse en -beheer van bedrijfsgegevens.

C

Catalogusverkenner

Een Azure Databricks-functie die een gebruikersinterface biedt voor het verkennen en beheren van gegevens, schema's (databases), tabellen, modellen, functies en andere AI-assets. U kunt deze gebruiken om gegevensobjecten en eigenaren te vinden, gegevensrelaties tussen tabellen te begrijpen en machtigingen en delen te beheren. Zie Wat is Catalog Explorer?.

child instantie

Een "child instance" is een "copy-on-write" kloon van het oorspronkelijke database-exemplaar. Het kan worden gemaakt op basis van het huidige tijdstip of vanuit een historisch tijdstip binnen het bewaarvenster. Zie Gegevens en tijdreizen herstellen.

CICD of CI/CD

De gecombineerde procedures voor continue integratie (CI) en continue levering (CD). Zie CI/CD in Azure Databricks.

gegevens opschonen

Gegevens die een proces voor het opschonen van gegevens hebben doorlopen. Dit is het proces van het detecteren en corrigeren (of verwijderen) van beschadigde of onnauwkeurige records uit een recordset, tabel of database en verwijst naar het identificeren van onvolledige, onjuiste, onjuiste of irrelevante delen van de gegevens en vervolgens het vervangen, wijzigen of verwijderen van de vuile of grove gegevens.

Schone kamers

Een Azure Databricks-functie die gebruikmaakt van Delta Sharing en serverloze berekeningen om een veilige en privacybeveiligde omgeving te bieden waarin meerdere partijen gevoelige bedrijfsgegevens kunnen delen en kunnen samenwerken zonder directe toegang tot elkaars gegevens. Met Clean Rooms kunnen gebruikers van andere Databricks-accounts samenwerken om inzichten te genereren over gedeelde projecten, zoals reclamecampagnes, investeringsbeslissingen of onderzoek en ontwikkeling, zonder toegang te delen tot gevoelige onderliggende gegevens. Bekijk wat is Azure Databricks Clean Rooms?

cloudplatformleverancier

Een bedrijf dat een cloudcomputingplatform biedt. Bijvoorbeeld Microsoft Azure, Amazon Web Services (AWS) en Google Cloud Platform (GCP).

cluster

Een niet-serverloze rekenresource die wordt gebruikt in notebooks, taken en declaratieve Lakeflow Spark-pijplijnen. De term compute heeft het cluster in de Azure Databricks-gebruikersinterface vervangen, maar wordt nog steeds gebruikt in de Clusters-API en in metagegevens.

compute

Verwijst naar rekenresources, die infrastructuurelementen zijn, of deze nu hardware of software zijn, die het mogelijk maken om problemen op te lossen en oplossingen te maken door gegevens te ontvangen, te analyseren en op te slaan. Compute.

ononderbroken pijplijn

Een pijplijn die alle tabellen continu bijwerkt, terwijl nieuwe gegevens binnenkomen in de invoer zonder te stoppen. Zie Getriggerd versus continue pijplijnmodus.

D

gerichte acyclische grafiek (DAG)

Een methode voor het weergeven van de afhankelijkheden tussen taken in een werkstroom of pijplijn. In een DAG-verwerkingsmodel worden taken weergegeven als knooppunten in een gerichte acyclische grafiek, waarbij de randen de afhankelijkheden tussen taken vertegenwoordigen.

gegevenscatalogus

Een hulpprogramma voor metagegevensbeheer voor het beheren van gegevensbronnen, met informatie over de structuur, locatie en het gebruik van de gegevens. Azure Databricks kan worden geïntegreerd met externe gegevenscatalogussen voor verbeterd metagegevensbeheer.

gegevensbeheer

De praktijk van het beheren van de beschikbaarheid, integriteit, beveiliging en bruikbaarheid van gegevens, met beleid, procedures en technologieën om gegevenskwaliteit en naleving te waarborgen.

gegevensopname

Het proces van het importeren, overdragen, laden en verwerken van gegevens uit verschillende bronnen in Azure Databricks voor opslag, analyse en verwerking.

data lake

Een grote opslagplaats die een grote hoeveelheid onbewerkte gegevens in zijn oorspronkelijke indeling bewaart totdat deze nodig is.

Data Lakehouse

Een systeem voor gegevensbeheer dat de voordelen van data lakes en datawarehouses combineert. Een Data Lakehouse biedt schaalbare opslag- en verwerkingsmogelijkheden voor moderne organisaties die geïsoleerde systemen willen vermijden voor het verwerken van verschillende workloads, zoals machine learning (ML) en business intelligence (BI). Een Data Lakehouse kan helpen om één bron van waarheid tot stand te brengen, redundante kosten te elimineren en ervoor te zorgen dat gegevens vers zijn. Zie Wat is een Data Lakehouse?

Gegevensprofilering

Controleert de statistische eigenschappen en kwaliteit van de gegevens in alle tabellen in uw account. U kunt deze ook gebruiken om de prestaties van machine learning-modellen en modelverdienende eindpunten bij te houden door deductietabellen te bewaken die modelinvoer en voorspellingen bevatten. Zie Gegevensprofilering.

gegevenspijplijn

Een reeks fasen waarin gegevens worden gegenereerd, verzameld, verwerkt en verplaatst naar een bestemming. Databricks vereenvoudigt het maken en beheren van complexe gegevenspijplijnen voor batch- en realtime gegevensverwerking.

dataprivacy

De praktijk van het beschermen van persoonsgegevens tegen onbevoegde toegang, gebruik, openbaarmaking of diefstal. Azure Databricks benadrukt robuuste functies voor gegevensprivacy en -beveiliging, waaronder end-to-end-versleuteling, op rollen gebaseerd toegangsbeheer en naleving van belangrijke regelgeving voor gegevensbescherming, om gevoelige informatie te beveiligen en gegevensbeheer te garanderen.

gegevensvisualisatie

Een methode voor gegevensbeheer waarmee een toepassing gegevens kan ophalen en bewerken zonder dat hiervoor technische details over de gegevens nodig zijn, zoals hoe deze is opgemaakt of waar deze zich fysiek bevindt. Azure Databricks kan fungeren als onderdeel van een gegevensvirtualisatielaag door naadloze toegang te bieden tot en analyse van gegevens in verschillende bronnen.

datawarehousing

Verwijst naar het verzamelen en opslaan van gegevens uit meerdere bronnen, zodat deze snel kunnen worden geopend voor zakelijke inzichten en rapportage. De lakehouse-architectuur en Databricks SQL bieden mogelijkheden voor datawarehousing in de cloud aan uw data lakes. Zie de architectuur voor datawarehousing.

databasecatalogus

Een Unity Catalog-catalogusentiteit die een Postgres-database in één exemplaar vertegenwoordigt. Dit is conceptueel vergelijkbaar met een buitenlandse catalogus in Unity Catalog. Zie Je database registreren in Unity Catalog.

database-exemplaar

Een database-exemplaar beheert opslag- en rekenresources en biedt de eindpunten waarmee gebruikers verbinding maken. Zie Wat is een database-exemplaar?

Databricks

Een geïntegreerd open analyseplatform voor het bouwen, implementeren, delen en onderhouden van zakelijke gegevens, analyses en AI-oplossingen op schaal. Het Databricks Data Intelligence Platform kan worden geïntegreerd met cloudopslag en -beveiliging in uw cloudaccount, en beheert en implementeert namens u de cloudinfrastructuur. Bekijk wat is Azure Databricks?

Databricks AI/BI

Een business intelligence-product om inzicht te krijgen in de semantiek van uw gegevens, waardoor selfservicegegevensanalyse mogelijk is. AI/BI is gebaseerd op een samengesteld AI-systeem dat inzichten haalt uit de volledige levenscyclus van uw gegevens in het Databricks-platform, waaronder ETL-pijplijnen, herkomst en andere query's. Zie Databricks AI/BI.

Ai-functies van Databricks

De data intelligence-engine zorgt voor het Databricks Platform. Het is een samengesteld AI-systeem dat het gebruik van AI-modellen, het ophalen, rangschikken en personaliseren van systemen combineert om inzicht te hebben in de semantiek van de gegevens- en gebruikspatronen van uw organisatie. Zie de ondersteunende functies van Databricks AI.

Databricks Asset Bundels

Een hulpprogramma om de acceptatie van best practices voor software-engineering te vergemakkelijken, waaronder broncodebeheer, codebeoordeling, testen en continue integratie en levering (CI/CD), voor uw gegevens en AI-projecten. Bundels maken het mogelijk om Azure Databricks-resources, zoals taken, pijplijnen en notebooks, als bronbestanden te beschrijven. Bekijk wat zijn Databricks Asset Bundles?.

Databricks Assistant

Een paarprogrammeur op basis van AI en een ondersteuningsagent waarmee u efficiënter notebooks, query's, dashboards en bestanden maakt. Het kan u helpen snel vragen te beantwoorden door code en query's te genereren, te optimaliseren, te voltooien, uit te leggen en te herstellen. Bekijk Wat is Databricks Assistant?

Databricks-CLI

Een opdrachtregelinterface voor Azure Databricks waarmee gebruikers Databricks-werkruimten kunnen beheren en automatiseren en taken, notebooks en bibliotheken kunnen implementeren. Zie Wat is de Databricks CLI?

Databricks Connect

Een clientbibliotheek waarmee ontwikkelaars hun favoriete IDE's, notebooks en andere hulpprogramma's kunnen verbinden met Azure Databricks Compute en Spark-code op afstand kunnen uitvoeren. Zie Wat is Databricks Connect?.

Databricks Container Services

Een Azure Databricks-mogelijkheid waarmee u een Docker-image kunt opgeven bij het aanmaken van computecapaciteit. Zie Containers aanpassen met Databricks Container Service.

Databricks Marketplace

Een open forum voor het uitwisselen van gegevensproducten. Providers moeten een Azure Databricks-account hebben, maar ontvangers kunnen iedereen zijn. Marketplace-assets omvatten gegevenssets, Azure Databricks-notebooks, Azure Databricks Solution Accelerators en AI-modellen (Machine Learning). Gegevenssets worden doorgaans beschikbaar gesteld als catalogi van tabelgegevens, hoewel niet-tabellaire gegevens, in de vorm van Azure Databricks-volumes, ook worden ondersteund. Zie Wat is Databricks Marketplace?

Databricks Runtime

Een runtime die is geoptimaliseerd voor big data-analyses. Databricks biedt ook Databricks Runtime voor Machine Learning die is geoptimaliseerd voor machine learning-workloads. Zie de release-opmerkingen voor versies en compatibiliteit van Databricks Runtime.

Databricks SQL (DBSQL)

De verzameling diensten die datawarehousingmogelijkheden en prestaties naar uw bestaande data-opslagmeren brengt. Databricks SQL ondersteunt open indelingen en standaard ANSI SQL. Met een in-platform SQL-editor en dashboardhulpprogramma's kunnen teamleden rechtstreeks in de werkruimte samenwerken met andere Azure Databricks-gebruikers. Zie Data warehousing in Azure Databricks.

DBUs

Een Databricks Unit (DBU) is een genormaliseerde verwerkingskracht op het Databricks Lakehouse Platform dat wordt gebruikt voor meet- en prijsdoeleinden. Het aantal DBU's dat een workload verbruikt, wordt bepaald door het verwerken van metrische gegevens, waaronder de gebruikte rekenresources en de hoeveelheid verwerkte gegevens. Zie Azure Databricks-onderdelen.

DataFrame

Een gegevensstructuur die gegevens in een tweedimensionale tabel met rijen en kolommen ordent, net zoals een spreadsheet. DataFrames zijn een van de meest voorkomende gegevensstructuren die worden gebruikt in moderne gegevensanalyse, omdat ze een flexibele en intuïtieve manier zijn om gegevens op te slaan en te werken. Zie zelfstudie: Gegevens laden en transformeren met Apache Spark DataFrames.

dataset

Een gestructureerde verzameling gegevens die zijn geordend en samen opgeslagen voor analyse of verwerking. De gegevens in een gegevensset zijn doorgaans op een of andere manier gerelateerd en zijn afkomstig uit één bron of bedoeld voor één project.

Delta Lake

Een opensource-opslaglaag die betrouwbaarheid aan data lakes brengt. Delta Lake levert ACID-transacties, schaalbare afhandeling van metagegevens en verenigt de verwerking van streaming- en batchgegevens. Bekijk wat is Delta Lake in Azure Databricks?

Pipelines

Een declaratief framework voor het bouwen van betrouwbare, onderhoudbare en testbare pijplijnen voor gegevensverwerking. U definieert de transformaties die moeten worden uitgevoerd op uw gegevens en Lakeflow Spark-declaratieve pijplijnen beheert taakindeling, clusterbeheer, bewaking, gegevenskwaliteit en foutafhandeling. Zie declaratieve pijplijnen van Lakeflow Spark.

Gegevenssets voor pijplijnen

De streamingtabellen, gematerialiseerde weergaven en weergaven worden voortdurend bijgehouden als resultaten van declaratieve query's.

Delta Delen

Hiermee kunt u gegevens en AI-assets delen in Azure Databricks met gebruikers buiten uw organisatie, ongeacht of deze gebruikers Azure Databricks gebruiken of niet. Ook beschikbaar als een opensource-project voor het delen van tabelgegevens, met behulp ervan in Azure Databricks kunt u niet-tabellaire, ongestructureerde gegevens (volumes), AI-modellen, weergaven, gefilterde gegevens en notebooks delen. Zie Wat is Delta Sharing?

Delta-tabellen

De standaardindeling voor gegevenstabellen in Azure Databricks en is een functie van het opensource-gegevensframework van Delta Lake. Delta-tabellen worden doorgaans gebruikt voor data lakes, waarbij gegevens worden opgenomen via streaming of in grote batches. Zie Azure Databricks-tabellen.

E

ETL (extraheren, transformeren, laden)

Een moderne benadering van gegevensintegratie waarmee gegevens uit bronnen worden geëxtraheerd, geladen in het doelsysteem en vervolgens worden getransformeerd binnen het doelsysteem. Zie zelfstudie: Een ETL-pijplijn bouwen met Lakeflow Spark-declaratieve pijplijnen.

F

Functiearchief

Een centrale opslagplaats voor het opslaan, beheren en leveren van functies voor machine learning-modellen. Zie Databricks Feature Store.

flow

Een stroom is een proces in Lakeflow Spark-declaratieve pijplijnen waarmee gegevens worden gelezen, getransformeerd en naar een bestemming worden geschreven.

basismodellen

Grote ML-modellen zijn vooraf getraind met de bedoeling dat ze worden afgestemd op specifiekere taalbegrip- en generatietaken. Zie Databricks Foundation-model-API's.

G

generatieve AI

Een type kunstmatige intelligentie gericht op de mogelijkheid van computers om modellen te gebruiken om inhoud zoals afbeeldingen, tekst, code en synthetische gegevens te maken. Generatieve AI-toepassingen zijn gebouwd op basis van generatieve AI-modellen: grote taalmodellen (LLM's) en basismodellen. Zie AI en machine learning op Databricks.

J

job

De primaire eenheid voor het plannen en organiseren van productieworkloads in Azure Databricks. Taken bestaan uit een of meer taken. Zie Lakeflow Jobs.

L

Lakeflow Connect

Biedt ingebouwde connectors voor opname vanuit bedrijfstoepassingen en -databases. De resulterende opnamepijplijn wordt beheerd door Unity Catalog en wordt mogelijk gemaakt door serverloze compute- en Lakeflow Spark-declaratieve pijplijnen. Zie Managed connectors in Lakeflow Connect.

Lakehouse Federation

Het query-federatieplatform voor Azure Databricks. De termenqueryfederatie beschrijft een verzameling functies waarmee gebruikers en systemen query's kunnen uitvoeren op meerdere gegevensbronnen zonder dat alle gegevens naar een geïntegreerd systeem hoeven te worden gemigreerd. Azure Databricks maakt gebruik van Unity Catalog om queryfederatie te beheren. Zie Wat is Lakehouse Federation?

Lakebase

Azure Databricks Lakebase is een OLTP-database die is geïntegreerd met uw Lakehouse. Een OLTP-database (Online Transaction Processing) is een gespecialiseerd type databasesysteem dat is ontworpen om efficiënt grote hoeveelheden realtime transactionele gegevens te verwerken. Met Lakebase kunt u een OLTP-database maken in Azure Databricks en OLTP-workloads overbrengen naar uw Lakehouse.

Zie Lakebase.

groottaalmodel (LLM)

Een NLP-model (Natural Language Processing) dat is ontworpen voor taken zoals het beantwoorden van open vragen, chatten, samenvatting van inhoud, uitvoering van bijna willekeurige instructies, vertaling en het genereren van inhoud en code. LLM's worden getraind vanuit enorme gegevenssets met behulp van geavanceerde machine learning-algoritmen om de patronen en structuren van menselijke taal te leren. Zie Grote taalmodellen (LLM's) op Databricks.

library

Een pakket met code dat beschikbaar is voor het notebook of de taak die wordt uitgevoerd op uw cluster. Databricks-runtimes bevatten veel bibliotheken en u kunt ook uw eigen bibliotheken uploaden. Zie Bibliotheken installeren.

M

gerealiseerde weergave

Een weergave die vooraf is berekend en opgeslagen, zodat deze kan worden opgevraagd met een lagere latentie of herhaaldelijk zonder redundante berekening. Bekijk gematerialiseerde weergaven.

medal medal architecture

Een gegevensontwerppatroon dat wordt gebruikt om gegevens in een lakehouse logisch te organiseren, met als doel de structuur en kwaliteit van gegevens stapsgewijs te verbeteren terwijl deze door elke laag van de architectuur loopt (van Bronze ⇒ Silver ⇒ Gold-laagtabellen). Wat is de medallion lakehouse-architectuur?

metastore

Het onderdeel waarin alle structuurgegevens van de verschillende tabellen en partities in het datawarehouse worden opgeslagen, inclusief gegevens over kolom- en kolomtypen, de serializers en deserialisaties die nodig zijn voor het lezen en schrijven van gegevens en de bijbehorende bestanden waarin de gegevens worden opgeslagen. Zie Metastore.

MLflow

Een opensource-platform voor het beheren van de end-to-end machine learning-levenscyclus, waaronder experimenten, reproduceerbaarheid en implementatie. MLflow in Azure Databricks is een volledig beheerde service met extra functionaliteit voor zakelijke klanten, die een schaalbare en veilige beheerde implementatie van MLflow biedt. Zie MLflow voor de levenscyclus van ML-modellen.

modeltraining

Het proces van het trainen van machine learning- en Deep Learning-modellen in Azure Databricks met behulp van veel populaire opensource-bibliotheken. Zie AI- en ML-modellen trainen.

Mozaïek AI

De functie die geïntegreerde hulpprogramma's biedt voor het bouwen, implementeren, evalueren en beheren van AI- en ML-oplossingen, van het bouwen van voorspellende ML-modellen tot de nieuwste generatieve AI-apps. Zie AI en machine learning op Databricks.

Mozaïek AI-model bedienen

De geïntegreerde interface voor het uitrollen, beheren en opvragen van AI-modellen voor realtime- en batchinference. Zie Modellen implementeren met behulp van Mosaic AI Model Serving.

Mozaïek AI-model-training

Met deze functie kunt u uw gegevens gebruiken om een basismodel aan te passen om de prestaties voor uw specifieke toepassing te optimaliseren. Door volledige parameterafstemming of continue training van een basismodel uit te voeren, kunt u uw eigen model trainen met aanzienlijk minder gegevens, tijd en rekenresources dan het trainen van een volledig nieuw model. Zie Foundation Model Fine-tuning.

Mozaïek AI Vector Search

Een vectorzoekindex die is ingebouwd in het Databricks Data Intelligence Platform en geïntegreerd met de hulpprogramma's voor governance en productiviteit. Zie Mosaic AI Vector Search.

N

notebook

Een interactieve webinterface die door gegevenswetenschappers en technici wordt gebruikt om code te schrijven en uit te voeren in meerdere talen (bijvoorbeeld Python, Scala, SQL) in hetzelfde document. Zie Databricks-notitieboeken.

O

OAuth

OAuth is een open standaard voor toegangsdelegering, die vaak wordt gebruikt als een manier voor internetgebruikers om websites of toepassingen toegang te verlenen tot hun informatie op andere websites, maar zonder hen de wachtwoorden te geven. Zie Toegang tot Azure Databricks-resources autoriseren.

P

Partner Connect

Een Databricks-programma dat integraties biedt die worden onderhouden door onafhankelijke softwareleveranciers om verbinding te maken met de meeste bedrijfsgegevenssystemen. Zie Wat is Databricks Partner Connect?

persoonlijk toegangstoken (PAT)

Een tekenreeks die wordt gebruikt om een gebruiker te verifiëren bij het openen van een computersysteem in plaats van een wachtwoord. Zie Toegang tot Azure Databricks-resources autoriseren.

Photon

Een krachtige, specifiek voor Databricks ontworpen gevectoriseerde query-engine waarmee uw SQL-workloads en DataFrame API-aanroepen sneller worden uitgevoerd om de totale kosten per workload te verlagen. Photon is compatibel met Apache Spark-API's, zodat deze werkt met uw bestaande code. Zie Wat is Photon?

pipeline

Een DAG met tabellen, views, gematerialiseerde views, stromen en sinks die op een uitgestelde manier worden bijgewerkt in een afhankelijkheidsvolgorde die door het systeem wordt bepaald.

R

opzoek-ondersteunde generatie (RAG)

Een techniek waarmee een LLM (Large Language Model) verrijkte antwoorden kan genereren door de prompt van een gebruiker te vergroten met ondersteunende gegevens die zijn opgehaald uit een externe informatiebron. Door deze opgehaalde informatie op te nemen, stelt RAG de LLM in staat om nauwkeurigere antwoorden van hogere kwaliteit te genereren in vergelijking met het niet uitbreiden van de prompt met aanvullende context. Zie RAG (Retrieval Augmented Generation) op Azure Databricks.

S

schema (Unity Catalog)

Het onderliggend onderdeel van een catalogus in Unity Catalog dat tabellen, weergaven, volumes, modellen en functies kan bevatten. Een schema is het tweede niveau van de naamruimte op drie niveaus van Unity Catalog (catalog.schema.table-etc). Zie Wat is Unity Catalog?.

serverloze berekening

Berekeningen die worden beheerd door Azure Databricks, wat de beheeroverhead vermindert en directe rekenkracht biedt om de productiviteit van gebruikers te verbeteren. Zie Verbinding maken met serverloze berekeningen.

service-principal

Een identiteit die is gemaakt voor gebruik met geautomatiseerde hulpprogramma's, het uitvoeren van taken en toepassingen. U kunt de toegang van een service-principal tot resources beperken met behulp van machtigingen, op dezelfde manier als een Azure Databricks-gebruiker. In tegenstelling tot een Azure Databricks-gebruiker is een service-principal een API-identiteit; deze heeft geen rechtstreeks toegang tot de gebruikersinterface van Azure Databricks of Databricks CLI. Zie Service principals.

sink (pijplijnen)

Een sink is een bestemming voor een stroom die naar een extern systeem schrijft (bijvoorbeeld Kafka, Kinesis, Delta).

SQL Warehouse

Een rekenresource waarmee u gegevens op Azure Databricks kunt doorzoeken en verkennen. Zie Verbinding maken met een SQL-warehouse.

stroomverwerking

Een gegevensverwerkingsmethode waarmee u een query kunt definiëren op basis van een niet-gebonden, continu groeiende gegevensset en vervolgens gegevens verwerkt in kleine, incrementele batches. Azure Databricks-stroomverwerking maakt gebruik van Structured Streaming. Zie de concepten van gestructureerde streaming.

streaming

Streaming verwijst naar media-inhoud ( live of opgenomen ) (dat wil gezegd, een gegevensstroom) die via internet wordt geleverd aan computers en mobiele apparaten en wordt in realtime afgespeeld. Zie de concepten van gestructureerde streaming.

streaminganalyses

Het proces van het analyseren van gegevens die continu worden gegenereerd door verschillende bronnen. Azure Databricks biedt ondersteuning voor streaming-analyses via Structured Streaming, waardoor livegegevens kunnen worden verwerkt en geanalyseerd voor realtime inzichten.

Gestructureerd streamen

Een schaalbare en fouttolerante streamverwerkingsengine die is gebouwd op de Spark SQL-engine, waardoor complexe berekeningen mogelijk worden gemaakt door middel van streamingquery's. Zie de concepten van gestructureerde streaming.

streamingtabellen

Een beheerde tabel waar gegevens via een stream naar worden geschreven. Streamingtabellen bekijken

gesynchroniseerde tabel

Een gesynchroniseerde tabel is een Alleen-lezen Postgres-tabel van Unity Catalog waarmee gegevens uit een Unity Catalog-tabel automatisch worden gesynchroniseerd met uw database-exemplaar. Zie Reverse ETL met Lakebase.

T

table

Een tabel bevindt zich in een schema en bevat rijen met gegevens. Alle tabellen die in Databricks zijn gemaakt, maken standaard gebruik van Delta Lake. Tabellen die worden ondersteund door Delta Lake, worden ook wel Delta-tabellen genoemd. Zie Azure Databricks-tabellen.

geactiveerde pijplijn

Een pijplijn die alle gegevens opneemt die beschikbaar waren aan het begin van de update voor elke tabel, die in afhankelijkheidsvolgorde wordt uitgevoerd en vervolgens wordt beëindigd. Zie Getriggerd versus continue pijplijnmodus.

U

Unity-catalogus

Een Azure Databricks-functie die gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie biedt in Azure Databricks-werkruimten. Zie Wat is Unity Catalog?.

V

vectordatabase

Een database die is geoptimaliseerd voor het opslaan en ophalen van insluitingen. Insluitingen zijn wiskundige weergaven van de semantische inhoud van gegevens, meestal tekst- of afbeeldingsgegevens. Databricks biedt een vectorzoekindex waarmee u vectordatabasefuncties in uw Delta-tabellen kunt gebruiken. Zie Mosaic AI Vector Search.

view

Een virtuele tabel die is gedefinieerd door een SQL-query. Het slaat zelf geen gegevens op, maar biedt een manier om gegevens uit een of meer tabellen in een specifieke indeling of abstractie weer te geven. Zie Wat is een weergave?

volumes (Unity Catalog)

Unity Catalog-objecten die governance mogelijk maken voor niet-tabellaire gegevenssets. Volumes vertegenwoordigen een logisch opslagvolume in een opslaglocatie voor cloudobjecten. Volumes bieden mogelijkheden voor het openen, opslaan, beheren en ordenen van bestanden. Zie Wat zijn Unity Catalog-volumes?.

W

Lakeflow-banen

De set hulpprogramma's waarmee u gegevensverwerkingstaken kunt plannen en organiseren in Azure Databricks. Zie Lakeflow Jobs.

workload

De hoeveelheid verwerkingscapaciteit die nodig is om een taak of groep taken uit te voeren. Azure Databricks identificeert twee typen workloads: data engineering (taak) en gegevensanalyse (alle doeleinden). Zie Azure Databricks-onderdelen.

workspace

Een organisatieomgeving waarmee Databricks-gebruikers objecten kunnen ontwikkelen, bladeren en delen, zoals notebooks, experimenten, query's en dashboards. Zie de gebruikersinterface van de werkruimte.