Gedeelde Delta-tabellen lezen met Apache Spark DataFrames

Dit artikel bevat syntaxisvoorbeelden van het gebruik van Apache Spark om query's uit te voeren op gegevens die worden gedeeld met Delta Sharing. Gebruik het deltasharing trefwoord als een indelingsoptie voor DataFrame-bewerkingen.

Andere opties voor het uitvoeren van query's op gedeelde gegevens

U kunt ook query's maken die gebruikmaken van gedeelde tabelnamen in Delta Sharing-catalogi die zijn geregistreerd in de metastore, zoals die in de volgende voorbeelden:

SQL

SELECT * FROM shared_table_name

Python

spark.read.table("shared_table_name")

Zie Gedeelde gegevens lezen met behulp van Databricks-naar-Databricks Delta Sharing (voor ontvangers)voor meer informatie over het configureren van Delta Sharing in Azure Databricks en het uitvoeren van query's op gegevens met behulp van gedeelde tabelnamen.

U kunt Structured Streaming gebruiken om records in gedeelde tabellen incrementeel te verwerken. Als u Structured Streaming wilt gebruiken, moet u het delen van geschiedenis voor de tabel inschakelen. Zie ALTER SHARE. Voor het delen van geschiedenis is Databricks Runtime 12.2 LTS of hoger vereist.

Als de gegevensfeed voor wijzigingsgegevens is ingeschakeld op de Delta-brontabel en geschiedenis is ingeschakeld voor de share, kunt u de wijzigingsgegevensfeed gebruiken bij het lezen van een Delta-share met Structured Streaming- of batchbewerkingen. Zie Delta Lake-wijzigingsgegevensfeed gebruiken in Azure Databricks.

Het deltasharing trefwoord wordt ondersteund voor leesbewerkingen van Apache Spark DataFrame, zoals wordt weergegeven in het volgende voorbeeld:

df = (spark.read
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Voor tabellen waarvoor de geschiedenis is gedeeld en de gegevensfeed is ingeschakeld, kunt u wijzigingenfeedrecords lezen met behulp van Apache Spark DataFrames. Voor het delen van geschiedenis is Databricks Runtime 12.2 LTS of hoger vereist.

df = (spark.read
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .option("endingTimestamp", "2021-05-21 12:00:00")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Voor tabellen die de geschiedenis hebben gedeeld, kunt u de gedeelde tabel gebruiken als bron voor Gestructureerd streamen. Voor het delen van geschiedenis is Databricks Runtime 12.2 LTS of hoger vereist.

streaming_df = (spark.readStream
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Feedback

Is deze pagina nuttig?

Last updated on 2025-03-30

Delen via

Andere opties voor het uitvoeren van query's op gedeelde gegevens

SQL

Python

Lezen met het sleutelwoord Delta Sharing voor indeling

Wijzigingsgegevensfeed lezen voor gedeelde deltatabellen

Gedeelde Delta-tabellen lezen met structured streaming

Feedback

Aanvullende resources