Opties voor automatisch laden

Configuratieopties die specifiek zijn voor de cloudFiles bron, worden voorafgegaan door cloudFiles , zodat ze zich in een afzonderlijke naamruimte bevinden van andere opties voor gestructureerd streamen.

Algemene opties voor automatisch laden
Opties voor adreslijstvermelding
Opties voor bestandsmeldingen
Opties voor bestandsindeling
Cloudspecifieke opties

Algemene opties voor automatisch laden

U kunt de volgende opties configureren voor Auto Loader-streams.

Opties
`cloudFiles.allowOverwrites` Typ: `Boolean` Of wijzigingen in invoerbestanden bestaande gegevens mogen overschrijven. Voor aandachtspunten bij de configuratie, zie Wordt het bestand opnieuw verwerkt door Auto Loader wanneer het bestand wordt toegevoegd of overschreven?. Standaardwaarde: `false`
`cloudFiles.backfillInterval` Typ: `Interval String` Auto Loader kan asynchrone backfills activeren op een bepaald interval. Bijvoorbeeld `1 day` om dagelijks in te vullen of `1 week` wekelijks in te vullen. Zie Reguliere backfills activeren met behulp van cloudFiles.backfillInterval voor meer informatie. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`. Standaard: Geen
`cloudFiles.cleanSource` Typ: `String` Of verwerkte bestanden automatisch uit de invoermap moeten worden verwijderd. Als deze is ingesteld op `OFF` (standaard), worden er geen bestanden verwijderd. Wanneer `DELETE` is ingesteld, worden bestanden 30 dagen nadat ze zijn verwerkt automatisch verwijderd. Hiervoor moet Auto Loader schrijfmachtigingen hebben voor de bronmap. Wanneer ingesteld op `MOVE`, worden bestanden binnen `cloudFiles.cleanSource.moveDestination` 30 dagen na verwerking automatisch naar de opgegeven locatie verplaatst. Hiervoor moet Auto Loader schrijfmachtigingen hebben voor zowel de bronmap als de verplaatsingslocatie. Een bestand wordt beschouwd als verwerkt wanneer het een niet-null-waarde heeft voor `commit_time` in het resultaat van de `cloud_files_state` tabelwaardefunctie. Zie `cloud_files_state` tabelwaardefunctie. De extra wachttijd van 30 dagen na verwerking kan worden geconfigureerd met behulp van `cloudFiles.cleanSource.retentionDuration`. Opmerking: Databricks raadt het gebruik van deze optie niet aan als er meerdere streams zijn die gegevens van de bronlocatie verbruiken, omdat de snelste consument de bestanden verwijdert en ze niet worden opgenomen in de tragere bronnen. Opmerking: Voor het inschakelen van deze functie moet Auto Loader de extra status in zijn controlepunt behouden, wat leidt tot prestatieoverhead, maar verbeterde waarneembaarheid mogelijk maakt via de `cloud_files_state` tabelwaardefunctie. Zie `cloud_files_state` tabelwaardefunctie. Opmerking: `cleanSource` gebruikt de huidige instelling om te bepalen of een bepaald bestand moet worden `MOVE` of `DELETE`. Stel dat de instelling was `MOVE` toen het bestand oorspronkelijk werd verwerkt, maar werd gewijzigd in `DELETE` toen het bestand 30 dagen later een kandidaat werd voor het opschonen. In dit geval wordt het bestand verwijderd door cleanSource. Opmerking: `cleanSource` is een beste poging. Bestanden worden niet gegarandeerd verwijderd zodra de `retentionDuration` periode voorbij is. In plaats daarvan worden ze kandidaten voor opruiming en worden ze verwijderd op basis van best mogelijke inspanning tijdens reguliere streamverwerking. Om kosten te besparen, `cleanSource` sluit u probleemloos af nadat de stroomverwerking is voltooid, zelfs als er nog kandidaten zijn om op te ruimen. De resterende kandidaten worden opgehaald tijdens de volgende verwerking. Beschikbaar in Databricks Runtime 16.4 en hoger. Standaard: UIT
`cloudFiles.cleanSource.retentionDuration` Typ: `Interval String` De hoeveelheid tijd die moet worden gewacht voordat verwerkte bestanden kandidaten worden voor archivering met `cleanSource`. Moet langer zijn dan 7 dagen voor `DELETE`. Geen minimale beperking voor `MOVE`. Beschikbaar in Databricks Runtime 16.4 en hoger. Standaardwaarde: 30 dagen
`cloudFiles.cleanSource.moveDestination` Typ: `String` Pad waarnaar verwerkte bestanden moeten worden gearchiveerd wanneer `cloudFiles.cleanSource` is ingesteld op `MOVE`. De verplaatsingslocatie is op de volgende manieren beperkt: Mag geen submap van de bronmap zijn (dit zorgt ervoor dat de gearchiveerde bestanden opnieuw worden opgenomen) S3: Moet een map in dezelfde S3-bucket zijn. Voor verplaatsingen tussen buckets moeten bestanden worden gedownload en opnieuw worden geüpload naar de nieuwe bucket, wat duur kan zijn. GCS: Moet een map in dezelfde GCS-bucket zijn. Voor verplaatsingen tussen buckets moeten bestanden worden gedownload en opnieuw worden geüpload naar de nieuwe bucket, wat duur kan zijn. Azure: moet een map in dezelfde Azure-container zijn. Voor verplaatsingen tussen containers moeten bestanden worden gedownload en opnieuw worden geüpload naar de nieuwe container, wat duur kan zijn. Auto Loader moet schrijfmachtigingen hebben voor deze map. Beschikbaar in Databricks Runtime 16.4 en hoger. Standaardwaarde: Geen
`cloudFiles.format` Typ: `String` De indeling van het gegevensbestand in het bronpad. Toegestane waarden zijn: `avro`: Avro-bestanden `binaryFile`: Binaire bestanden `csv`: CSV-bestanden `json`: JSON-bestanden `orc`: ORC-bestanden `parquet`: Parquet-bestanden `text`: TXT-bestanden `xml`: XML-bestanden Standaard: Geen (vereiste optie)
`cloudFiles.includeExistingFiles` Typ: `Boolean` Of u bestaande bestanden in het invoerpad voor stroomverwerking wilt opnemen of alleen nieuwe bestanden wilt verwerken die binnenkomen na de eerste installatie. Deze optie wordt alleen geëvalueerd wanneer u een stream voor de eerste keer start. Als u deze optie wijzigt nadat de stream opnieuw is opgestart, heeft dit geen effect. Standaardwaarde: `true`
`cloudFiles.inferColumnTypes` Typ: `Boolean` Of u exacte kolomtypen wilt afleiden bij het gebruik van schemadeductie. Kolommen worden standaard afgeleid als tekenreeksen bij het afleiden van JSON- en CSV-gegevenssets. Zie schemadeductie voor meer informatie. Standaardwaarde: `false`
`cloudFiles.maxBytesPerTrigger` Typ: `Byte String` Het maximum aantal nieuwe bytes dat in elke trigger moet worden verwerkt. U kunt een bytetekenreeks opgeven, bijvoorbeeld `10g` om elke microbatch te beperken tot 10 GB aan gegevens. Dit is een zacht maximum. Als u bestanden hebt die elk 3 GB zijn, verwerkt Azure Databricks 12 GB in een microbatch. Wanneer Azure Databricks samen met `cloudFiles.maxFilesPerTrigger` wordt gebruikt, verbruikt Azure Databricks tot de ondergrens van `cloudFiles.maxFilesPerTrigger` of `cloudFiles.maxBytesPerTrigger`, afhankelijk van welke het eerst wordt bereikt. Deze optie heeft geen effect wanneer deze wordt gebruikt met `Trigger.Once()` (`Trigger.Once()` is verouderd). Standaard: Geen
`cloudFiles.maxFileAge` Typ: `Interval String` Hoe lang een bestandsgebeurtenis wordt bijgehouden voor ontdubbelingsdoeleinden. Databricks raadt u aan deze parameter niet af te stemmen, tenzij u gegevens opneemt in de volgorde van miljoenen bestanden per uur. Zie de sectie over het bijhouden van bestandsevenementen voor meer informatie. Het afstemmen `cloudFiles.maxFileAge` kan te agressief leiden tot problemen met gegevenskwaliteit, zoals dubbele opname of ontbrekende bestanden. Daarom raadt Databricks een conservatieve instelling aan voor `cloudFiles.maxFileAge`, zoals 90 dagen, die vergelijkbaar is met wat vergelijkbare oplossingen voor gegevensopname aanbevelen. Standaard: Geen
`cloudFiles.maxFilesPerTrigger` Typ: `Integer` Het maximum aantal nieuwe bestanden dat in elke trigger moet worden verwerkt. Wanneer Azure Databricks samen met `cloudFiles.maxBytesPerTrigger` wordt gebruikt, verbruikt Azure Databricks tot de ondergrens van `cloudFiles.maxFilesPerTrigger` of `cloudFiles.maxBytesPerTrigger`, afhankelijk van welke het eerst wordt bereikt. Deze optie heeft geen effect wanneer deze wordt gebruikt met `Trigger.Once()` (afgeschaft). Standaard: 1000
`cloudFiles.partitionColumns` Typ: `String` Een door komma's gescheiden lijst met partitiekolommen in Hive-stijl die u wilt afleiden uit de mapstructuur van de bestanden. Partitiekolommen in Hive-stijl zijn sleutel-waardeparen gecombineerd door een gelijkheidsteken zoals `<base-path>/a=x/b=1/c=y/file.format`. In dit voorbeeld zijn `a`de partitiekolommen , `b`en `c`. Deze kolommen worden standaard automatisch aan uw schema toegevoegd als u schemaschatting gebruikt en de `<base-path>` opgeeft om gegevens uit te laden. Als u een schema opgeeft, verwacht Auto Loader dat deze kolommen worden opgenomen in het schema. Als u deze kolommen niet wilt gebruiken als onderdeel van uw schema, kunt u deze kolommen negeren `""` . Daarnaast kunt u deze optie gebruiken als u wilt dat kolommen het bestandspad in complexe mapstructuren worden afgeleid, zoals in het onderstaande voorbeeld: `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` Het specificeren van `cloudFiles.partitionColumns` als `year,month,day` retourneert `year=2022` voor `file1.csv`, maar de kolommen `month` en `day` zijn `null`. `month` en `day` worden correct geparseerd voor `file2.csv` en `file3.csv`. Standaard: Geen
`cloudFiles.schemaEvolutionMode` Typ: `String` De manier om het schema aan te passen wanneer nieuwe kolommen in de gegevens worden ontdekt. Standaard worden kolommen afgeleid als tekenreeksen bij het afleiden van JSON-gegevenssets. Zie de ontwikkeling van schema's voor meer informatie. Standaard: `addNewColumns` wanneer er geen schema wordt opgegeven, `none` anders
`cloudFiles.schemaHints` Typ: `String` Schema-informatie die u aan Auto Loader verstrekt tijdens schema-inferentie. Zie schemahints voor meer informatie. Standaard: Geen
`cloudFiles.schemaLocation` Typ: `String` De locatie voor het opslaan van het afgeleid schema en de volgende wijzigingen. Zie schemadeductie voor meer informatie. Standaard: Geen (vereist om het schema af te leiden)
`cloudFiles.useStrictGlobber` Typ: `Boolean` Of u een strikte globber wilt gebruiken die overeenkomt met het standaardgedrag voor globbing van andere bestandsbronnen in Apache Spark. Zie Algemene patronen voor het laden van gegevens voor meer informatie. Beschikbaar in Databricks Runtime 12.2 LTS en hoger. Standaardwaarde: `false`
`cloudFiles.validateOptions` Typ: `Boolean` Het al dan niet valideren van Autoloader-opties en het geven van een foutmelding voor onbekende of inconsistente opties. Standaardwaarde: `true`

Opties voor adreslijstvermelding

De volgende opties zijn relevant voor de lijstweergavemodus.

Opties

Opties
`cloudFiles.useIncrementalListing` (afgeschaft) Typ: `String` Deze functie is afgeschaft. Databricks raadt aan om de modus voor bestandsmeldingen te gebruiken met bestandsevenementen in plaats van `cloudFiles.useIncrementalListing`. Of u de incrementele vermelding wilt gebruiken in plaats van de volledige vermelding in de modus voor adreslijstvermeldingen. Auto Loader zet standaard de beste moeite in om automatisch te detecteren of een bepaalde map geschikt is voor het incrementeel vermelden. U kunt de incrementele vermelding expliciet gebruiken of de volledige adreslijstvermelding gebruiken door deze in te stellen als `true` of `false` respectievelijk. Het onjuist inschakelen van incrementele vermeldingen in een niet-lexisch geordende map voorkomt dat Auto Loader nieuwe bestanden ontdekt. Werkt met Azure Data Lake Storage (`abfss://`), S3 (`s3://`) en GCS (`gs://`). Beschikbaar in Databricks Runtime 9.1 LTS en hoger. Standaard: `auto` in Databricks Runtime 17.2 en lager, `false` op Databricks Runtime 17.3 en hoger Beschikbare waarden: `auto`, `truefalse`

cloudFiles.useIncrementalListing (afgeschaft)
Typ: String
Deze functie is afgeschaft. Databricks raadt aan om de modus voor bestandsmeldingen te gebruiken met bestandsevenementen in plaats van cloudFiles.useIncrementalListing.
Of u de incrementele vermelding wilt gebruiken in plaats van de volledige vermelding in de modus voor adreslijstvermeldingen. Auto Loader zet standaard de beste moeite in om automatisch te detecteren of een bepaalde map geschikt is voor het incrementeel vermelden. U kunt de incrementele vermelding expliciet gebruiken of de volledige adreslijstvermelding gebruiken door deze in te stellen als true of false respectievelijk.
Het onjuist inschakelen van incrementele vermeldingen in een niet-lexisch geordende map voorkomt dat Auto Loader nieuwe bestanden ontdekt.
Werkt met Azure Data Lake Storage (abfss://), S3 (s3://) en GCS (gs://).
Beschikbaar in Databricks Runtime 9.1 LTS en hoger.
Standaard: auto in Databricks Runtime 17.2 en lager, false op Databricks Runtime 17.3 en hoger
Beschikbare waarden: auto, truefalse

Opties voor bestandsmeldingen

De volgende opties zijn relevant voor de meldingsmodus voor bestanden.

Opties
`cloudFiles.fetchParallelism` Typ: `Integer` Het aantal threads dat moet worden gebruikt bij het ophalen van berichten uit de wachtrijservice. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`. Standaard: 1
`cloudFiles.pathRewrites` Type: Een JSON-tekenreeks Alleen vereist als u een `queueUrl` bestand opgeeft dat bestandsmeldingen van meerdere S3-buckets ontvangt en u koppelpunten wilt gebruiken die zijn geconfigureerd voor toegang tot gegevens in deze containers. Gebruik deze optie om het voorvoegsel van het `bucket/key` pad te herschrijven met het aankoppelpunt. Alleen voorvoegsels kunnen opnieuw worden geschreven. Voor de configuratie `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}`wordt het pad `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` bijvoorbeeld herschreven naar `dbfs:/mnt/data-warehouse/2017/08/fileA.json`. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`. Standaard: Geen
`cloudFiles.resourceTag` Typ: `Map(String, String)` Een reeks sleutel-waardetagparen om gerelateerde resources te koppelen en te identificeren, bijvoorbeeld: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Zie Amazon SQS-tags voor kostentoewijzing en tags configureren voor een Amazon SNS-onderwerp voor meer informatie over AWS. (1) Voor meer informatie over Azure, zie Naamgevingswachtrijen en metagegevens en de dekking van `properties.labels` in gebeurtenisabonnementen. Auto Loader slaat deze sleutel-waarde tagparen op in JSON als labels. (1) Zie Rapportagegebruik met labels voor meer informatie over GCP. (1) Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`. Stel in plaats daarvan resourcetags in met behulp van de cloudproviderconsole. Standaard: Geen
`cloudFiles.useManagedFileEvents` Wanneer dit is ingesteld `true`, gebruikt Auto Loader de service voor bestandsevenementen om bestanden op uw externe locatie te detecteren. U kunt deze optie alleen gebruiken als het laadpad zich op een externe locatie bevindt waarop bestandsevenementen zijn ingeschakeld. Zie De modus Bestandsmelding gebruiken met bestandsevenementen. Bestandsgebeurtenissen bieden meldingenniveau prestaties in de ontdekking van nieuwe bestanden, omdat Auto Loader nieuwe bestanden kan ontdekken sinds de laatste uitvoering. In tegenstelling tot mapvermelding hoeft dit proces niet alle bestanden in de map weer te geven. Er zijn enkele situaties waarin Automatisch laden gebruikmaakt van een mapvermelding, ook al is de optie bestandsevenementen ingeschakeld: Tijdens het initiale laden, wanneer `includeExistingFiles` is ingesteld op `true`, vindt er een volledige directorylijst plaats om alle bestanden te ontdekken die aanwezig waren in de map voordat Auto Loader werd gestart. De bestands gebeurtenissenservice optimaliseert bestandsdetectie door de laatst gemaakte bestanden in de cache op te slaan. Als automatisch laadprogramma niet regelmatig wordt uitgevoerd, kan deze cache verlopen en wordt automatisch laadprogramma teruggezet naar de mappenlijst om bestanden te detecteren en de cache bij te werken. Om dit scenario te voorkomen, roept u autolader ten minste één keer per zeven dagen aan. Zie Wanneer gebruikt Auto Loader met bestandsevenementen een lijst met mappen? voor een uitgebreide lijst met situaties waarin Auto Loader gebruikmaakt van mapvermelding met deze optie. Beschikbaar in Databricks Runtime 14.3 LTS en hoger.
`cloudFiles.useNotifications` Typ: `Boolean` Of u de modus voor bestandsmeldingen wilt gebruiken om te bepalen wanneer er nieuwe bestanden zijn. Als `false`, gebruik de directorylistingmodus. Zie Vergelijk de detectiemodi voor automatisch laden van bestanden. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`. Standaardwaarde: `false`

(1) Automatisch laadprogramma voegt standaard de volgende sleutel-waarde tagparen toe op basis van best effort:

vendor: Databricks
path: de locatie waar de gegevens worden geladen. Niet beschikbaar in GCP vanwege labelbeperkingen.
checkpointLocation: De locatie van het controlepunt van de stream. Niet beschikbaar in GCP vanwege labelbeperkingen.
streamId: Een wereldwijd unieke id voor de stream.

Deze sleutelnamen zijn gereserveerd en u kunt hun waarden niet overschrijven.

Opties voor bestandsindeling

Met Auto Loader kunt u JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILE en ORC bestanden opnemen.

Algemene opties
JSON Opties
CSV Opties
XML Opties
PARQUET Opties
AVRO Opties
BINARYFILE Opties
TEXT Opties
ORC Opties

Algemene opties

De volgende opties zijn van toepassing op alle bestandsindelingen.

Optie
`ignoreCorruptFiles` Typ: `Boolean` Of beschadigde bestanden moeten worden genegeerd. Als dit het geval is, zullen de Spark-taken blijven draaien wanneer ze beschadigde bestanden tegenkomen en zal de gelezen inhoud nog steeds worden teruggegeven. Waarneembaar als `numSkippedCorruptFiles` in de `operationMetrics` kolom van de geschiedenis van Delta Lake. Beschikbaar in Databricks Runtime 11.3 LTS en hoger. Standaardwaarde: `false`
`ignoreMissingFiles` Typ: `Boolean` Of ontbrekende bestanden moeten worden genegeerd. Als dit waar is, worden de Spark-taken voortgezet wanneer er ontbrekende bestanden worden aangetroffen en zal de gelezen inhoud nog steeds worden geretourneerd. Beschikbaar in Databricks Runtime 11.3 LTS en hoger. Standaardwaarde: `false` voor automatisch laden, `true` voor `COPY INTO` (verouderd)
`modifiedAfter` Type: `Timestamp String`bijvoorbeeld `2021-01-01 00:00:00.000000 UTC+0` Een optionele tijdstempel als filter om alleen bestanden op te nemen die een wijzigingstijdstempel hebben na de opgegeven tijdstempel. Standaardwaarde: Geen
`modifiedBefore` Type: `Timestamp String`bijvoorbeeld `2021-01-01 00:00:00.000000 UTC+0` Een optionele tijdstempel als filter om alleen bestanden op te nemen met een wijzigingstijdstempel vóór de opgegeven tijdstempel. Standaardwaarde: Geen
`pathGlobFilter` of `fileNamePattern` Typ: `String` Een mogelijk globpatroon om bestanden te selecteren. Gelijk aan `PATTERN` in `COPY INTO` (verouderd). `fileNamePattern` kan worden gebruikt in `read_files`. Standaardwaarde: Geen
`recursiveFileLookup` Typ: `Boolean` Met deze optie wordt gezocht in geneste mappen, zelfs als hun namen geen partitienamenschema volgen, zoals bij date=2019-07-01. Standaardwaarde: `false`

`JSON` Opties

Optie
`allowBackslashEscapingAnyCharacter` Typ: `Boolean` Of schuine strepen elk teken dat erop volgt kunnen laten ontsnappen. Als dit niet is ingeschakeld, kunnen alleen tekens die expliciet door de JSON-specificatie zijn vermeld, worden geëscaped. Standaardwaarde: `false`
`allowComments` Typ: `Boolean` Of het gebruik van opmerkingen in java-, C- en C++-stijl (`'/'`, `'*'`en `'//'` variëteiten) binnen geparseerde inhoud al dan niet is toegestaan. Standaardwaarde: `false`
`allowNonNumericNumbers` Typ: `Boolean` Hiermee wordt aangegeven of de set tokens zonder getal (`NaN`) mag worden toegestaan als juridische zwevende getalwaarden. Standaardwaarde: `true`
`allowNumericLeadingZeros` Typ: `Boolean` Of u wilt toestaan dat integrale getallen beginnen met extra (negeerbare) nullen (bijvoorbeeld `000001`). Standaardwaarde: `false`
`allowSingleQuotes` Typ: `Boolean` Hiermee wordt aangegeven of enkele aanhalingstekens (apostrof, teken `'\'`) kunnen worden toegestaan voor het citeren van strings (namen en waarden). Standaardwaarde: `true`
`allowUnquotedControlChars` Typ: `Boolean` Of het is toegestaan JSON-tekenreeksen te laten bevatten ongedekte controletekens (ASCII-tekens met een waarde kleiner dan 32, inclusief tab- en regelinvoertekens) of niet. Standaardwaarde: `false`
`allowUnquotedFieldNames` Typ: `Boolean` Of het gebruik van niet-geciteerde veldnamen is toegestaan (die wel zijn toegestaan door JavaScript, maar niet door de JSON-specificatie). Standaardwaarde: `false`
`badRecordsPath` Typ: `String` Het pad voor het opslaan van bestanden voor het registreren van informatie over ongeldige JSON-records. Het gebruik van de `badRecordsPath` optie in een gegevensbron op basis van bestanden heeft de volgende beperkingen: Het is niet-transactioneel en kan leiden tot inconsistente resultaten. Tijdelijke fouten worden behandeld als fouten. Standaardwaarde: Geen
`columnNameOfCorruptRecord` Typ: `String` De kolom voor het opslaan van records die ongeldig zijn en die niet kunnen worden geïnterpreteerd. Als het `mode` voor parseren is ingesteld als `DROPMALFORMED`, is deze kolom leeg. Standaardwaarde: `_corrupt_record`
`dateFormat` Typ: `String` De notatie voor het parseren van datumtekenreeksen. Standaardwaarde: `yyyy-MM-dd`
`dropFieldIfAllNull` Typ: `Boolean` Of kolommen van alle null-waarden of lege matrices en structs tijdens schemadeductie moeten worden genegeerd. Standaardwaarde: `false`
`encoding` of `charset` Typ: `String` De naam van de codering van de JSON-bestanden. Zie `java.nio.charset.Charset` voor een lijst met opties. U kunt niet gebruiken `UTF-16` en `UTF-32` wanneer `multiline` is `true`. Standaardwaarde: `UTF-8`
`inferTimestamp` Typ: `Boolean` Wilt u proberen tijdstempeltekenreeksen af te leiden als een `TimestampType`? Wanneer ingesteld op `true`, kan het aanzienlijk langer duren voordat schemadeductie is voltooid. U moet `cloudFiles.inferColumnTypes` inschakelen om te gebruiken met Auto Loader. Standaardwaarde: `false`
`lineSep` Typ: `String` Een string tussen twee opeenvolgende JSON-records. Standaardwaarde: Geen, wat betrekking heeft op `\r`, `\r\n`, en `\n`.
`locale` Typ: `String` Een `java.util.Locale` id. Beïnvloedt de standaarddatum, tijdstempel en decimale parsering binnen de JSON. Standaardwaarde: `US`
`mode` Typ: `String` Parsermodus voor het afhandelen van onjuist gevormde records. Een van `PERMISSIVE`, `DROPMALFORMED`of `FAILFAST`. Standaardwaarde: `PERMISSIVE`
`multiLine` Typ: `Boolean` Of de JSON-records meerdere regels omvatten. Standaardwaarde: `false`
`prefersDecimal` Typ: `Boolean` Probeert tekenreeksen af te leiden als `DecimalType` in plaats van float- of double-type, indien mogelijk. U moet ook schemadeductie gebruiken, ofwel door het inschakelen van `inferSchema` of `cloudFiles.inferColumnTypes` gebruiken met Auto Loader. Standaardwaarde: `false`
`primitivesAsString` Typ: `Boolean` Of bepaalde primitieve typen zoals getallen en booleaanse waarden moeten worden afgeleid`StringType`. Standaardwaarde: `false`
`readerCaseSensitive` Typ: `Boolean` Hiermee specificeert u het gedrag van hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Beschikbaar in Databricks Runtime 13.3 en hoger. Standaardwaarde: `true`
`rescuedDataColumn` Typ: `String` Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd als gevolg van een niet-overeenkomend gegevenstype of niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg voor meer details Wat is de kolom met geredde data?. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's. Standaardwaarde: Geen
`singleVariantColumn` Typ: `String` Of u het hele JSON-document wilt opnemen, geparseerd in één variantkolom met de opgegeven tekenreeks als de naam van de kolom. Als deze optie is uitgeschakeld, worden de JSON-velden opgenomen in hun eigen kolommen. Standaardwaarde: Geen
`timestampFormat` Typ: `String` Het formaat voor het parseren van tijdstempeltekenreeksen. Standaardwaarde: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Typ: `String` De `java.time.ZoneId` te gebruiken bij het parseren van tijdstempels en datums. Standaardwaarde: Geen

`CSV` Opties

Optie
`badRecordsPath` Typ: `String` Het pad om bestanden op te slaan voor het vastleggen van de informatie over foute CSV-records. Standaardwaarde: Geen
`charToEscapeQuoteEscaping` Typ: `Char` Het teken dat wordt gebruikt om het teken te escapen dat wordt gebruikt voor aanhalingstekens. Bijvoorbeeld voor de volgende record: `[ " a\\", b ]` Als het teken om aan de `'\'` escape-code te ontsnappen niet is gedefinieerd, wordt de record niet geparseerd. De parser zal de tekens `[a],[\],["],[,],[ ],[b]` lezen en een fout genereren omdat het een afsluitende aanhalingsteken niet kan vinden. Als het teken om aan het `'\'` te ontsnappen gedefinieerd is als `'\'`, wordt het record gelezen met 2 waarden: `[a\]` en `[b]`. Standaardwaarde: `'\0'`
`columnNameOfCorruptRecord` Ondersteund voor automatisch laden. Niet ondersteund voor `COPY INTO` (verouderd). Typ: `String` De kolom voor het opslaan van records die ongeldig zijn en die niet kunnen worden geïnterpreteerd. Als het `mode` voor parseren is ingesteld als `DROPMALFORMED`, is deze kolom leeg. Standaardwaarde: `_corrupt_record`
`comment` Typ: `Char` Hiermee definieert u het teken dat een regelcommentaar aangeeft wanneer deze wordt gevonden aan het begin van een tekstregel. Hiermee `'\0'` schakelt u het overslaan van opmerkingen uit. Standaardwaarde: `'\u0000'`
`dateFormat` Typ: `String` De notatie voor het parseren van datumtekenreeksen. Standaardwaarde: `yyyy-MM-dd`
`emptyValue` Typ: `String` Tekenreeksweergave van een lege waarde. Standaardwaarde: `""`
`encoding` of `charset` Typ: `String` De naam van de codering van de CSV-bestanden. Zie `java.nio.charset.Charset` voor de lijst met opties. `UTF-16` en `UTF-32` kunnen niet worden gebruikt wanneer `multilinetrue` is. Standaardwaarde: `UTF-8`
`enforceSchema` Typ: `Boolean` Of u het opgegeven of afgeleid schema geforceerd wilt toepassen op de CSV-bestanden. Als de optie is ingeschakeld, worden headers van CSV-bestanden genegeerd. Deze optie wordt standaard genegeerd wanneer u AutoLoader gebruikt om gegevens te redden en schemaontwikkeling mogelijk te maken. Standaardwaarde: `true`
`escape` Typ: `Char` Het escape-teken dat moet worden gebruikt bij het parseren van de gegevens. Standaardwaarde: `'\'`
`header` Typ: `Boolean` Of de CSV-bestanden een koptekst bevatten. Auto Loader gaat ervan uit dat bestanden headers hebben bij het uitstellen van het schema. Standaardwaarde: `false`
`ignoreLeadingWhiteSpace` Typ: `Boolean` Of u voorloopspaties voor elke geparseerde waarde wilt negeren. Standaardwaarde: `false`
`ignoreTrailingWhiteSpace` Typ: `Boolean` Hiermee wordt aangegeven of u volgspaties voor elke geparseerde waarde wilt negeren. Standaardwaarde: `false`
`inferSchema` Typ: `Boolean` Of u de gegevenstypen van de geparseerde CSV-records wilt afleiden of ervan wilt uitgaan dat alle kolommen van `StringType`zijn. Vereist een extra pass over de gegevens indien ingesteld op `true`. Gebruik voor Auto Loader in plaats daarvan `cloudFiles.inferColumnTypes`. Standaardwaarde: `false`
`lineSep` Typ: `String` Een string tussen twee opeenvolgende CSV-records. Standaardwaarde: Geen, wat betrekking heeft op `\r`, `\r\n`, en `\n`.
`locale` Typ: `String` Een `java.util.Locale` id. Beïnvloedt de standaarddatum, tijdstempel en decimale parsering in het CSV-bestand. Standaardwaarde: `US`
`maxCharsPerColumn` Typ: `Int` Maximum aantal tekens dat wordt verwacht van een waarde om te parseren. Kan worden gebruikt om geheugenfouten te voorkomen. Standaard ingesteld op `-1`, wat onbeperkt betekent. Standaardwaarde: `-1`
`maxColumns` Typ: `Int` De vaste limiet van het aantal kolommen dat een record kan hebben. Standaardwaarde: `20480`
`mergeSchema` Typ: `Boolean` Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaard ingeschakeld voor Auto Loader bij het afleiden van het schema. Standaardwaarde: `false`
`mode` Typ: `String` Parsermodus voor het afhandelen van onjuist gevormde records. Eén van `'PERMISSIVE'`, `'DROPMALFORMED'`, en `'FAILFAST'`. Standaardwaarde: `PERMISSIVE`
`multiLine` Typ: `Boolean` Of de CSV-records meerdere regels omvatten. Standaardwaarde: `false`
`nanValue` Typ: `String` De tekenreeksweergave van een niet-getal waarde bij het parseren van `FloatType`- en `DoubleType`-kolommen. Standaardwaarde: `"NaN"`
`negativeInf` Typ: `String` De tekenreeksweergave van negatieve oneindigheid bij het parseren van `FloatType`- of `DoubleType`-kolommen. Standaardwaarde: `"-Inf"`
`nullValue` Typ: `String` Tekenreeksweergave van een null-waarde. Standaardwaarde: `""`
`parserCaseSensitive` (afgeschaft) Typ: `Boolean` Tijdens het lezen van bestanden moet worden bepaald of kolommen in de koptekst hoofdlettergevoelig moeten worden uitgelijnd met het schema. Dit is `true` standaard voor autolaadprogramma's. Kolommen die per geval verschillen, worden in de `rescuedDataColumn` indien ingeschakelde kolom gered. Deze optie is afgeschaft ten gunste van `readerCaseSensitive`. Standaardwaarde: `false`
`positiveInf` Typ: `String` De tekenreeksweergave van positieve oneindigheid bij het parseren van `FloatType`- of `DoubleType`-kolommen. Standaardwaarde: `"Inf"`
`preferDate` Typ: `Boolean` Probeert indien mogelijk strings als datums te interpreteren in plaats van als een tijdstempel. U moet ook schemadeductie gebruiken, door `inferSchema` in te schakelen of door gebruik te maken van `cloudFiles.inferColumnTypes` met Auto-Loader. Standaardwaarde: `true`
`quote` Typ: `Char` Het teken dat wordt gebruikt om waarden te escapen waarbij het veldscheidingsteken deel uitmaakt van de waarde. Standaardwaarde: `"`
`readerCaseSensitive` Typ: `Boolean` Hiermee specificeert u het gedrag van hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Standaardwaarde: `true`
`rescuedDataColumn` Typ: `String` Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg Wat is de kolom voor geredde gegevens? voor meer informatie. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's. Standaardwaarde: Geen
`sep` of `delimiter` Typ: `String` De scheidingstekenreeks tussen kolommen. Standaardwaarde: `","`
`skipRows` Typ: `Int` Het aantal rijen vanaf het begin van het CSV-bestand dat moet worden genegeerd (inclusief opmerkingen en lege rijen). Als `header` waar is, is de koptekst de eerste niet-overgeslagen en niet als commentaar gemarkeerde rij. Standaardwaarde: `0`
`timestampFormat` Typ: `String` Het formaat voor het parseren van tijdstempeltekenreeksen. Standaardwaarde: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Typ: `String` De `java.time.ZoneId` te gebruiken bij het parseren van tijdstempels en datums. Standaardwaarde: Geen
`unescapedQuoteHandling` Typ: `String` De strategie voor het behandelen van niet-geëscaleerde aanhalingstekens. Toegestane opties: `STOP_AT_CLOSING_QUOTE`: Als er niet-ontsnapte aanhalingstekens worden gevonden in de invoer, verzamel dan het aanhalingsteken en ga verder met het parseren van de waarde als een geciteerde waarde, totdat er een sluitend aanhalingsteken wordt gevonden. `BACK_TO_DELIMITER`: Als er niet-ontsnapte aanhalingstekens worden gevonden in de invoer, kunt u de waarde beschouwen als een niet-gequote waarde. Hierdoor verzamelt de parser alle tekens van de huidige geparseerde waarde totdat het scheidingsteken dat is gedefinieerd door `sep` is gevonden. Als er geen scheidingsteken in de waarde wordt gevonden, blijft de parser tekens uit de invoer accumuleren totdat een scheidingsteken of regeleinde is gevonden. `STOP_AT_DELIMITER`: Als er niet-ontsnapte aanhalingstekens worden gevonden in de invoer, kunt u de waarde beschouwen als een niet-gequote waarde. De parser verzamelt alle tekens totdat het scheidingsteken, dat is gedefinieerd door `sep`, of een regeleinde in de invoer wordt gevonden. `SKIP_VALUE`: Als er onverwerkte aanhalingstekens worden gevonden in de invoer, wordt de inhoud die voor de opgegeven waarde is geïnterpreteerd genegeerd (totdat het volgende scheidingsteken is gevonden) en wordt de waarde die is ingesteld in `nullValue` in plaats daarvan geproduceerd. `RAISE_ERROR`: Als er niet-ontsnapte aanhalingstekens in de invoer gevonden worden, is een `TextParsingException` zal worden opgeworpen. Standaardwaarde: `STOP_AT_DELIMITER`

`XML` Opties

Optie	Omschrijving	Omvang
`rowTag`	De rijtag van de XML-bestanden die moeten worden behandeld als een rij. In het voorbeeld-XML `<books> <book><book>...<books>`is `book`de juiste waarde. Dit is een vereiste optie.	lezen
`samplingRatio`	Definieert een fractie van rijen die worden gebruikt voor schemadeductie. Ingebouwde XML-functies negeren deze optie. Standaard: `1.0`.	lezen
`excludeAttribute`	Of kenmerken in elementen moeten worden uitgesloten. Standaard: `false`.	lezen
`mode`	Modus voor het verwerken van beschadigde records tijdens het parseren. `PERMISSIVE`: Voor beschadigde records plaatst u de ongeldige tekenreeks in een veld dat is geconfigureerd door `columnNameOfCorruptRecord`en stelt u onjuiste velden in op `null`. Als u beschadigde records wilt behouden, kunt u een `string` typeveld instellen met de naam `columnNameOfCorruptRecord` in een door de gebruiker gedefinieerd schema. Als een schema het veld niet heeft, worden beschadigde records verwijderd tijdens het parseren. Bij het uitstellen van een schema voegt de parser impliciet een `columnNameOfCorruptRecord` veld toe aan een uitvoerschema. `DROPMALFORMED`: Hiermee worden beschadigde records genegeerd. Deze modus wordt niet ondersteund voor ingebouwde XML-functies. `FAILFAST`: Genereert een uitzondering wanneer de parser beschadigde gegevens tegenkomt.	lezen
`inferSchema`	Als `true`, wordt geprobeerd een geschikt type voor elke resulterende DataFrame-kolom af te leiden. Als `false`alle resulterende kolommen van het `string` type zijn. Standaard: `true`. Ingebouwde XML-functies negeren deze optie.	lezen
`columnNameOfCorruptRecord`	Hiermee kunt u de naam van het nieuwe veld wijzigen dat een ongeldige tekenreeks bevat die is gemaakt door `PERMISSIVE` modus. Standaard: `spark.sql.columnNameOfCorruptRecord`.	lezen
`attributePrefix`	Het voorvoegsel voor kenmerken om kenmerken te onderscheiden van elementen. Dit is het voorvoegsel voor veldnamen. Standaard is `_`. Kan leeg zijn voor het lezen van XML, maar niet voor schrijven.	lezen, schrijven
`valueTag`	De tag die wordt gebruikt voor de karakterdata in elementen die ook attribuut(en) of kindelement(en) bevatten. Gebruiker kan het `valueTag` veld in het schema opgeven of het wordt automatisch toegevoegd tijdens schemadeductie wanneer tekengegevens aanwezig zijn in elementen met andere elementen of kenmerken. Standaardwaarde: `_VALUE`	lezen, schrijven
`encoding`	Voor het lezen decodeert u de XML-bestanden op basis van het opgegeven coderingstype. Voor schrijven geeft u codering (charset) van opgeslagen XML-bestanden op. Ingebouwde XML-functies negeren deze optie. Standaard: `UTF-8`.	lezen, schrijven
`ignoreSurroundingSpaces`	Hiermee bepaalt u of de witte omringende spaties van de waarden die worden gelezen, moeten worden overgeslagen. Standaard: `true`. Gegevens die alleen uit witruimtetekens bestaan, worden genegeerd.	lezen
`rowValidationXSDPath`	Pad naar een optioneel XSD-bestand dat wordt gebruikt om de XML voor elke rij afzonderlijk te valideren. Rijen die niet kunnen worden gevalideerd, worden behandeld als parsefouten zoals hierboven. De XSD heeft verder geen invloed op het verstrekte of afgeleide schema.	lezen
`ignoreNamespace`	Als `true` wordt toegepast, worden de voorvoegsels van naamruimten op XML-elementen en -kenmerken genegeerd. Tags `<abc:author>` en `<def:author>`, bijvoorbeeld, worden behandeld alsof ze alleen `<author>`zijn. Naamruimten kunnen niet worden genegeerd op het `rowTag` element, alleen de leesbare kindelementen. XML-parsering is niet naamruimtebewust, zelfs niet als `false`. Standaard: `false`.	lezen
`timestampFormat`	Aangepaste tekenreeks voor tijdstempelnotatie die de datum/tijd-patroonnotatie volgt. Dit is van toepassing op `timestamp` het type. Standaard: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`.	lezen, schrijven
`timestampNTZFormat`	Aangepaste formaatstring voor tijdstempel zonder tijdzone die het datumpatroon volgt. Dit is van toepassing op het type TimestampNTZType. Standaard: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	lezen, schrijven
`dateFormat`	Tekenreeks voor aangepaste datumnotatie die de datum/tijd-patroonnotatie volgt. Dit is van toepassing op het datumtype. Standaard: `yyyy-MM-dd`.	lezen, schrijven
`locale`	Hiermee stelt u een locale in als taaltag volgens de IETF BCP 47-indeling. Wordt bijvoorbeeld `locale` gebruikt tijdens het parseren van datums en tijdstempels. Standaard: `en-US`.	lezen
`rootTag`	Hoofdtag van de XML-bestanden. Bijvoorbeeld in `<books> <book><book>...</books>` is de juiste waarde `books`. U kunt basiskenmerken opnemen door een waarde op te geven zoals `books foo="bar"`. Standaard: `ROWS`.	schrijven
`declaration`	Inhoud van XML-declaratie die moet worden geschreven aan het begin van elk XML-uitvoerbestand, vóór de `rootTag`. Bijvoorbeeld, een waarde van `foo` zorgt ervoor dat `<?xml foo?>` wordt geschreven. Ingesteld op een lege tekenreeks zodat deze wordt onderdrukt. Standaardwaarde: `version="1.0"` `encoding="UTF-8" standalone="yes"`.	schrijven
`arrayElementName`	De naam van het XML-element dat elk element van een kolom met matrixwaarden omsluit bij het schrijven. Standaard: `item`.	schrijven
`nullValue`	Hiermee stelt u de tekenreeksweergave van een null-waarde in. Standaard: tekenreeks `null`. Als dit het geval is `null`, schrijft de parser geen kenmerken en elementen voor velden.	lezen, schrijven
`compression`	Compressiecode die moet worden gebruikt bij het opslaan in een bestand. Dit kan een van de bekende niet-hoofdlettergevoelige verkorte namen zijn (`none`, `bzip2`, `gziplz4`en `snappy` `deflate`). Ingebouwde XML-functies negeren deze optie. Standaard: `none`.	schrijven
`validateName`	Als dat waar is, treedt er een fout op bij een validatiefout voor XML-elementnamen. SQL-veldnamen kunnen bijvoorbeeld spaties bevatten, maar namen van XML-elementen kunnen geen spaties bevatten. Standaard: `true`.	schrijven
`readerCaseSensitive`	Hiermee geeft u het hoofdlettergevoeligheidsgedrag op wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Standaard: `true`.	lezen
`rescuedDataColumn`	Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege een niet-overeenkomend gegevenstype en niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Zie Wat is de kolom met geredde gegevens? voor meer informatie. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's. Standaard: Geen.	lezen
`singleVariantColumn`	Hiermee geeft u de naam van de kolom met één variant op. Als deze optie is opgegeven voor lezen, parseert u de hele XML-record in één variantkolom met de opgegeven optietekenreekswaarde als de naam van de kolom. Als deze optie wordt opgegeven bij het schrijven, schrijft u de waarde van de enkelvoudige Variant-kolom naar XML-bestanden. Standaard: `none`.	lezen, schrijven

`PARQUET` Opties

Optie
`datetimeRebaseMode` Typ: `String` Hiermee beheert u de rebasing van de DATUM- en TIJDSTEMPEL-waarden tussen de Juliaanse en de Proleptische Gregoriaanse kalenders. Toegestane waarden: `EXCEPTION`, `LEGACY`en `CORRECTED`. Standaardwaarde: `LEGACY`
`int96RebaseMode` Typ: `String` Hiermee controleert u de rebasing van de INT96-tijdstempelwaarden tussen de Juliaanse en de Proleptische Gregoriaanse kalender. Toegestane waarden: `EXCEPTION`, `LEGACY`en `CORRECTED`. Standaardwaarde: `LEGACY`
`mergeSchema` Typ: `Boolean` Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaardwaarde: `false`
`readerCaseSensitive` Typ: `Boolean` Hiermee specificeert u het gedrag van hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Standaardwaarde: `true`
`rescuedDataColumn` Typ: `String` Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg Wat is de kolom voor geredde gegevens? voor meer informatie. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's. Standaardwaarde: Geen

`AVRO` Opties

Optie
`avroSchema` Typ: `String` Optioneel schema gegeven door een gebruiker in Avro-indeling. Bij het lezen van Avro kan deze optie worden ingesteld op een ontwikkeld schema, dat compatibel is maar anders is met het werkelijke Avro-schema. Het deserialisatieschema is consistent met het ontwikkelde schema. Als u bijvoorbeeld een ontwikkeld schema instelt dat één extra kolom met een standaardwaarde bevat, bevat het leesresultaat ook de nieuwe kolom. Standaardwaarde: Geen
`datetimeRebaseMode` Typ: `String` Hiermee beheert u de rebasing van de DATUM- en TIJDSTEMPEL-waarden tussen de Juliaanse en de Proleptische Gregoriaanse kalenders. Toegestane waarden: `EXCEPTION`, `LEGACY`en `CORRECTED`. Standaardwaarde: `LEGACY`
`mergeSchema` Typ: `Boolean` Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. `mergeSchema` Bij Avro worden gegevenstypen niet versoepeld. Standaardwaarde: `false`
`readerCaseSensitive` Typ: `Boolean` Hiermee specificeert u het gedrag van hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Standaardwaarde: `true`
`rescuedDataColumn` Typ: `String` Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's. Raadpleeg Wat is de kolom voor geredde gegevens? voor meer informatie. Standaardwaarde: Geen

`BINARYFILE` Opties

Binaire bestanden hebben geen extra configuratieopties.

`TEXT` Opties

Optie
`encoding` Typ: `String` De naam van de codering van het scheidingsteken voor tekstbestandsregeldelers. Zie voor een lijst met opties `java.nio.charset.Charset`. De inhoud van het bestand wordt niet beïnvloed door deze optie en wordt gelezen as-is. Standaardwaarde: `UTF-8`
`lineSep` Typ: `String` Een tekenreeks tussen twee opeenvolgende TEXT-records. Standaardwaarde: Geen, die betrekking heeft op `\r`en `\r\n\n`
`wholeText` Typ: `Boolean` Of u een bestand als één record wilt lezen. Standaardwaarde: `false`

`ORC` Opties

Optie
`mergeSchema` Typ: `Boolean` Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaardwaarde: `false`

Cloudspecifieke opties

Auto Loader biedt een aantal opties voor het configureren van de cloudinfrastructuur.

AWS-specifieke opties
Azure-specifieke opties
Google-specifieke opties

AWS-specifieke opties

Geef alleen de volgende opties op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma de meldingsservices voor u instelt:

Optie
`cloudFiles.region` Typ: `String` De regio waar de bron-S3-bucket zich bevindt en waar de AWS SNS- en SQS-services worden gemaakt. Standaard: de regio van het EC2-exemplaar.

cloudFiles.restrictNotificationSetupToSameAWSAccountId
Typ: Boolean
Alleen evenementmeldingen van AWS S3-buckets toestaan in hetzelfde account als hetzelfde SNS-onderwerp. Indien waar, accepteert Auto Loader alleen gebeurtenismeldingen van AWS S3-buckets in hetzelfde account als het SNS-onderwerp.
Wanneer false, het toegangsbeleid geen instellingen voor buckets voor meerdere accounts en SNS-onderwerpen beperkt. Dit is handig wanneer het SNS-onderwerp en het bucketpad zijn gekoppeld aan verschillende accounts.
Beschikbaar in Databricks Runtime 17.2 en hoger.
Standaardwaarde: false

Geef alleen de volgende optie op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma een wachtrij gebruikt die u al hebt ingesteld:

Optie
`cloudFiles.queueUrl` Typ: `String` De URL van de SQS-wachtrij. Indien opgegeven, gebruikt Auto Loader rechtstreeks gebeurtenissen uit deze wachtrij in plaats van eigen AWS SNS- en SQS-services in te stellen. Standaard: Geen

AWS-authenticatieopties

Geef de volgende verificatieoptie op om een Databricks-servicereferentie te gebruiken:

Optie
`databricks.serviceCredential` Typ: `String` De naam van uw Databricks-servicereferentie. Beschikbaar in Databricks Runtime 16.1 en hoger. Standaard: Geen

Wanneer databricks-servicereferenties of IAM-rollen niet beschikbaar zijn, kunt u in plaats daarvan de volgende verificatieopties opgeven:

Opties
`cloudFiles.awsAccessKey` Typ: `String` De AWS-toegangssleutel-id voor de gebruiker. Moet worden voorzien van `cloudFiles.awsSecretKey`. Standaard: Geen
`cloudFiles.awsSecretKey` Typ: `String` De GEHEIME AWS-toegangssleutel voor de gebruiker. Moet worden voorzien van `cloudFiles.awsAccessKey`. Standaard: Geen
`cloudFiles.roleArn` Typ: `String` Het ARN van een IAM-rol dat moet worden aangenomen, indien nodig. De rol kan worden aangenomen vanuit het instance-profiel van uw cluster of door referenties op te geven met `cloudFiles.awsAccessKey` en `cloudFiles.awsSecretKey`. Standaard: Geen
`cloudFiles.roleExternalId` Typ: `String` Een identificator die moet worden opgegeven bij het aannemen van een rol met behulp van `cloudFiles.roleArn`. Standaard: Geen
`cloudFiles.roleSessionName` Typ: `String` Een optionele sessienaam die moet worden gebruikt terwijl een rol wordt aangenomen met behulp van `cloudFiles.roleArn`. Standaard: Geen
`cloudFiles.stsEndpoint` Typ: `String` Een optioneel eindpunt om toegang te krijgen tot AWS STS bij het aannemen van een rol met behulp van `cloudFiles.roleArn`. Standaard: Geen

Azure-specifieke opties

U moet waarden opgeven voor alle volgende opties als u opgeeft cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma de meldingsservices voor u instelt:

Opties
`cloudFiles.resourceGroup` Typ: `String` De Azure-resourcegroep waaronder het opslagaccount wordt gemaakt. Standaard: Geen
`cloudFiles.subscriptionId` Typ: `String` De Azure-abonnements-id waaronder de resourcegroep wordt gemaakt. Standaard: Geen
`databricks.serviceCredential` Typ: `String` De naam van uw Databricks-servicereferentie. Beschikbaar in Databricks Runtime 16.1 en hoger. Standaard: Geen

Als er geen Databricks-servicereferentie beschikbaar is, kunt u in plaats daarvan de volgende verificatieopties opgeven:

Opties
`cloudFiles.clientId` Typ: `String` De client-id of de toepassings-id van de serviceprincipal. Standaard: Geen
`cloudFiles.clientSecret` Typ: `String` Het clientgeheim van de service-principal. Standaard: Geen
`cloudFiles.connectionString` Typ: `String` De verbindingsreeks voor het opslagaccount, gebaseerd op de toegangssleutel van het account of de SAS (Shared Access Signature). Standaard: Geen
`cloudFiles.tenantId` Typ: `String` De Azure-tenant-ID waaronder de service-principal wordt gemaakt. Standaard: Geen

Belangrijk

Automatische inrichting van meldingen is beschikbaar in de Azure China- en Government-regio's met Databricks Runtime 9.1 en hoger. U moet een queueName opgeven om de Auto Loader te gebruiken met bestandsmeldingen in deze regio's voor oudere versies van Databricks Runtime.

Geef alleen de volgende optie op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma een wachtrij gebruikt die u al hebt ingesteld:

Optie

Optie
`cloudFiles.queueName` Typ: `String` De naam van de Azure-wachtrij. Indien opgegeven, ontvangt de bron van cloudbestanden rechtstreeks gebeurtenissen uit deze wachtrij in plaats van zijn eigen Azure Event Grid- en Queue Storage-services in te richten. In dat geval zijn voor uw `databricks.serviceCredential` of `cloudFiles.connectionString` alleen leesrechten voor de wachtrij vereist. Standaard: Geen

cloudFiles.queueName
Typ: String
De naam van de Azure-wachtrij. Indien opgegeven, ontvangt de bron van cloudbestanden rechtstreeks gebeurtenissen uit deze wachtrij in plaats van zijn eigen Azure Event Grid- en Queue Storage-services in te richten. In dat geval zijn voor uw databricks.serviceCredential of cloudFiles.connectionString alleen leesrechten voor de wachtrij vereist.
Standaard: Geen

Google-specifieke opties

Auto Loader kan meldingsservices automatisch voor u instellen door gebruik te maken van Databricks-servicereferenties. Voor het serviceaccount dat is gemaakt met de Databricks-servicereferentie, zijn de machtigingen vereist die zijn gespecificeerd in Configureer Auto Loader streams in de bestandsmeldingsmodus.

Opties
`cloudFiles.projectId` Typ: `String` De id van het project waarin de GCS-bucket zich bevindt. Het Google Cloud Pub/Sub-abonnement wordt ook in dit project gemaakt. Standaard: Geen
`databricks.serviceCredential` Typ: `String` De naam van uw Databricks-servicereferentie. Beschikbaar in Databricks Runtime 16.1 en hoger. Standaard: Geen

Als er geen Databricks-servicereferentie beschikbaar is, kunt u Google-serviceaccounts rechtstreeks gebruiken. U kunt uw cluster configureren om aan te nemen dat een service-account wordt gebruikt door de installatie van de Google-service te volgen, of door de volgende authenticatieopties direct op te geven:

Opties
`cloudFiles.client` Typ: `String` De client-id van het Google-serviceaccount. Standaard: Geen
`cloudFiles.clientEmail` Typ: `String` Het e-mailadres van het Google-serviceaccount. Standaard: Geen
`cloudFiles.privateKey` Typ: `String` De persoonlijke sleutel die wordt gegenereerd voor het Google-serviceaccount. Standaard: Geen
`cloudFiles.privateKeyId` Typ: `String` De id van de persoonlijke sleutel die wordt gegenereerd voor het Google-serviceaccount. Standaard: Geen

Geef alleen de volgende optie op als u kiest cloudFiles.useNotifications = true en u wilt dat automatisch laadprogramma een wachtrij gebruikt die u al hebt ingesteld:

Optie
`cloudFiles.subscription` Typ: `String` De naam van het Google Cloud Pub/Sub-abonnement. Indien opgegeven, gebruikt de bron van cloudbestanden gebeurtenissen uit deze wachtrij in plaats van het instellen van eigen GCS-meldingen en Google Cloud Pub/Sub-diensten. Standaard: Geen

Feedback

Is deze pagina nuttig?

Last updated on 2025-12-30

Delen via

Opties voor automatisch laden

Algemene opties voor automatisch laden

Opties voor adreslijstvermelding

Opties voor bestandsmeldingen

Opties voor bestandsindeling

Algemene opties

JSON Opties

CSV Opties

XML Opties

PARQUET Opties

AVRO Opties

BINARYFILE Opties

TEXT Opties

ORC Opties

Cloudspecifieke opties

AWS-specifieke opties

AWS-authenticatieopties

Azure-specifieke opties

Google-specifieke opties

Feedback

Aanvullende resources

`JSON` Opties

`CSV` Opties

`XML` Opties

`PARQUET` Opties

`AVRO` Opties

`BINARYFILE` Opties

`TEXT` Opties

`ORC` Opties