Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Van toepassing op:
Databricks SQL
Databricks Runtime
Laadt gegevens van een bestandslocatie in een Delta-tabel. Dit is een herhaalbare en idempotente bewerking - bestanden op de bronlocatie die al zijn geladen, worden overgeslagen. Dit geldt zelfs als de bestanden zijn gewijzigd sinds ze zijn geladen.
Zie Algemene patronen voor het laden van gegevens met behulp van COPY INTOvoor voorbeelden.
Syntaxis
COPY INTO target_table [ BY POSITION | ( col_name [ , <col_name> ... ] ) ]
FROM { source_clause |
( SELECT expression_list FROM source_clause ) }
FILEFORMAT = data_source
[ VALIDATE [ ALL | num_rows ROWS ] ]
[ FILES = ( file_name [, ...] ) | PATTERN = glob_pattern ]
[ FORMAT_OPTIONS ( { data_source_reader_option = value } [, ...] ) ]
[ COPY_OPTIONS ( { copy_option = value } [, ...] ) ]
source_clause
source [ WITH ( [ CREDENTIAL { credential_name |
(temporary_credential_options) } ]
[ ENCRYPTION (encryption_options) ] ) ]
Parameterwaarden
target_tableIdentificeert een bestaande Delta-tabel. De target_table mag geen tijdelijke specificatie of optiesspecificatie bevatten.
Als de tabelnaam wordt opgegeven in de vorm van een locatie, zoals:
delta.`/path/to/table`, kan Unity Catalog de toegang beheren tot de locaties waarnaar wordt geschreven. U kunt schrijven naar een externe locatie door:- De locatie definiëren als een externe locatie en
WRITE FILESmachtigingen hebben voor die externe locatie. - Beschikken over
WRITE FILESmachtigingen voor een benoemde opslagreferentie die toestemming geven om naar een locatie te schrijven met behulp van:COPY INTO delta.`/some/location` WITH (CREDENTIAL <named-credential>)
Zie Verbinding maken met cloudobjectopslag met behulp van Unity Catalog voor meer informatie.
- De locatie definiëren als een externe locatie en
BY POSITION| ( col_name [ , <col_name> ... ] )Bronkolommen worden gekoppeld aan kolommen van de doeltabel op basis van hun ordinale positie. Het type casting van de overeenkomende kolommen wordt automatisch uitgevoerd.
Deze parameter wordt alleen ondersteund voor de csv-bestandsindeling zonder koptekst. U moet
FILEFORMAT = CSVspecificeren.FORMAT_OPTIONSmoet ook worden ingesteld op("headers" = "false")(FORMAT_OPTIONS ("headers" = "false")is de standaardinstelling).Syntaxisoptie 1:
BY POSITION- Koppelt automatisch bronkolommen met de kolommen van de doeltabel op basis van volgorde.
- Standaard naamvergelijking wordt niet gebruikt voor overeenkoming.
-
IDENTITYkolommen enGENERATEDkolommen van de doeltabel worden genegeerd wanneer deze overeenkomen met de bronkolommen. - Als het aantal bronkolommen niet gelijk is aan de gefilterde doeltabelkolommen, genereert
COPY INTOeen fout.
Syntaxisoptie 2:
( col_name [ , <col_name> ... ] )- Stemt bronkolommen af op de opgegeven doeltabelkolommen volgens hun relatieve volgorde, door gebruik te maken van een lijst met kolomnamen van de doeltabel tussen haakjes, gescheiden door komma's.
- De oorspronkelijke volgorde van de tabelkolommen en kolomnamen wordt niet gebruikt voor het matchen.
-
IDENTITYkolommen enGENERATEDkolommen kunnen niet worden opgegeven in de lijst met kolomnamen, anders wordt er een fout gegenereerdCOPY INTO. - De opgegeven kolommen kunnen niet worden gedupliceerd.
- Als het aantal bronkolommen niet gelijk is aan de opgegeven tabelkolommen,
COPY INTOveroorzaakt een fout. - Voor de kolommen die niet zijn opgegeven in de lijst met kolomnamen, wijst
COPY INTOstandaardwaarden toe, indien van toepassing, en wijst andersNULLtoe. Als een kolom niet nullbaar is, genereertCOPY INTOeen fout.
- Koppelt automatisch bronkolommen met de kolommen van de doeltabel op basis van volgorde.
sourceDe bestandslocatie waaruit de gegevens moeten worden geladen. Bestanden op deze locatie moeten de indeling hebben die is opgegeven in
FILEFORMAT. De locatie wordt opgegeven in de vorm van een URI.Toegang tot de bronlocatie kan worden geboden via:
credential_nameOptionele naam van de referentie die wordt gebruikt voor toegang tot of schrijven naar de opslaglocatie. U gebruikt deze referentie alleen als de bestandslocatie niet is opgenomen in een externe locatie. Zie credential_name.
Inline tijdelijke inloggegevens.
- De bronlocatie definiëren als een externe locatie en
READ FILESmachtigingen hebben voor de externe locatie via Unity Catalog. - Een benoemde opslagreferentie gebruiken met
READ FILESpermissies die autorisatie bieden om via Unity Catalog vanaf een locatie te lezen.
U hoeft geen inline- of benoemde referenties op te geven als het pad al als een externe locatie is gedefinieerd en u toestemming hebt om deze te gebruiken. Zie Overzicht van externe locaties voor meer informatie.
Notitie
Als het pad naar het bronbestand een hoofdpad is, voegt u bijvoorbeeld een slash (
/) toe aan het einde van het bestandspads3://my-bucket/.Geaccepteerde referentieopties zijn:
-
AZURE_SAS_TOKENvoor ADLS en Azure Blob Storage -
AWS_ACCESS_KEY,AWS_SECRET_KEYenAWS_SESSION_TOKENvoor AWS S3
Geaccepteerde versleutelingsopties zijn:
-
TYPE = 'AWS_SSE_C'enMASTER_KEYvoor AWS S3
Zie Gegevens laden met COPY INTO met tijdelijke referenties.
SELECT expression_listSelecteert de opgegeven kolommen of expressies uit de brongegevens voordat u naar de Delta-tabel kopieert. De expressies kunnen alles zijn wat u gebruikt met
SELECTinstructies, waaronder vensterbewerkingen. U kunt aggregatie-expressies alleen gebruiken voor globale aggregaten; u kunt geenGROUP BYop kolommen toepassen met deze syntaxis.FILEFORMAT = data_sourceDe indeling van de bronbestanden die moeten worden geladen. Een van
CSV,JSON,AVRO,ORC,PARQUET,TEXT,BINARYFILE.VALIDATEVan toepassing op:
Databricks SQL
Databricks Runtime 10.4 LTS en hogerDe gegevens die in een tabel moeten worden geladen, worden gevalideerd, maar niet naar de tabel geschreven. Deze validaties zijn onder andere:
- Of de gegevens kunnen worden verwerkt.
- Of het schema overeenkomt met dat van de tabel of dat het schema moet worden ontwikkeld.
- Of aan alle nulliteits- en controlevoorwaarden wordt voldaan.
De standaardinstelling is om alle gegevens te valideren die moeten worden geladen. U kunt een aantal rijen opgeven dat moet worden gevalideerd met het
ROWStrefwoord, zoalsVALIDATE 15 ROWS. DeCOPY INTOinstructie retourneert een voorbeeld van de gegevens van 50 rijen of minder wanneer een aantal minder dan 50 wordt gebruikt met hetROWStrefwoord).FILESEen lijst met bestandsnamen die moeten worden geladen, met een limiet van 1000 bestanden. Kan niet worden opgegeven met
PATTERN.PATTERNEen glob-patroon dat de bestanden identificeert die moeten worden geladen vanuit de bronmap. Kan niet worden opgegeven met
FILES.Patroon Beschrijving ?Komt overeen met één teken *Komt overeen met nul of meer tekens [abc]Komt overeen met één teken uit de tekenset {a,b,c}. [a-z]Komt overeen met één teken uit het tekenbereik {a... z}. [^a]Komt overeen met één teken dat niet afkomstig is uit de tekenset of het bereik {a}. Houd er rekening mee dat het ^teken direct rechts van de openende haak moet staan.{ab,cd}Een string die overeenkomt met een element uit de verzameling {ab, cd}. {ab,c{de, fh}}Komt overeen met een tekenreeks in de verzameling van tekenreeksen {ab, cde, cfh}. FORMAT_OPTIONSOpties die moeten worden doorgegeven aan de Apache Spark-gegevensbronlezer voor de opgegeven indeling. Zie Indelingsopties voor elke bestandsindeling.
COPY_OPTIONSOpties voor het beheren van de bewerking van de
COPY INTOopdracht.-
force: Booleaanse waarde, standaardfalse. Als deze optie is ingesteldtrue, is idempotentie uitgeschakeld en worden bestanden geladen, ongeacht of ze eerder zijn geladen. -
mergeSchema: Booleaanse waarde, standaardfalse. Als dit is ingesteld optrue, kan het schema worden ontwikkeld op basis van de binnenkomende gegevens.
-
Tegelijkertijd COPY INTO aanroepen
COPY INTO ondersteunt gelijktijdige aanroepen voor dezelfde tabel. Zolang COPY INTO gelijktijdig wordt aangeroepen op afzonderlijke sets van invoerbestanden, moet elke aanroep uiteindelijk succesvol zijn, anders krijgt u een transactieconflict.
COPY INTO mag niet gelijktijdig worden aangeroepen om de prestaties te verbeteren; een enkele COPY INTO opdracht met meerdere bestanden presteert doorgaans beter dan het uitvoeren van gelijktijdige COPY INTO opdrachten met elk één bestand.
COPY INTO kan gelijktijdig worden aangeroepen wanneer:
- Meerdere gegevensproducenten hebben geen eenvoudige manier om te coördineren en kunnen niet één aanroep maken.
- Wanneer een zeer grote map kan worden opgenomen, submap voor submap. Wanneer u directory's met een zeer groot aantal bestanden opneemt, raadt Databricks het gebruik van Auto Loader indien mogelijk aan.
Metagegevens van access-bestanden
Zie Bestandsmetagegevenskolomvoor informatie over het benaderen van metagegevens voor bestandsgebaseerde gegevensbronnen.
Opmaakopties
- Algemene opties
-
JSONOpties -
CSVOpties -
XMLOpties -
PARQUETOpties -
AVROOpties -
BINARYFILEOpties -
TEXTOpties -
ORCOpties
Algemene opties
De volgende opties zijn van toepassing op alle bestandsindelingen.
| Optie |
|---|
ignoreCorruptFilesTyp: BooleanOf beschadigde bestanden moeten worden genegeerd. Als dit waar is, worden de Spark-taken nog steeds uitgevoerd wanneer beschadigde bestanden worden aangetroffen en wordt de gelezen inhoud nog steeds teruggegeven. Waarneembaar als numSkippedCorruptFiles in deoperationMetrics kolom van de geschiedenis van Delta Lake. Beschikbaar in Databricks Runtime 11.3 LTS en hoger.Standaardwaarde: false |
ignoreMissingFilesTyp: BooleanOf ontbrekende bestanden moeten worden genegeerd. Als dit waar is, zullen de Spark-taken doorgaan wanneer er ontbrekende bestanden worden aangetroffen en zal de gelezen inhoud nog steeds worden geretourneerd. Beschikbaar in Databricks Runtime 11.3 LTS en hoger. Standaardwaarde: false voor automatisch laden, true voor COPY INTO (verouderd) |
modifiedAfterType: Timestamp Stringbijvoorbeeld 2021-01-01 00:00:00.000000 UTC+0Een optionele tijdstempel als filter om alleen bestanden op te nemen die een wijzigingstijdstempel hebben na de opgegeven tijdstempel. Standaardwaarde: Geen |
modifiedBeforeType: Timestamp Stringbijvoorbeeld 2021-01-01 00:00:00.000000 UTC+0Een optionele tijdstempel als filter om alleen bestanden op te nemen met een wijzigingstijdstempel vóór de opgegeven tijdstempel. Standaardwaarde: Geen |
pathGlobFilter of fileNamePatternTyp: StringEen mogelijk globpatroon voor het selecteren van bestanden. Gelijk aan PATTERN in COPY INTO (verouderd).
fileNamePattern kan worden gebruikt in read_files.Standaardwaarde: Geen |
recursiveFileLookupTyp: BooleanMet deze optie wordt gezocht in geneste mappen, zelfs als hun namen geen partitienamenschema volgen, zoals bij date=2019-07-01. Standaardwaarde: false |
JSON Opties
| Optie |
|---|
allowBackslashEscapingAnyCharacterTyp: BooleanOf backslashes een volgend teken kunnen laten ontsnappen. Als niet ingeschakeld, kunnen alleen tekens die expliciet door de JSON-specificatie worden vermeld, geëscapet worden. Standaardwaarde: false |
allowCommentsTyp: BooleanOf het gebruik van opmerkingen in java-, C- en C++-stijl ( '/', '*'en '//' variëteiten) binnen geparseerde inhoud al dan niet is toegestaan.Standaardwaarde: false |
allowNonNumericNumbersTyp: BooleanHiermee wordt aangegeven of de reeks niet-nummer tokens ( NaN) als geldige drijvende getalwaarden kunnen worden gebruikt.Standaardwaarde: true |
allowNumericLeadingZerosTyp: BooleanOf u wilt toestaan dat integrale getallen beginnen met extra (negeerbare) nullen (bijvoorbeeld 000001).Standaardwaarde: false |
allowSingleQuotesTyp: BooleanHiermee wordt aangegeven of het gebruik van enkele aanhalingstekens (apostrof, teken '\') moet worden toegestaan voor het aanhalen van reeksen (namen en tekenreekswaarden).Standaardwaarde: true |
allowUnquotedControlCharsTyp: BooleanOf JSON-tekenreeksen ongescapete besturingstekens mogen bevatten (ASCII-tekens met een waarde kleiner dan 32, inclusief tab- en regelinvoertekens) of niet. Standaardwaarde: false |
allowUnquotedFieldNamesTyp: BooleanOf u het gebruik van niet-geciteerde veldnamen wilt toestaan (wat is toegestaan door JavaScript, maar niet door de JSON-specificatie). Standaardwaarde: false |
badRecordsPathTyp: StringHet pad om bestanden op te slaan voor het vastleggen van de informatie over foute JSON-records. Het gebruik van de badRecordsPath optie in een gegevensbron op basis van bestanden heeft de volgende beperkingen:
Standaardwaarde: Geen |
columnNameOfCorruptRecordTyp: StringDe kolom voor het opslaan van records die misvormd zijn en niet kunnen worden geparseerd. Als de mode voor parseren is ingesteld als DROPMALFORMED, is deze kolom leeg.Standaardwaarde: _corrupt_record |
dateFormatTyp: StringDe notatie voor het parseren van datumtekenreeksen. Standaardwaarde: yyyy-MM-dd |
dropFieldIfAllNullTyp: BooleanOf kolommen van alle null-waarden of lege matrices en structs tijdens schemadeductie moeten worden genegeerd. Standaardwaarde: false |
encoding of charsetTyp: StringDe naam van de codering van de JSON-bestanden. Zie java.nio.charset.Charset voor een lijst met opties. U kunt niet gebruiken UTF-16 en UTF-32 wanneer multiline is true.Standaardwaarde: UTF-8 |
inferTimestampTyp: BooleanOf u tijdstempelreeksen wilt proberen af te leiden als een TimestampType. Wanneer ingesteld optruekan het afleiden van het schema merkbaar langer duren. U moet cloudFiles.inferColumnTypes inschakelen om met de Auto Loader te gebruiken.Standaardwaarde: false |
lineSepTyp: StringEen string tussen twee opeenvolgende JSON-records. Standaardwaarde: Geen, wat betrekking heeft op \r, \r\n en \n |
localeTyp: StringEen java.util.Locale-id. Beïnvloedt de standaarddatum, tijdstempel en decimale parsering binnen de JSON.Standaardwaarde: US |
modeTyp: StringParsermodus voor het omgaan met verkeerd gevormde records. Een van PERMISSIVE, DROPMALFORMEDof FAILFAST.Standaardwaarde: PERMISSIVE |
multiLineTyp: BooleanOf de JSON-records meerdere regels omvatten. Standaardwaarde: false |
prefersDecimalTyp: BooleanProbeert tekenreeksen af te leiden als DecimalType in plaats van float- of double-type, indien mogelijk. U moet ook schemadeductie gebruiken, bijvoorbeeld door deze in te schakelen.inferSchema of cloudFiles.inferColumnTypes gebruiken met een automatische loader.Standaardwaarde: false |
primitivesAsStringTyp: BooleanOf primitieve typen zoals getallen en booleaanse waarden als StringType moeten worden afgeleid.Standaardwaarde: false |
readerCaseSensitiveTyp: BooleanHiermee specificeert u de hoofdlettergevoeligheid wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Beschikbaar in Databricks Runtime13.3 en hoger. Standaardwaarde: true |
rescuedDataColumnTyp: StringOf u alle gegevens wilt verzamelen die niet kunnen worden geparseerd als gevolg van een niet-overeenkomend gegevenstype of niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg Wat is de kolom met geredde gegevens?. COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.Standaardwaarde: Geen |
singleVariantColumnTyp: StringOf u het hele JSON-document wilt opnemen, geparseerd in één variantkolom met de opgegeven tekenreeks als de naam van de kolom. Als deze optie is uitgeschakeld, worden de JSON-velden opgenomen in hun eigen kolommen. Standaardwaarde: Geen |
timestampFormatTyp: StringHet formaat voor het parseren van tijdstempelreeksen. Standaardwaarde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZoneTyp: StringDe java.time.ZoneId te gebruiken bij het parseren van tijdstempels en datums.Standaardwaarde: Geen |
CSV Opties
| Optie |
|---|
badRecordsPathTyp: StringHet pad voor het opslaan van bestanden met informatie over ongeldige CSV-records. Standaardwaarde: Geen |
charToEscapeQuoteEscapingTyp: CharHet teken dat wordt gebruikt om te escapen aan het teken dat wordt gebruikt voor het ontsnappen van aanhalingstekens. Bijvoorbeeld voor de volgende record: [ " a\\", b ]
Standaardwaarde: '\0' |
columnNameOfCorruptRecordOndersteund voor automatisch laden. Niet ondersteund voor COPY INTO (verouderd).Typ: StringDe kolom voor het opslaan van records die misvormd zijn en niet kunnen worden geparseerd. Als de mode voor parseren is ingesteld als DROPMALFORMED, is deze kolom leeg.Standaardwaarde: _corrupt_record |
commentTyp: CharHiermee definieert u het teken dat een regelcommentaar aangeeft wanneer deze wordt gevonden aan het begin van een tekstregel. Hiermee '\0' schakelt u het overslaan van opmerkingen uit.Standaardwaarde: '\u0000' |
dateFormatTyp: StringDe notatie voor het parseren van datumtekenreeksen. Standaardwaarde: yyyy-MM-dd |
emptyValueTyp: StringTekenreeksweergave van een lege waarde. Standaardwaarde: "" |
encoding of charsetTyp: StringDe naam van de codering van de CSV-bestanden. Zie java.nio.charset.Charset voor de lijst met opties.
UTF-16 en UTF-32 kunnen niet worden gebruikt wanneer multilinetrue.Standaardwaarde: UTF-8 |
enforceSchemaTyp: BooleanOf u het opgegeven of afgeleid schema geforceerd wilt toepassen op de CSV-bestanden. Als de optie is ingeschakeld, worden headers van CSV-bestanden genegeerd. Deze optie wordt standaard genegeerd wanneer u AutoLoader gebruikt om gegevens te redden en schemaontwikkeling mogelijk te maken. Standaardwaarde: true |
escapeTyp: CharHet escape-teken dat moet worden gebruikt bij het parseren van de gegevens. Standaardwaarde: '\' |
headerTyp: BooleanOf de CSV-bestanden een koptekst bevatten. Auto Loader gaat ervan uit dat bestanden headers hebben bij het uitstellen van het schema. Standaardwaarde: false |
ignoreLeadingWhiteSpaceTyp: BooleanOf u voorloopspaties voor elke geparseerde waarde wilt negeren. Standaardwaarde: false |
ignoreTrailingWhiteSpaceTyp: BooleanHiermee wordt aangegeven of u volgspaties voor elke geparseerde waarde wilt negeren. Standaardwaarde: false |
inferSchemaTyp: BooleanOf u de gegevenstypen van de geparseerde CSV-records wilt afleiden of dat u aanneemt dat alle kolommen van type StringTypezijn. Vereist een extra doorgang over de gegevens indien ingesteld op true. Gebruik in plaats daarvan cloudFiles.inferColumnTypes voor Autoloader.Standaardwaarde: false |
lineSepTyp: StringEen tekst tussen twee opeenvolgende CSV-records. Standaardwaarde: Geen, wat betrekking heeft op \r, \r\n en \n |
localeTyp: StringEen java.util.Locale-id. Beïnvloedt de standaarddatum, tijdstempel en decimale parsering in het CSV-bestand.Standaardwaarde: US |
maxCharsPerColumnTyp: IntMaximum aantal tekens dat wordt verwacht van een waarde om te parseren. Kan worden gebruikt om geheugenfouten te voorkomen. Standaardwaarde is -1, wat onbeperkt betekent.Standaardwaarde: -1 |
maxColumnsTyp: IntDe vaste limiet van het aantal kolommen dat een record kan hebben. Standaardwaarde: 20480 |
mergeSchemaTyp: BooleanOf u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaard ingeschakeld voor Auto Loader bij het afleiden van het schema. Standaardwaarde: false |
modeTyp: StringParsermodus voor het omgaan met verkeerd gevormde records. Eén van 'PERMISSIVE','DROPMALFORMED', en 'FAILFAST'.Standaardwaarde: PERMISSIVE |
multiLineTyp: BooleanOf de CSV-records meerdere regels omvatten. Standaardwaarde: false |
nanValueTyp: StringDe tekenreeksweergave van een niet-een-getalwaarde bij het parseren van FloatType en DoubleType kolommen.Standaardwaarde: "NaN" |
negativeInfTyp: StringDe tekenreeksweergave van negatief oneindig bij het parseren van de kolommen FloatType of DoubleType.Standaardwaarde: "-Inf" |
nullValueTyp: StringTekenreeksweergave van een null-waarde. Standaardwaarde: "" |
parserCaseSensitive (afgeschaft)Typ: BooleanTijdens het lezen van bestanden wordt overwogen of kolommen in de koptekst op hoofdlettergevoelige wijze moeten worden uitgelijnd met het schema. Dit is true standaard voor autolaadprogramma's. Kolommen die in lettergrootte verschillen, worden in de rescuedDataColumn hersteld indien ingeschakeld. Deze optie is afgeschaft ten gunste van readerCaseSensitive.Standaardwaarde: false |
positiveInfTyp: StringDe tekenreeksweergave van positieve oneindigheid bij het parseren van FloatType of DoubleType kolommen.Standaardwaarde: "Inf" |
preferDateTyp: BooleanProbeert tekenreeksen te interpreteren als data in plaats van tijdstempels, wanneer mogelijk. U moet ook schemadeductie gebruiken, ofwel door inferSchema in te schakelen of een andere methode te gebruiken.cloudFiles.inferColumnTypes met Auto Loader.Standaardwaarde: true |
quoteTyp: CharHet karakter dat wordt gebruikt om waarden te escapen waarbij het veldscheidingsteken in de waarde voorkomt. Standaardwaarde: " |
readerCaseSensitiveTyp: BooleanHiermee specificeert u de hoofdlettergevoeligheid wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier.Standaardwaarde: true |
rescuedDataColumnTyp: StringOf u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Voor meer informatie, raadpleeg Wat is de kolom met geredde gegevens?. COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.Standaardwaarde: Geen |
sep of delimiterTyp: StringDe scheidingstekenreeks tussen kolommen. Standaardwaarde: "," |
skipRowsTyp: IntHet aantal rijen vanaf het begin van het CSV-bestand dat moet worden genegeerd (inclusief opmerkingen en lege rijen). Als header waar is, wordt de kop de eerste niet-overgeslagen en niet-becommentarieerde rij.Standaardwaarde: 0 |
timestampFormatTyp: StringHet formaat voor het parseren van tijdstempelreeksen. Standaardwaarde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZoneTyp: StringDe java.time.ZoneId te gebruiken bij het parseren van tijdstempels en datums.Standaardwaarde: Geen |
unescapedQuoteHandlingTyp: StringDe aanpak voor het omgaan met niet-ontsloten aanhalingstekens. Toegestane opties:
Standaardwaarde: STOP_AT_DELIMITER |
XML Opties
| Optie | Beschrijving | Omvang |
|---|---|---|
rowTag |
De rijtag van de XML-bestanden die moeten worden behandeld als een rij. In het voorbeeld-XML <books> <book><book>...<books>is bookde juiste waarde. Dit is een vereiste optie. |
lezen |
samplingRatio |
Definieert een fractie van rijen die worden gebruikt voor schemadeductie. Ingebouwde XML-functies negeren deze optie. Standaard: 1.0. |
lezen |
excludeAttribute |
Of kenmerken in elementen moeten worden uitgesloten. Standaard: false. |
lezen |
mode |
Modus voor het verwerken van beschadigde records tijdens het parseren.PERMISSIVE: Voor beschadigde records plaatst u de ongeldige tekenreeks in een veld dat is geconfigureerd door columnNameOfCorruptRecorden stelt u onjuiste velden in op null. Als u beschadigde records wilt behouden, kunt u een string typeveld met de naam columnNameOfCorruptRecord instellen in een door de gebruiker gedefinieerd schema. Als een schema het veld niet heeft, worden beschadigde records verwijderd tijdens het parseren. Wanneer een schema wordt afgeleid, voegt de parser impliciet een columnNameOfCorruptRecord-veld toe in een uitvoerschema.DROPMALFORMED: Hiermee worden beschadigde records genegeerd. Deze modus wordt niet ondersteund voor ingebouwde XML-functies.FAILFAST: Genereert een uitzondering wanneer de parser tegenkomt corrupte records. |
lezen |
inferSchema |
Wanneer true, wordt geprobeerd om een geschikt type af te leiden voor elke resulterende DataFrame-kolom. Als false, zijn alle resulterende kolommen van string type. Standaard:true. Ingebouwde XML-functies negeren deze optie. |
lezen |
columnNameOfCorruptRecord |
Hiermee kunt u de naam van het nieuwe veld wijzigen dat een ongeldige tekenreeks bevat die is gemaakt doorPERMISSIVE modus. Standaard: spark.sql.columnNameOfCorruptRecord. |
lezen |
attributePrefix |
Het voorvoegsel voor kenmerken om kenmerken te onderscheiden van elementen. Dit is het voorvoegsel voor veldnamen. Standaard is _. Kan leeg zijn voor het lezen van XML, maar niet voor schrijven. |
lezen, schrijven |
valueTag |
De tag die wordt gebruikt voor de karaktergegevens binnen elementen die ook attributen of kindelementen bevatten. Gebruiker kan het valueTag veld in het schema opgeven of het wordt automatisch toegevoegd tijdens schemadeductie wanneer tekengegevens aanwezig zijn in elementen met andere elementen of kenmerken. Standaardwaarde: _VALUE |
lezen, schrijven |
encoding |
Voor het lezen decodeert u de XML-bestanden op basis van het opgegeven coderingstype. Voor schrijven geeft u codering (charset) van opgeslagen XML-bestanden op. Ingebouwde XML-functies negeren deze optie. Standaard: UTF-8. |
lezen, schrijven |
ignoreSurroundingSpaces |
Hiermee definieert u of witruimtes rondom waarden tijdens het lezen moeten worden overgeslagen. Standaard: true. Gegevens die alleen uit witruimte bestaan worden genegeerd. |
lezen |
rowValidationXSDPath |
Pad naar een optioneel XSD-bestand dat wordt gebruikt om de XML voor elke rij afzonderlijk te valideren. Rijen die niet valideren, worden behandeld als parsefouten zoals hierboven. De XSD heeft verder geen invloed op het verstrekte of afgeleide schema. | lezen |
ignoreNamespace |
Als true wordt toegepast, worden de voorvoegsels van naamruimten op XML-elementen en -kenmerken genegeerd. Tags <abc:author> en <def:author>, bijvoorbeeld, worden behandeld alsof ze alleen <author>zijn. Naamruimten kunnen niet worden genegeerd op het rowTag element, alleen de leesbare kinderen. XML-parsering is niet naamruimtebewust, zelfs niet als false. Standaard: false. |
lezen |
timestampFormat |
Aangepaste tekenreeks voor tijdstempelnotatie die de datum/tijd-patroonnotatie volgt. Dit is van toepassing op timestamp het type. Standaard: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. |
lezen, schrijven |
timestampNTZFormat |
Aangepaste opmaakreeks voor tijdstempel zonder tijdzone volgens het datetime-patroon. Dit is van toepassing op het type TimestampNTZType. Standaard:yyyy-MM-dd'T'HH:mm:ss[.SSS] |
lezen, schrijven |
dateFormat |
Aangepaste datumnotatiestring die het datum/tijd-patroon volgt. Dit is van toepassing op het datumtype. Standaard: yyyy-MM-dd. |
lezen, schrijven |
locale |
Hiermee stelt u een locale in als taaltag in IETF BCP 47-indeling. Wordt bijvoorbeeld locale gebruikt tijdens het parseren van datums en tijdstempels. Standaard: en-US. |
lezen |
rootTag |
Hoofdtag van de XML-bestanden. Bijvoorbeeld, in <books> <book><book>...</books> is de juiste waarde books. U kunt basiskenmerken opnemen door een waarde op te geven zoals books foo="bar". Standaard: ROWS. |
schrijven |
declaration |
Inhoud van XML-declaratie die moet worden geschreven aan het begin van elk XML-uitvoerbestand, vóór de rootTag. Bijvoorbeeld, een waarde van foo veroorzaakt dat <?xml foo?> wordt geschreven. Instellen op een lege tekenreeks om te onderdrukken. Standaardwaarde: version="1.0"encoding="UTF-8" standalone="yes". |
schrijven |
arrayElementName |
De naam van het XML-element dat elk element van een kolom met matrixwaarden omsluit bij het schrijven. Standaard: item. |
schrijven |
nullValue |
Hiermee stelt u de tekenreeksweergave van een null-waarde in. Standaard: tekenreeks null. Als dit het geval is null, schrijft de parser geen kenmerken en elementen voor velden. |
lezen, schrijven |
compression |
Compressiecode die moet worden gebruikt bij het opslaan in een bestand. Dit kan een van de bekende niet-hoofdlettergevoelige verkorte namen zijn (none, bzip2, gziplz4en snappydeflate). Ingebouwde XML-functies negeren deze optie. Standaard: none. |
schrijven |
validateName |
Als waar, wordt er een fout weergegeven bij het mislukken van de validatie van XML-elementnamen. SQL-veldnamen kunnen bijvoorbeeld spaties bevatten, maar XML-elementnamen kunnen dat niet. Standaard:true. |
schrijven |
readerCaseSensitive |
Hiermee geeft u het hoofdlettergevoeligheidsgedrag op wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier. Standaard: true. |
lezen |
rescuedDataColumn |
Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege een niet-overeenkomend gegevenstype en niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Voor meer informatie, zie Wat is de kolom met geredde gegevens?.COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.Standaard: Geen. |
lezen |
singleVariantColumn |
Hiermee geeft u de naam van de kolom met één variant op. Als deze optie is opgegeven voor lezen, parseert u de hele XML-record in één variantkolom met de opgegeven optietekenreekswaarde als de naam van de kolom. Als deze optie wordt opgegeven bij het schrijven, schrijft u de waarde van de enkelvoudige Variant-kolom naar XML-bestanden. Standaard: none. |
lezen, schrijven |
PARQUET Opties
| Optie |
|---|
datetimeRebaseModeTyp: StringHiermee regelt u de herindeling van de DATUM- en TIJDSTEMPEL-waarden tussen de Juliaanse en de proleptische Gregoriaanse kalenders. Toegestane waarden: EXCEPTION, LEGACYenCORRECTED.Standaardwaarde: LEGACY |
int96RebaseModeTyp: StringHiermee regelt u de rebasing van de INT96-tijdstempelwaarden bij Julian- en Proleptische Gregoriaanse kalenders. Toegestane waarden: EXCEPTION, LEGACYenCORRECTED.Standaardwaarde: LEGACY |
mergeSchemaTyp: BooleanOf u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaardwaarde: false |
readerCaseSensitiveTyp: BooleanHiermee specificeert u de hoofdlettergevoeligheid wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier.Standaardwaarde: true |
rescuedDataColumnTyp: StringOf u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Voor meer informatie, raadpleeg Wat is de kolom met geredde gegevens?. COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.Standaardwaarde: Geen |
AVRO Opties
| Optie |
|---|
avroSchemaTyp: StringOptioneel schema dat wordt aangeleverd door een gebruiker in Avro-formaat. Bij het lezen van Avro kan deze optie worden ingesteld op een ontwikkeld schema, dat compatibel is maar anders is met het werkelijke Avro-schema. Het deserialisatieschema is consistent met het ontwikkelde schema. Als u bijvoorbeeld een ontwikkeld schema instelt dat één extra kolom met een standaardwaarde bevat, bevat het leesresultaat ook de nieuwe kolom. Standaardwaarde: Geen |
datetimeRebaseModeTyp: StringHiermee regelt u de herindeling van de DATUM- en TIJDSTEMPEL-waarden tussen de Juliaanse en de proleptische Gregoriaanse kalenders. Toegestane waarden: EXCEPTION, LEGACYenCORRECTED.Standaardwaarde: LEGACY |
mergeSchemaTyp: BooleanOf u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. mergeSchema Avro versoepelt de gegevenstypen niet.Standaardwaarde: false |
readerCaseSensitiveTyp: BooleanHiermee specificeert u de hoofdlettergevoeligheid wanneer rescuedDataColumn is ingeschakeld. Indien waar, redt u de gegevenskolommen waarvan de namen verschillen per geval van het schema; lees anders de gegevens op een niet-hoofdlettergevoelige manier.Standaardwaarde: true |
rescuedDataColumnTyp: StringOf u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. COPY INTO (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van COPY INTO. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.Voor meer informatie, raadpleeg Wat is de kolom met geredde gegevens?. Standaardwaarde: Geen |
BINARYFILE Opties
Binaire bestanden hebben geen extra configuratieopties.
TEXT Opties
| Optie |
|---|
encodingTyp: StringDe naam van de codering van het scheidingsteken voor tekstbestandsregeldelers. Zie voor een lijst met opties java.nio.charset.Charset.De inhoud van het bestand wordt niet beïnvloed door deze optie en wordt gelezen as-is. Standaardwaarde: UTF-8 |
lineSepTyp: StringEen reeks tussen twee opeenvolgende TEKST-records. Standaardwaarde: Geen, die betrekking heeft op \ren \r\n\n |
wholeTextTyp: BooleanOf u een bestand als één record wilt lezen. Standaardwaarde: false |
ORC Opties
| Optie |
|---|
mergeSchemaTyp: BooleanOf u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaardwaarde: false |