Freigeben über


PySpark-Funktionen

Diese Seite enthält eine Liste der pySpark SQL-Funktionen, die auf Databricks verfügbar sind, mit Links zu den entsprechenden Referenzdokumentationen.

Normale Funktionen

Funktion Description
broadcast(df) Markiert einen DataFrame als klein genug, um in Broadcast-Verknüpfungen zu verwenden.
call_function(funcName, *cols) Rufen Sie eine SQL-Funktion auf.
col(col) Gibt eine Spalte basierend auf dem angegebenen Spaltennamen zurück.
column(col) Gibt eine Spalte basierend auf dem angegebenen Spaltennamen zurück.
lit(col) Erstellt eine Spalte mit einem literalen Wert.
expr(str) Analysiert die Ausdruckszeichenfolge und weist sie der entsprechenden Spalte zu.

Bedingte Funktionen

Funktion Description
coalesce(*cols) Gibt die erste Spalte zurück, die nicht NULL ist.
ifnull(col1, col2) Gibt Col2 zurück, wenn Col1 Null ist, andernfalls Col1.
nanvl(col1, col2) Gibt "Col1" zurück, wenn es sich nicht um "NaN" oder "Col2" handelt, wenn "Col1" naN ist.
nullif(col1, col2) Gibt Null zurück, wenn col1 gleich col2 ist, sonst col1.
nullifzero(col) Gibt Null zurück, wenn Spalte gleich null ist, andernfalls Spalte.
nvl(col1, col2) Gibt Col2 zurück, wenn Col1 Null ist, andernfalls Col1.
nvl2(col1, col2, col3) Gibt Spalte2 zurück, wenn Spalte1 nicht null ist, andernfalls Spalte3.
when(condition, value) Wertet eine Liste von Bedingungen aus und gibt einen von mehreren möglichen Ergebnisausdrücken zurück.
zeroifnull(col) Gibt Null zurück, wenn Spalte Null ist, oder andernfalls Spalte.

Musterabgleichsfunktionen

Funktion Description
equal_null(col1, col2) Gibt dasselbe Ergebnis wie der EQUAL(=)-Operator für Nicht-Null-Operanden zurück, gibt aber "true" zurück, wenn beide null sind, "false", wenn einer von ihnen null ist.
ilike(str, pattern[, escapeChar]) Gibt "true" zurück, wenn "str" mit escape-Groß-/Kleinschreibung übereinstimmt, null, wenn argumente null sind, andernfalls "false".
isnan(col) Ein Ausdruck, der "true" zurückgibt, wenn die Spalte NaN ist.
isnotnull(col) Gibt "true" zurück, wenn "Col" nicht null oder andernfalls "false" ist.
isnull(col) Ein Ausdruck, der "true" zurückgibt, wenn die Spalte NULL ist.
like(str, pattern[, escapeChar]) Gibt true zurück, wenn str mit escape übereinstimmt, null, wenn Argumente null sind, andernfalls "false".
regexp(str, regexp) Gibt wahr zurück, wenn str mit dem Java-regex regexp übereinstimmt, oder falsch andernfalls.
regexp_like(str, regexp) Gibt wahr zurück, wenn str mit dem Java-regex regexp übereinstimmt, oder falsch andernfalls.
rlike(str, regexp) Gibt wahr zurück, wenn str mit dem Java-regex regexp übereinstimmt, oder falsch andernfalls.

Sortierfunktionen

Funktion Description
asc(col) Gibt einen Sortierausdruck für die Zielspalte in aufsteigender Reihenfolge zurück.
asc_nulls_first(col) Gibt einen Sortierausdruck basierend auf der aufsteigenden Reihenfolge des angegebenen Spaltennamens zurück, und NULL-Werte werden vor Nicht-Null-Werten zurückgegeben.
asc_nulls_last(col) Gibt einen Sortierausdruck basierend auf der aufsteigenden Reihenfolge des angegebenen Spaltennamens zurück, und NULL-Werte werden nach Nicht-Null-Werten angezeigt.
desc(col) Gibt einen Sortierausdruck für die Zielspalte in absteigender Reihenfolge zurück.
desc_nulls_first(col) Gibt einen Sortierausdruck basierend auf der absteigenden Reihenfolge des angegebenen Spaltennamens zurück, und NULL-Werte werden vor Nicht-Null-Werten angezeigt.
desc_nulls_last(col) Gibt einen Sortierausdruck basierend auf der absteigenden Reihenfolge des angegebenen Spaltennamens zurück, und NULL-Werte werden nach Nicht-Null-Werten angezeigt.

Mathematische Funktionen

Funktion Description
abs(col) Berechnet den absoluten Wert der angegebenen Spalte oder des angegebenen Ausdrucks.
acos(col) Berechnet den umgekehrten Kosinus (auch arckosinus genannt) der angegebenen Spalte oder des angegebenen Ausdrucks.
acosh(col) Berechnet den umgekehrten hyperbolischen Kosinus (auch arcosh genannt) der angegebenen Spalte oder des angegebenen Ausdrucks.
asin(col) Berechnet den umgekehrten Sinus der Eingabespalte.
asinh(col) Berechnet den umgekehrten hyperbolischen Sinus der Eingabespalte.
atan(col) Berechnen des umgekehrten Tangens der Eingabespalte.
atan2(col1, col2) Berechnen des Winkels in Bogenmaßen zwischen der positiven x-Achse einer Ebene und dem punkt, der durch die Koordinaten angegeben wird
atanh(col) Berechnet den umgekehrten hyperbolischen Tangens der Eingabespalte.
bin(col) Gibt die Zeichenfolgendarstellung des Binärwerts der angegebenen Spalte zurück.
bround(col[, scale]) Runden Sie den angegebenen Wert auf die Dezimalstellen mit dem HALF_EVEN Rundungsmodus, wenn die Skalierung >= 0 ist, oder auf die Ganzzahl, wenn die Skalierung < 0 ist.
cbrt(col) Berechnet die Kubikwurzel des angegebenen Werts.
ceil(col[, scale]) Berechnet die Obergrenze des angegebenen Werts.
ceiling(col[, scale]) Berechnet die Obergrenze des angegebenen Werts.
conv(col, fromBase, toBase) Konvertieren Sie eine Zahl in einer Zeichenfolgenspalte von einer Basis in eine andere.
cos(col) Berechnet kosinus der Eingabespalte.
cosh(col) Berechnet den hyperbolischen Kosinus der Eingabespalte.
cot(col) Berechnet den Kotangens der Eingabespalte.
csc(col) Berechnet den Kosekans der Eingabespalte.
degrees(col) Wandelt einen in Bogenmaß gemessenen Winkel in einen ungefähr gleichwertigen Winkel um, der in Grad gemessen wird.
e() Gibt die Zahl von Euler zurück.
exp(col) Berechnet das Exponentielle des angegebenen Werts.
expm1(col) Berechnet das Exponentielle des angegebenen Werts minus 1.
factorial(col) Berechnet die Factorial des angegebenen Werts.
floor(col[, scale]) Berechnet den Boden des angegebenen Werts.
greatest(*cols) Gibt den größten Wert der Liste der Spaltennamen zurück, wobei Nullwerte übersprungen werden.
hex(col) Berechnet den Hexadenzwert der angegebenen Spalte, die stringType, BinaryType, IntegerType oder LongType sein kann.
hypot(col1, col2) Berechnet sqrt(a^2 + b^2) ohne Zwischenüberlauf oder Unterlauf.
least(*cols) Gibt den kleinsten Wert der Liste der Spaltennamen zurück, wobei Nullwerte übersprungen werden.
ln(col) Gibt den natürlichen Logarithmus des Arguments zurück.
log(arg1[, arg2]) Gibt den ersten argumentbasierten Logarithmus des zweiten Arguments zurück.
log10(col) Berechnet den Logarithmus des angegebenen Werts in Base 10.
log1p(col) Berechnet den natürlichen Logarithmus des angegebenen Werts plus eins.
log2(col) Gibt den Logarithmus der Basis 2 des Arguments zurück.
negate(col) Gibt den negativen Wert zurück.
negative(col) Gibt den negativen Wert zurück.
pi() Gibt Pi zurück.
pmod(dividend, divisor) Gibt den positiven Wert der Dividende mod Divisor zurück.
positive(col) Gibt den Wert zurück.
pow(col1, col2) Gibt den Wert des ersten Arguments zurück, das auf die Potenz des zweiten Arguments erhoben wird.
power(col1, col2) Gibt den Wert des ersten Arguments zurück, das auf die Potenz des zweiten Arguments erhoben wird.
radians(col) Wandelt einen in Grad gemessenen Winkel in einen ungefähr gleichwertigen Winkel um, der in Bogenmaß gemessen wird.
rand([seed]) Generiert eine zufällige Spalte mit unabhängigen und identisch verteilten (i.i.d.) Stichproben, die einheitlich in [0,0, 1,0) verteilt sind.
randn([seed]) Generiert eine zufällige Spalte mit unabhängigen und identisch verteilten (i.i.d.) Stichproben aus der Standardnormalverteilung.
rint(col) Gibt den doppelten Wert zurück, der dem Argument am nächsten kommt und gleich einer mathematischen ganzen Zahl ist.
round(col[, scale]) Runden Sie den angegebenen Wert auf die Dezimalstellen mit dem HALF_UP-Rundungsmodus, wenn die Skalierung >= 0 ist, oder beim integralen Teil, wenn die Skalierung < 0 ist.
sec(col) Berechnet den Sekans der Eingabespalte.
sign(col) Berechnet das Signum des angegebenen Werts.
signum(col) Berechnet das Signum des angegebenen Werts.
sin(col) Berechnet den Sinus der Eingabespalte.
sinh(col) Berechnet den hyperbolischen Sinus der Eingabespalte.
sqrt(col) Berechnet die Quadratwurzel des angegebenen Float-Werts.
tan(col) Berechnet den Tangens der Eingabespalte.
tanh(col) Berechnet den hyperbolischen Tangens der Eingabespalte.
try_add(left, right) Gibt die Summe von links und rechts zurück; bei Überlauf ist das Ergebnis null.
try_divide(left, right) Gibt Dividende/Divisor zurück.
try_mod(left, right) Gibt den Rest nach Dividend/Divisor zurück.
try_multiply(left, right) Gibt das Produkt von links und rechts zurück, und das Ergebnis ist null im Falle eines Überlaufs.
try_subtract(left, right) Gibt links minus rechts zurück, und das Ergebnis ist null beim Überlauf.
unhex(col) Umgekehrter Hex.
uniform(min, max[, seed]) Gibt einen Zufallswert mit unabhängigen und identisch verteilten (i.i.d.) Werten mit dem angegebenen Zahlenbereich zurück.
width_bucket(v, min, max, numBucket) Gibt die Bucketnummer zurück, in die der Wert dieses Ausdrucks nach der Auswertung fallen würde.

Zeichenfolgenfunktionen

Funktion Description
ascii(col) Berechnet den numerischen Wert des ersten Zeichens der Zeichenfolgenspalte.
base64(col) Berechnet die BASE64-Codierung einer binären Spalte und gibt sie als Zeichenfolgenspalte zurück.
bit_length(col) Berechnet die Bitlänge für die angegebene Zeichenfolgenspalte.
btrim(str[, trim]) Entfernen Sie die führenden und nachfolgenden Trim-Zeichen von str.
char(col) Gibt das ASCII-Zeichen zurück, das dem binären Äquivalent der Variablen "col" entspricht.
char_length(str) Gibt die Zeichenlänge von Zeichenfolgendaten bzw. die Anzahl der Bytes von Binärdaten zurück.
character_length(str) Gibt die Zeichenlänge von Zeichenfolgendaten bzw. die Anzahl der Bytes von Binärdaten zurück.
collate(col, collation) Markiert eine angegebene Spalte mit der angegebenen Sortierung.
collation(col) Gibt den Sortierungsnamen einer bestimmten Spalte zurück.
concat_ws(sep, *cols) Verkettet mehrere Eingabestringspalten mithilfe des angegebenen Trennzeichens zu einer einzelnen Stringspalte.
contains(left, right) Gibt einen booleschen Wert zurück.
decode(col, charset) Berechnet das erste Argument in eine Zeichenfolge aus Binärdaten mithilfe des bereitgestellten Zeichensatzes (einer von US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32).
elt(*inputs) Gibt die n-te Eingabe zurück, z. B. Eingabe2, wenn n gleich 2 ist.
encode(col, charset) Berechnet das erste Argument in eine Binärdatei aus einer Zeichenfolge mithilfe des bereitgestellten Zeichensatzes (einer von US-ASCII, , , ISO-8859-1, UTF-8, UTF-16BE, , , UTF-16LE). UTF-16UTF-32
endswith(str, suffix) Gibt einen booleschen Wert zurück.
find_in_set(str, str_array) Gibt den Index (1-basiert) der angegebenen Zeichenfolge (str) in der durch Kommas getrennten Liste (strArray) zurück.
format_number(col, d) Formatiert die Zahl X in ein Format wie #,--#,--#.--, gerundet auf d Dezimalstellen mit HALF_EVEN Rundenmodus, und gibt das Ergebnis als String zurück.
format_string(format, *cols) Formatiert die Argumente im Printf-Stil und gibt das Ergebnis als Zeichenfolgenspalte zurück.
initcap(col) Übersetzen Sie den ersten Buchstaben jedes Worts in Großbuchstaben im Satz.
instr(str, substr) Suchen Sie die Position des ersten Vorkommens der Unterstr-Spalte in der angegebenen Zeichenfolge.
is_valid_utf8(str) Gibt true zurück, wenn die Eingabe eine gültige UTF-8-Zeichenfolge ist, andernfalls "false".
lcase(str) Gibt str zurück, wobei alle Zeichen in Kleinbuchstaben geändert wurden.
left(str, len) Gibt die len -Zeichen (len kann Zeichenfolgentyp sein) aus der Zeichenfolge str zurück, wenn len kleiner oder gleich 0 ist, ist das Ergebnis eine leere Zeichenfolge.
length(col) Berechnet die Zeichenlänge von Zeichenfolgendaten oder die Anzahl der Bytes von Binärdaten.
levenshtein(left, right[, threshold]) Berechnet den Levenshtein-Abstand der beiden angegebenen Zeichenfolgen.
locate(substr, str[, pos]) Finden Sie die Position des ersten Vorkommens von substr in einer Zeichenfolgenspalte nach Position pos.
lower(col) Konvertiert einen Zeichenfolgenausdruck in Kleinbuchstaben.
lpad(col, len, pad) Auf der linken Seite wird die Zeichenfolgenspalte mit Pad breitet.
ltrim(col[, trim]) Kürzen Sie die Leerzeichen vom linken Ende für den angegebenen Zeichenfolgenwert.
make_valid_utf8(str) Gibt eine neue Zeichenfolge zurück, in der alle ungültigen UTF-8-Bytesequenzen (falls vorhanden) durch das Unicode-Ersetzungszeichen (U+FFFD) ersetzt werden.
mask(col[, upperChar, lowerChar, digitChar, ...]) Maskiert den angegebenen Zeichenfolgenwert.
octet_length(col) Berechnet die Bytelänge für die angegebene Zeichenfolgenspalte.
overlay(src, replace, pos[, len]) Überlagern Sie den angegebenen Teil von src mit replace, beginnend an der Byte-Position pos von src und fahren Sie für len Bytes fort.
position(substr, str[, start]) Gibt die Position des ersten Vorkommens von Substr in str nach Position Start zurück.
printf(format, *cols) Formatiert die Argumente im Printf-Stil und gibt das Ergebnis als Zeichenfolgenspalte zurück.
randstr(length[, seed]) Gibt eine Zeichenfolge der angegebenen Länge zurück, deren Zeichen gleichmäßig aus dem folgenden Zeichenpool ausgewählt werden: 0-9, a-z, A-Z.
regexp_count(str, regexp) Gibt eine Anzahl der Male zurück, mit denen das Regex-Muster regexp für Java in der Zeichenfolgen-str übereinstimmt.
regexp_extract(str, pattern, idx) Extrahieren Sie eine bestimmte Gruppe, die mit der Java regex regexp übereinstimmt, aus der angegebenen Zeichenfolgenspalte.
regexp_extract_all(str, regexp[, idx]) Extrahieren Sie alle Zeichenfolgen in der Str, die dem Java regex regexp entsprechen und dem regex-Gruppenindex entsprechen.
regexp_instr(str, regexp[, idx]) Gibt die Position der ersten Teilzeichenfolge in der Str zurück, die der Java regex regexp entspricht und dem regex-Gruppenindex entspricht.
regexp_replace(string, pattern, replacement) Ersetzen Sie alle Teilzeichenfolgen des angegebenen Zeichenfolgenwerts, die mit "regexp" übereinstimmen.
regexp_substr(str, regexp) Gibt die erste Teilzeichenfolge zurück, die der Java regex regexp innerhalb der Zeichenfolge str entspricht.
repeat(col, n) Wiederholt eine Zeichenfolgenspalte n Mal und gibt sie als neue Zeichenfolgenspalte zurück.
replace(src, search[, replace]) Ersetzt alle Vorkommen von "search" durch "replace".
right(str, len) Gibt die rechtesten len Zeichen (len kann vom Typ Zeichenfolge sein) aus der Zeichenfolge str zurück, wenn len kleiner oder gleich 0 ist, ist das Ergebnis eine leere Zeichenfolge.
rpad(col, len, pad) Füllen Sie die Zeichenfolgenspalte rechts mit einem Zeichen auf die Breite "len" auf.
rtrim(col[, trim]) Entfernen Sie die Leerzeichen am rechten Ende des angegebenen Zeichenfolgenwerts.
sentences(string[, language, country]) Teilt eine Zeichenfolge in Arrays von Sätzen auf, wobei jeder Satz ein Array von Wörtern ist.
soundex(col) Gibt die SoundEx-Codierung für eine Zeichenfolge zurück.
split(str, pattern[, limit]) Zerteilt den String um die Übereinstimmungen des angegebenen Musters herum.
split_part(src, delimiter, partNum) Teilt str durch Trennzeichen und gibt den angeforderten Teil der Unterbrechung (1-basiert) zurück.
startswith(str, prefix) Gibt einen booleschen Wert zurück.
substr(str, pos[, len]) Gibt die Teilzeichenfolge von str zurück, die bei pos beginnt und die Länge len hat, oder das Segment des Bytearrays, das bei pos beginnt und die Länge len hat.
substring(str, pos, len) Die Teilzeichenfolge beginnt bei pos und hat die Länge len, wenn str vom Typ String ist, oder gibt das Segment des Bytearrays zurück, das bei pos in Byte beginnt und die Länge len hat, wenn str vom Typ Binär ist.
substring_index(str, delim, count) Gibt die Teilzeichenfolge aus der Zeichenfolge str zurück, die vor dem Auftreten des Trennzeichens delim nach einer bestimmten Anzahl liegt.
to_binary(col[, format]) Wandelt die Eingabespalte gemäß dem angegebenen Format in einen Binärwert um.
to_char(col, format) Konvertieren Sie die Spalte in eine Zeichenfolge entsprechend dem Format.
to_number(col, format) Konvertieren Sie die Zeichenfolge "col" in eine Zahl basierend auf dem Zeichenfolgenformat "format".
to_varchar(col, format) Konvertieren Sie die Spalte in eine Zeichenfolge entsprechend dem Format.
translate(srcCol, matching, replace) Ersetzen Sie ein beliebiges Zeichen im srcCol durch ein entsprechendes Zeichen aus matching.
trim(col[, trim]) Entfernen Sie die Leerzeichen von beiden Enden der angegebenen Zeichenfolgenspalte.
try_to_binary(col[, format]) Versuchen Sie, den to_binary Vorgang auszuführen, aber geben Sie einen NULL-Wert zurück, anstatt einen Fehler zu auslösen, wenn die Konvertierung nicht ausgeführt werden kann.
try_to_number(col, format) Konvertieren Sie die Zeichenfolge col in eine Zahl, die auf dem Zeichenfolgenformat formatbasiert.
try_validate_utf8(str) Gibt den Eingabewert zurück, wenn er einer gültigen UTF-8-Zeichenfolge oder einer anderen NULL-Zeichenfolge entspricht.
ucase(str) Gibt str zurück, wobei alle Zeichen in Großbuchstaben geändert wurden.
unbase64(col) Decodiert eine BASE64-codierte Zeichenfolgenspalte und gibt sie als binäre Spalte zurück.
upper(col) Konvertiert einen Zeichenfolgenausdruck in Großbuchstaben.
validate_utf8(str) Gibt den Eingabewert zurück, wenn er einer gültigen UTF-8-Zeichenfolge entspricht oder andernfalls einen Fehler ausgibt.

Bitweise Funktionen

Funktion Description
bit_count(col) Gibt die Anzahl der Bits zurück, die im Argumentauslöser als nicht signierte 64-Bit-Ganzzahl oder NULL festgelegt werden, wenn das Argument NULL ist.
bit_get(col, pos) Gibt den Wert des Bits (0 oder 1) an der angegebenen Position zurück.
bitwise_not(col) Berechnet bitweise Negation.
getbit(col, pos) Gibt den Wert des Bits (0 oder 1) an der angegebenen Position zurück.
shiftleft(col, numBits) Verschieben Sie den angegebenen Wert um numBits nach links.
shiftright(col, numBits) (Signiert) verschiebt den angegebenen Wert numBits nach rechts.
shiftrightunsigned(col, numBits) Unsigned verschiebt den angegebenen Wert um numBits nach rechts.

Funktionen für Datum/Uhrzeit

Funktion Description
add_months(start, months) Gibt das Datum zurück, das Monate nach dem Start ist.
convert_timezone(sourceTz, targetTz, sourceTs) Konvertiert den Zeitstempel sourceTs ohne Zeitzone von der Zeitzone sourceTz in die Zeitzone targetTz.
curdate() Gibt das aktuelle Datum am Anfang der Abfrageauswertung als DateType-Spalte zurück.
current_date() Gibt das aktuelle Datum am Anfang der Abfrageauswertung als DateType-Spalte zurück.
current_timestamp() Gibt den aktuellen Zeitstempel am Anfang der Abfrageauswertung als TimestampType-Spalte zurück.
current_timezone() Gibt die lokale Zeitzone der aktuellen Sitzung zurück.
date_add(start, days) Gibt das Datum zurück, das Tage nach dem Start ist.
date_diff(end, start) Gibt die Anzahl der Tage von Anfang bis Ende zurück.
date_format(date, format) Wandelt ein Datum/einen Zeitstempel/eine Zeichenfolge in einen Zeichenfolgewert im angegebenen Format um, das durch das im zweiten Argument angegebene Datumsformat festgelegt wird.
date_from_unix_date(days) Datum aus der Anzahl der Tage seit 1970-01-01 erstellen.
date_part(field, source) Extrahiert einen Teil der Datums-/Zeitstempel- oder Intervallquelle.
date_sub(start, days) Gibt das Datum zurück, das Tage vor dem Beginn liegt.
date_trunc(format, timestamp) Gibt den Zeitstempel zurück, der auf die durch das Format angegebene Zeiteinheit gekürzt ist.
dateadd(start, days) Gibt das Datum zurück, das Tage nach dem Start ist.
datediff(end, start) Gibt die Anzahl der Tage von Anfang bis Ende zurück.
datepart(field, source) Extrahiert einen Teil der Datums-/Zeitstempel- oder Intervallquelle.
day(col) Extrahieren Sie den Tag des Monats eines bestimmten Datums/Zeitstempels als ganze Zahl.
dayname(col) Gibt den dreibuchstabigen abgekürzten Tagesnamen des angegebenen Datums zurück.
dayofmonth(col) Extrahieren Sie den Tag des Monats eines bestimmten Datums/Zeitstempels als ganze Zahl.
dayofweek(col) Extrahieren Sie den Wochentag eines bestimmten Datums-/Zeitstempels als ganze Zahl.
dayofyear(col) Extrahieren Sie den Tag des Jahres eines bestimmten Datums/Zeitstempels als ganze Zahl.
extract(field, source) Extrahiert einen Teil der Datums-/Zeitstempel- oder Intervallquelle.
from_unixtime(timestamp[, format]) Wandelt die Anzahl der Sekunden aus der Unix-Epoche (1970-01-01 00:00:00 UTC) in eine Zeichenfolge um, die den Zeitstempel dieses Augenblicks in der aktuellen Systemzeitzone im angegebenen Format darstellt.
from_utc_timestamp(timestamp, tz) Dies ist eine allgemeine Funktion für Datenbanken, die TIMESTAMP WITHOUT TIMEZONEunterstützen.
hour(col) Extrahieren Sie die Stunden eines bestimmten Zeitstempels als ganze Zahl.
last_day(date) Gibt den letzten Tag des Monats zurück, zu dem das angegebene Datum gehört.
localtimestamp() Gibt den aktuellen Zeitstempel ohne Zeitzone am Anfang der Abfrageauswertung als Zeitstempel ohne Zeitzonenspalte zurück.
make_date(year, month, day) Gibt eine Spalte mit einem Datum zurück, das aus den Spalten Jahr, Monat und Tag erstellt wurde.
make_dt_interval([days, hours, mins, secs]) Erstellen Sie die DayTimeIntervalType-Dauer aus Tagen, Stunden, Minuten und Sekunden.
make_interval([years, months, weeks, days, ...]) Legen Sie das Intervall zwischen Jahren, Monaten, Wochen, Tagen, Stunden, Minen und Sek. fest.
make_timestamp(years, months, days, hours, ...) Erstellen Sie Zeitstempel aus Jahren, Monaten, Tagen, Stunden, Minen, Sek. und Zeitzonenfeldern.
make_timestamp_ltz(years, months, days, ...) Erstellen Sie den aktuellen Zeitstempel mit lokaler Zeitzone aus Jahren, Monaten, Tagen, Stunden, Minen, Sek. und Zeitzonenfeldern.
make_timestamp_ntz(years, months, days, ...) Erstellen Sie ein lokales Datum und eine lokale Uhrzeit aus den Feldern Jahr, Monat, Tag, Stunde, Minute, Sekunde.
make_ym_interval([years, months]) Erstellen Sie ein Jahres-Monats-Intervall aus Jahren und Monaten.
minute(col) Extrahieren Sie die Minuten eines bestimmten Zeitstempels als ganze Zahl.
month(col) Extrahieren Sie den Monat eines bestimmten Datums-/Zeitstempels als ganze Zahl.
monthname(col) Gibt den Namen des dreibuchstabig abgekürzten Monats aus dem angegebenen Datum zurück.
months_between(date1, date2[, roundOff]) Gibt die Anzahl der Monate zwischen Datum1 und Datum2 zurück.
next_day(date, dayOfWeek) Gibt das erste Datum zurück, das später als der Wert der Datumsspalte ist, basierend auf dem Argument für den zweiten Wochentag.
now() Gibt den aktuellen Zeitstempel zu Beginn der Abfrageauswertung zurück.
quarter(col) Extrahieren Sie das Viertel eines bestimmten Datums-/Zeitstempels als ganze Zahl.
second(col) Extrahieren Sie die Sekunden eines bestimmten Datums als ganze Zahl.
session_window(timeColumn, gapDuration) Generiert ein Sitzungsfenster anhand eines Zeitstempels, der eine spezifische Spalte vorgibt.
timestamp_add(unit, quantity, ts) Ruft den Unterschied zwischen den Zeitstempeln in den angegebenen Einheiten ab, wobei der Bruchteil abgeschnitten wird.
timestamp_diff(unit, start, end) Ruft den Unterschied zwischen den Zeitstempeln in den angegebenen Einheiten ab, wobei der Bruchteil abgeschnitten wird.
timestamp_micros(col) Erstellt zeitstempel aus der Anzahl der Mikrosekunden seit UTC-Epoche.
timestamp_millis(col) Erstellt zeitstempel aus der Anzahl der Millisekunden seit UTC-Epoche.
timestamp_seconds(col) Wandelt die Anzahl der Sekunden aus der Unix-Epoche (1970-01-01T00:00:00Z) in einen Zeitstempel um.
to_date(col[, format]) Wandelt eine Spalte mithilfe des optional angegebenen Formats in pyspark.sql.types.DateType um.
to_timestamp(col[, format]) Wandelt eine Spalte mithilfe des optional angegebenen Formats in pyspark.sql.types.TimestampType um.
to_timestamp_ltz(timestamp[, format]) Analysiert den Zeitstempel mit dem Format auf einen Zeitstempel mit Zeitzone.
to_timestamp_ntz(timestamp[, format]) Analysiert den Zeitstempel mit dem Format auf einen Zeitstempel ohne Zeitzone.
to_unix_timestamp(timestamp[, format]) Gibt den UNIX-Zeitstempel des angegebenen Zeitraums zurück.
to_utc_timestamp(timestamp, tz) Dies ist eine allgemeine Funktion für Datenbanken, die TIMESTAMP WITHOUT TIMEZONEunterstützen.
trunc(date, format) Gibt das Datum zurück, das an die durch das Format angegebene Einheit abgeschnitten ist.
try_make_interval([years, months, weeks, ...]) Versuchen Sie, einen make_interval Vorgang auszuführen, aber geben Sie einen NULL-Wert zurück, anstatt einen Fehler zu auslösen, wenn das Intervall nicht erstellt werden kann.
try_make_timestamp(years, months, days, ...) Versuchen Sie, Zeitstempel aus Jahren, Monaten, Tagen, Stunden, Minen, Sek. und Zeitzonenfeldern zu erstellen.
try_make_timestamp_ltz(years, months, days, ...) Versuchen Sie, den aktuellen Zeitstempel mit lokaler Zeitzone aus Jahren, Monaten, Tagen, Stunden, Minen, Sek. und Zeitzonenfeldern zu erstellen.
try_make_timestamp_ntz(years, months, days, ...) Versuchen Sie, lokales Datum und Uhrzeit aus Jahren, Monaten, Tagen, Stunden, Minuten, Sekunden-Feldern zu erstellen.
try_to_timestamp(col[, format]) Analysiert die Spalte mit dem Format auf einen Zeitstempel.
unix_date(col) Gibt die Anzahl der Tage seit 1970-01-01 zurück.
unix_micros(col) Gibt die Anzahl der Mikrosekunden seit 1970-01-01 00:00:00:00 UTC zurück.
unix_millis(col) Gibt die Anzahl der Millisekunden seit 1970-01-01 00:00:00:00 UTC zurück.
unix_seconds(col) Gibt die Anzahl der Sekunden seit 1970-01-01 00:00:00:00 UTC zurück.
unix_timestamp([timestamp, format]) Konvertiert die Zeitzeichenfolge mit dem angegebenen Muster (standardmäßig 'yyyy-MM-dd HH:mm:ss') in Unix-Zeitstempel (in Sekunden) unter Verwendung der Standardzeitzone und des Standardgebietsschemas; gibt null zurück, falls die Umwandlung fehlschlägt.
weekday(col) Gibt den Wochentag für Datum/Uhrzeitstempel (0 = Montag, 1 = Dienstag, ..., 6 = Sonntag) zurück.
weekofyear(col) Extrahieren Sie die Wochenzahl eines bestimmten Datums als ganze Zahl.
window(timeColumn, windowDuration[, ...]) Kategorisiere Zeilen in ein oder mehrere Zeitfenster, basierend auf einer Zeitstempel-spaltenangabe.
window_time(windowColumn) Berechnet die Ereigniszeit aus einer Fensterspalte.
year(col) Extrahieren Sie das Jahr eines bestimmten Datums-/Zeitstempels als ganze Zahl.

Hashfunktionen

Funktion Description
crc32(col) Berechnet den zyklischen Redundanzprüfwert (CRC32) einer binären Spalte und gibt den Wert als Bigint zurück.
hash(*cols) Berechnet den Hashcode der angegebenen Spalten und gibt das Ergebnis als Int-Spalte zurück.
md5(col) Berechnet den MD5-Digest und gibt den Wert als 32-stellige Hexzeichenfolge zurück.
sha(col) Gibt einen SHA1-Hashwert als Hex-Zeichenfolge der col zurück.
sha1(col) Gibt das Hex-Zeichenfolgenergebnis von SHA-1 zurück.
sha2(col, numBits) Gibt das Hex-Zeichenfolgenergebnis der SHA-2-Familie von Hashfunktionen zurück (SHA-224, SHA-256, SHA-384 und SHA-512).
xxhash64(*cols) Berechnet den Hashcode der angegebenen Spalten mithilfe der 64-Bit-Variante des xxHash-Algorithmus und gibt das Ergebnis als lange Spalte zurück.

Sammlungsfunktionen

Funktion Description
aggregate(col, initialValue, merge[, finish]) Wendet einen binären Operator auf einen Anfangszustand und alle Elemente im Array an und reduziert dies auf einen einzelnen Zustand.
array_sort(col[, comparator]) Sortiert das Eingabearray in aufsteigender Reihenfolge.
cardinality(col) Gibt die Länge des Arrays oder der Map, die in der Spalte gespeichert ist, zurück.
concat(*cols) Fügt mehrere Eingabespalten zu einer einzelnen Spalte zusammen.
element_at(col, extraction) Gibt das Element des Arrays am angegebenen (1-basierten) Index zurück.
exists(col, f) Gibt zurück, ob ein Prädikat für eines oder mehrere Elemente im Array gilt.
filter(col, f) Gibt ein Array von Elementen zurück, für das ein Prädikat in einem bestimmten Array enthalten ist.
forall(col, f) Gibt zurück, ob ein Prädikat für jedes Element im Array erfüllt ist.
map_filter(col, f) Gibt eine neue Kartenspalte zurück, deren Schlüsselwertpaare eine gültige Prädikatfunktion erfüllen.
map_zip_with(col1, col2, f) Führt zwei gegebene Abbildungen zu einer einzelnen Abbildung zusammen, indem eine Funktion auf die Schlüssel-Wert-Paare angewendet wird.
reduce(col, initialValue, merge[, finish]) Wendet einen binären Operator auf einen Anfangszustand und alle Elemente im Array an und reduziert dies auf einen einzelnen Zustand.
reverse(col) Gibt eine umgekehrte Zeichenfolge oder ein Array mit Elementen in umgekehrter Reihenfolge zurück.
size(col) Gibt die Länge des Arrays oder der Map, die in der Spalte gespeichert ist, zurück.
transform(col, f) Gibt ein Array von Elementen zurück, nachdem eine Transformation auf jedes Element im Eingabearray angewendet wurde.
transform_keys(col, f) Wendet eine Funktion auf jedes Schlüssel-Wert-Paar in einer Karte an und gibt eine Karte mit den Ergebnissen dieser Anwendungen als neue Schlüssel für die Paare zurück.
transform_values(col, f) Wendet eine Funktion auf jedes Schlüsselwertpaar in einer Karte an und gibt eine Karte mit den Ergebnissen dieser Anwendungen als neue Werte für die Paare zurück.
try_element_at(col, extraction) Gibt das Element des Arrays bei angegebenem (1-basierten) Index zurück.
zip_with(left, right, f) Verbinden Sie zwei gegebene Arrays elementweise zu einem einzigen Array, indem Sie eine Funktion verwenden.

Array-Funktionen

Funktion Description
array(*cols) Erstellt eine neue Arrayspalte aus den Eingabespalten oder Spaltennamen.
array_append(col, value) Gibt eine neue Array-Spalte zurück, indem ein Wert zur vorhandenen Array-Spalte hinzugefügt wird.
array_compact(col) Entfernt Nullwerte aus dem Array.
array_contains(col, value) Gibt einen booleschen Wert zurück, der angibt, ob das Array den angegebenen Wert enthält: NULL, wenn das Array null ist, true, wenn das Array den angegebenen Wert enthält, und andernfalls "false".
array_distinct(col) Entfernt doppelte Werte aus dem Array.
array_except(col1, col2) Gibt ein neues Array zurück, das die Elemente enthält, die in Col1 vorhanden sind, jedoch nicht in Col2, ohne Duplikate.
array_insert(arr, pos, value) Fügt ein Element in ein bestimmtes Array bei einem angegebenen Arrayindex ein.
array_intersect(col1, col2) Gibt ein neues Array zurück, das die Schnittmenge von Elementen in Col1 und Col2 ohne Duplikate enthält.
array_join(col, delimiter[, null_replacement]) Gibt eine Zeichenfolgenspalte zurück, indem die Elemente der Eingabearrayspalte mithilfe des Trennzeichens verkettet werden.
array_max(col) Gibt den Maximalwert des Arrays zurück.
array_min(col) Gibt den Minimalwert des Arrays zurück.
array_position(col, value) Sucht die Position des ersten Vorkommens des angegebenen Werts im angegebenen Array.
array_prepend(col, value) Gibt ein Array zurück, das das angegebene Element als erstes Element und die restlichen Elemente aus dem ursprünglichen Array enthält.
array_remove(col, element) Entfernen Sie alle Elemente, die dem Element des angegebenen Arrays entsprechen.
array_repeat(col, count) Erstellt ein Array, das eine Spalte enthält, die eine bestimmte Anzahl von Malen wiederholt wird.
array_size(col) Gibt die Gesamtanzahl der Elemente im Array zurück.
array_union(col1, col2) Gibt ein neues Array zurück, das die Vereinigung von Elementen in Col1 und Col2 ohne Duplikate enthält.
arrays_overlap(a1, a2) Gibt eine boolesche Spalte zurück, die angibt, ob die Eingabearrays gemeinsame Nicht-Null-Elemente enthalten. Die Funktion gibt "true" zurück, wenn solche Elemente vorhanden sind, "null", wenn die Arrays keine gemeinsamen Elemente haben, aber nicht leer sind und mindestens eines ein Null-Element enthält, und andernfalls "false".
arrays_zip(*cols) Gibt ein zusammengeführtes Array von Strukturen zurück, in dem die N-th-Struktur alle N-th-Werte von Eingabearrays enthält.
flatten(col) Erstellt ein einzelnes Array aus einem Array von Arrays.
get(col, index) Gibt das Element eines Arrays am angegebenen (0-basierten) Index zurück.
sequence(start, stop[, step]) Generieren Sie eine Sequenz von ganzzahligen Zahlen von Anfang bis Ende, inkrementiert nach Schritt.
shuffle(col[, seed]) Generiert eine zufällige Permutation des angegebenen Arrays.
slice(x, start, length) Gibt eine neue Arrayspalte zurück, indem die Eingabearrayspalte von einem Startindex aus bis zu einer spezifischen Länge geschnitten wird.
sort_array(col[, asc]) Sortiert das Eingabearray in aufsteigender oder absteigender Reihenfolge nach der natürlichen Reihenfolge der Arrayelemente.

Strukturfunktionen

Funktion Description
named_struct(*cols) Erstellt eine Struktur mit den angegebenen Feldnamen und Werten.
struct(*cols) Erstellt eine neue Strukturspalte.

Abbildungsfunktionen

Funktion Description
create_map(*cols) Erstellt eine neue Kartierungsspalte aus einer geraden Anzahl von Eingabespalten oder Spaltenbezügen.
map_concat(*cols) Gibt die Vereinigung aller angegebenen Karten zurück.
map_contains_key(col, value) Gibt true zurück, wenn die Karte den Schlüssel enthält.
map_entries(col) Gibt ein ungeordnetes Array aller Einträge in der angegebenen Abbildung zurück.
map_from_arrays(col1, col2) Erstellt eine neue Abbildung aus zwei Arrays.
map_from_entries(col) Transformiert ein Array von Schlüssel-Wert-Paareinträgen (Strukturen mit zwei Feldern) in eine Zuordnung.
map_keys(col) Gibt ein ungeordnetes Array zurück, das die Schlüssel der Karte enthält.
map_values(col) Gibt ein ungeordnetes Array zurück, das die Werte der Map enthält.
str_to_map(text[, pairDelim, keyValueDelim]) Konvertiert einen String in eine Zuordnung, nachdem der Text mithilfe von Trennzeichen in Schlüssel-Wert-Paare aufgeteilt wurde.

Aggregatfunktionen

Funktion Description
any_value(col[, ignoreNulls]) Gibt einen beliebigen Wert der Spalte für eine Gruppe von Zeilen zurück.
approx_count_distinct(col[, rsd]) Gibt eine neue Spalte zurück, die die ungefähre unterschiedliche Anzahl von Elementen in einer angegebenen Spalte oder einer Gruppe von Spalten schätzt.
approx_percentile(col, percentage[, accuracy]) Gibt das ungefähre Quantil der numerischen Spaltenspalte zurück, bei der es sich um den kleinsten Wert in den sortierten Spaltenwerten handelt (sortiert von am wenigsten zum größten), sodass nicht mehr als der Prozentsatz der Spaltenwerte kleiner als der Wert oder gleich diesem Wert ist.
array_agg(col) Gibt eine Liste von Objekten mit Duplikaten zurück.
avg(col) Gibt den Mittelwert der Werte in einer Gruppe zurück.
bit_and(col) Gibt den bitweisen UND-Wert aller Nicht-Null-Eingabewerte zurück oder Null, wenn keine vorhanden sind.
bit_or(col) Gibt das bitweise OR aller Nicht-Null-Eingabewerte zurück oder Null, wenn keine vorhanden sind.
bit_xor(col) Gibt den bitweisen XOR aller Nicht-Null-Eingabewerte oder null zurück, wenn keines vorhanden ist.
bitmap_construct_agg(col) Gibt eine Bitmap mit den Positionen der Bits zurück, die aus allen Werten aus der Eingabespalte festgelegt wurden.
bitmap_or_agg(col) Gibt eine Bitmap zurück, die das bitweise ODER aller Bitmaps in der Eingabespalte bildet.
bool_and(col) Gibt true zurück, wenn alle Werte der Spalte wahr sind.
bool_or(col) Gibt true zurück, wenn mindestens ein Wert von Col wahr ist.
collect_list(col) Sammelt die Werte aus einer Spalte in einer Liste, wobei Duplikate beibehalten werden, und gibt diese Liste von Objekten zurück.
collect_set(col) Sammelt die Werte aus einer Spalte in einer Gruppe, wobei Duplikate eliminiert werden, und gibt diese Gruppe von Objekten zurück.
corr(col1, col2) Gibt eine neue Spalte für den Pearson Korrelationskoeffizient für Col1 und Col2 zurück.
count(col) Gibt die Anzahl von Elementen in einer Gruppe zurück.
count_distinct(col, *cols) Gibt eine neue Spalte zurück, die die eindeutige Anzahl einer oder mehrerer Spalten enthält.
count_if(col) Gibt die Anzahl der WAHR-Werte für die Spalte zurück.
count_min_sketch(col, eps, confidence[, seed]) Gibt einen Count-Min Sketch einer Spalte mit dem angegebenen ε, der Konfidenz und dem Seed zurück.
covar_pop(col1, col2) Gibt eine neue Spalte für die Populationskovarianz von Col1 und Col2 zurück.
covar_samp(col1, col2) Gibt eine neue Spalte für die Stichprobenkovarianz von Col1 und Col2 zurück.
every(col) Gibt true zurück, wenn alle Werte der Spalte wahr sind.
first(col[, ignorenulls]) Gibt den ersten Wert in einer Gruppe zurück.
first_value(col[, ignoreNulls]) Gibt den ersten Wert der Spalte für eine Gruppe von Zeilen zurück.
grouping(col) Gibt an, ob eine angegebene Spalte in einer GROUP BY Liste aggregiert ist oder nicht und gibt 1 für aggregierte und 0 für nicht aggregierte Spalten im Resultset zurück.
grouping_id(*cols) Gibt die Gruppierungsebene zurück, die gleich ist.
histogram_numeric(col, nBins) Berechnet ein Histogramm auf numerischem "Col" mithilfe von nb-Bins.
hll_sketch_agg(col[, lgConfigK]) Gibt die aktualisierbare binäre Darstellung der Datasketches HllSketch zurück, die mit lgConfigK arg konfiguriert ist.
hll_union_agg(col[, allowDifferentLgConfigK]) Gibt die aktualisierbare binäre Darstellung der Datasketches HllSketch zurück, die durch das Zusammenführen zuvor erstellter Datasketches HllSketch-Instanzen über eine Datasketches Union-Instanz generiert wurde.
kurtosis(col) Gibt die Kurtosis der Werte in einer Gruppe zurück.
last(col[, ignorenulls]) Gibt den letzten Wert in einer Gruppe zurück.
last_value(col[, ignoreNulls]) Gibt den letzten Wert der Spalte für eine Gruppe von Zeilen zurück.
listagg(col[, delimiter]) Gibt die Verkettung von Nicht-NULL-Eingabewerten zurück, getrennt durch das Trennzeichen.
listagg_distinct(col[, delimiter]) Gibt die Verkettung unterschiedlicher Nicht-Null-Eingabewerte zurück, die durch das Trennzeichen getrennt sind.
max(col) Gibt den Maximalwert des Ausdrucks in einer Gruppe zurück.
max_by(col, ord) Gibt den Wert aus dem Spaltenparameter zurück, der dem Maximalwert des Ord-Parameters zugeordnet ist.
mean(col) Gibt den Mittelwert der Werte in einer Gruppe zurück.
median(col) Gibt den Median der Werte in einer Gruppe zurück.
min(col) Gibt den Minimalwert des Ausdrucks in einer Gruppe zurück.
min_by(col, ord) Gibt den Wert aus dem Spaltenparameter zurück, der dem Minimalwert des Ord-Parameters zugeordnet ist.
mode(col[, deterministic]) Gibt den am häufigsten verwendeten Wert in einer Gruppe zurück.
percentile(col, percentage[, frequency]) Gibt das genaue Perzentil(e) des numerischen Spaltenausdrucks am angegebenen Prozentsatz/Prozentsätzen mit dem Wertbereich in [0,0; 1,0] zurück.
percentile_approx(col, percentage[, accuracy]) Gibt das ungefähre Quantil der numerischen Spaltenspalte zurück, bei der es sich um den kleinsten Wert in den sortierten Spaltenwerten handelt (sortiert von am wenigsten zum größten), sodass nicht mehr als der Prozentsatz der Spaltenwerte kleiner als der Wert oder gleich diesem Wert ist.
product(col) Gibt das Produkt der Werte in einer Gruppe zurück.
regr_avgx(y, x) Gibt den Mittelwert der unabhängigen Variablen für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_avgy(y, x) Gibt den Mittelwert der abhängigen Variablen für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_count(y, x) Gibt die Anzahl von Nicht-Null-Zahlenpaaren in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_intercept(y, x) Gibt den Schnittpunkt der univariaten linearen Regressionslinie für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_r2(y, x) Gibt den Koeffizienten der Bestimmung für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_slope(y, x) Gibt die Steigung der linearen Regressionslinie für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_sxx(y, x) Gibt REGR_COUNT(y, x) * VAR_POP(x) für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_sxy(y, x) Gibt REGR_COUNT(y, x) * COVAR_POP(y, x) für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
regr_syy(y, x) Gibt REGR_COUNT(y, x) * VAR_POP(y) für Nicht-Null-Paare in einer Gruppe zurück, wobei y die abhängige Variable und x die unabhängige Variable ist.
skewness(col) Gibt die Schiefe der Werte in einer Gruppe zurück.
some(col) Gibt true zurück, wenn mindestens ein Wert von Col wahr ist.
std(col) Alias für stddev_samp.
stddev(col) Alias für stddev_samp.
stddev_pop(col) Gibt die Populationsstandardabweichung des Ausdrucks in einer Gruppe zurück.
stddev_samp(col) Gibt die unvoreingenommene Beispielstandardabweichung des Ausdrucks in einer Gruppe zurück.
string_agg(col[, delimiter]) Gibt die Verkettung von Nicht-NULL-Eingabewerten zurück, getrennt durch das Trennzeichen.
string_agg_distinct(col[, delimiter]) Gibt die Verkettung unterschiedlicher Nicht-Null-Eingabewerte zurück, die durch das Trennzeichen getrennt sind.
sum(col) Gibt die Summe aller Werte im Ausdruck zurück.
sum_distinct(col) Gibt die Summe unterschiedlicher Werte im Ausdruck zurück.
try_avg(col) Gibt den Mittelwert zurück, der aus Werten einer Gruppe berechnet wird, und das Ergebnis ist null beim Überlauf.
try_sum(col) Gibt die Summe aus Werten einer Gruppe zurück, wobei das Ergebnis null ist bei Überlauf.
var_pop(col) Gibt die Populationsabweichung der Werte in einer Gruppe zurück.
var_samp(col) Gibt die unvoreingenommene Stichprobenabweichung der Werte in einer Gruppe zurück.
variance(col) Alias für var_samp

Fensterfunktionen

Funktion Description
cume_dist() Gibt die kumulierte Verteilung von Werten innerhalb einer Fensterpartition zurück, d. h. den Bruchteil der Zeilen, die sich unter der aktuellen Zeile befinden.
dense_rank() Gibt den Rang von Zeilen innerhalb einer Fensterpartition ohne Lücken zurück.
lag(col[, offset, default]) Gibt den Wert zurück, der Zeilen vor der aktuellen Zeile versetzt ist, und gibt den Standardwert zurück, wenn vor der aktuellen Zeile weniger als versetzte Zeilen vorhanden sind.
lead(col[, offset, default]) Gibt den Wert zurück, der um Zeilen nach der aktuellen Zeile verschoben ist, und den Default-Wert, falls weniger als die angegebene Anzahl an Zeilen nach der aktuellen Zeile vorhanden sind.
nth_value(col, offset[, ignoreNulls]) Gibt den Wert zurück, der die versetzte Zeile des Fensterbereichs ist (von 1 gezählt), und null, wenn die Größe des Fensterbereichs kleiner als die Offset-Zeilen ist.
ntile(n) Gibt die Ntile-Gruppen-ID (von 1 bis n einschließlich) in einer geordneten Partition eines Fensters zurück.
percent_rank() Gibt den relativen Rang zurück (d. h.
rank() Gibt den Rang von Zeilen innerhalb einer Fensterpartition zurück.
row_number() Gibt eine sequenzielle Zahl ab 1 innerhalb einer Fensterpartition zurück.

Generatorfunktionen

Funktion Description
explode(col) Gibt eine neue Zeile für jedes einzelne Element im angegebenen Array oder der angegebenen Map zurück.
explode_outer(col) Gibt eine neue Zeile für jedes einzelne Element im angegebenen Array oder der angegebenen Map zurück.
inline(col) Erstellt aus einem Array von Strukturen eine Tabelle.
inline_outer(col) Erstellt aus einem Array von Strukturen eine Tabelle.
posexplode(col) Gibt eine neue Zeile für jedes Element mit Position im angegebenen Array oder der angegebenen Abbildung zurück.
posexplode_outer(col) Gibt eine neue Zeile für jedes Element mit Position im angegebenen Array oder der angegebenen Abbildung zurück.
stack(*cols) Trennt Spalte1, ..., Spaltek in n Zeilen.

Partitionstransformationsfunktionen

Funktion Description
partitioning.years(col) Eine Transformation für Zeitstempel und Datumsangaben zum Partitionieren von Daten in Jahre.
partitioning.months(col) Eine Transformation für Zeitstempel und Datumsangaben zum Partitionieren von Daten in Monate.
partitioning.days(col) Eine Transformation für Zeitstempel und Datumsangaben zum Partitionieren von Daten in Tage.
partitioning.hours(col) Eine Transformation für Zeitstempel zum Partitionieren von Daten in Stunden.
partitioning.bucket(numBuckets, col) Eine Transformation für jeden beliebigen Typ, die durch einen Hash der Eingabespalte partitioniert wird.

H3 Geospatialfunktionen (Databricks)

Funktion Description
h3_boundaryasgeojson(col) Gibt die Grenze einer H3-Zelle im GeoJSON-Format zurück.
h3_boundaryaswkb(col) Gibt die Grenze einer H3-Zelle im WKB-Format zurück.
h3_boundaryaswkt(col) Gibt die Grenze einer H3-Zelle im WKT-Format zurück.
h3_centerasgeojson(col) Gibt die Mitte einer H3-Zelle im GeoJSON-Format zurück.
h3_centeraswkb(col) Gibt die Mitte einer H3-Zelle im WKB-Format zurück.
h3_centeraswkt(col) Gibt die Mitte einer H3-Zelle im WKT-Format zurück.
h3_compact(col) Komprimiert den Eingabesatz von H3-Zell-IDs so gut wie möglich.
h3_coverash3(col1,col2) Gibt ein Array von Zell-IDs zurück, die als 64-Bit Ganzzahlen dargestellt werden und die mit der angegebenen Auflösung korrespondierenden Sechsecke oder Fünfecke darstellen, die die Linear- oder Arealgeografie der Eingabe minimal abdecken.
h3_coverash3string(col1,col2) Gibt ein Array von Zellenkennungen zurück, die als Zeichenfolgen dargestellt werden und Sechsecke oder Fünfecke mit der angegebenen Auflösung darstellen, die die Linear- oder Arealgeografie der Eingabe minimal abdecken.
h3_distance(col1,col2) Gibt den Rasterabstand zwischen zwei H3-Zell-IDs zurück.
h3_h3tostring(col) Konvertiert eine H3-Zell-ID in eine Zeichenfolge, die die Zellen-ID als hexadezimale Zeichenfolge darstellt.
h3_hexring(col1,col2) Gibt ein Array von H3-Zell-IDs zurück, die einen hohlen sechseckigen Ring zentriert an der Ursprungszelle H3 bilden und sich im Rasterabstand k von der Ursprungs-H3-Zelle befinden
h3_ischildof(col1,col2) Gibt True zurück, wenn die erste H3-Zell-ID ein Kind der zweiten H3-Zell-ID ist.
h3_ispentagon(col) Gibt zurück True , wenn die Eingabe-H3-Zell-ID ein Fünfeck darstellt.
h3_isvalid(col) Gibt zurück True , wenn die Eingabe eine gültige H3-Zell-ID darstellt.
h3_kring(col1,col2) Gibt die H3-Zell-IDs zurück, die sich in einer (Gitter-)Entfernung k von der ursprünglichen Zell-ID befinden.
h3_kringdistances(col1,col2) Gibt alle H3-Zell-IDs (dargestellt als lange ganze Zahlen oder Zeichenfolgen) innerhalb des Rasterabstands k von der Ursprungs-H3-Zell-ID zusammen mit ihrem Abstand zur Ursprungs-H3-Zell-ID zurück.
h3_longlatash3(col1,col2,col3) Gibt die H3-Zell-ID (als BIGINT) zurück, die dem bereitgestellten Längengrad und breitengrad bei der angegebenen Auflösung entspricht.
h3_longlatash3string(col1,col2,col3) Gibt die H3-Zell-ID (als Zeichenfolge) zurück, die dem angegebenen Längengrad und breitengrad in der angegebenen Auflösung entspricht.
h3_maxchild(col1,col2) Gibt das Kind mit dem maximalen Wert der Eingabe-H3-Zelle bei der angegebenen Auflösung zurück.
h3_minchild(col1,col2) Gibt das Kind mit dem Minimalwert der H3-Eingabezelle bei der angegebenen Auflösung zurück.
h3_pointash3(col1,col2) Gibt die H3-Zell-ID (als BIGINT) zurück, die dem angegebenen Punkt in der angegebenen Auflösung entspricht.
h3_pointash3string(col1,col2) Gibt die H3-Zellen-ID (als Zeichenfolge) zurück, die dem angegebenen Punkt an der angegebenen Auflösung entspricht.
h3_polyfillash3(col1,col2) Gibt ein Array von Zell-IDs zurück, die als lange ganze Zahlen dargestellt werden, die Hexagone oder Pentagone der angegebenen Auflösung entsprechen und die in der Arealgeografie der Eingabe enthalten sind.
h3_polyfillash3string(col1,col2) Gibt ein Array von Zell-IDs als Zeichenfolgen zurück, die den in der Eingabeflächen-Geografie enthaltenen Sechsecken oder Fünfecken der angegebenen Auflösung entsprechen.
h3_resolution(col) Gibt die Auflösung der H3-Zellen-ID zurück.
h3_stringtoh3(col) Konvertiert die Zeichenfolgendarstellung H3-Zell-ID in die große ganzzahlige Darstellung
h3_tessellateaswkb(col1,col2) Gibt ein Array von Strukturen zurück, die Chips darstellen, die die Geographie bei der angegebenen Auflösung abdecken.
h3_tochildren(col1,col2) Gibt die untergeordneten H3-Zell-IDs der Eingabe-H3-Zell-ID bei der angegebenen Auflösung zurück.
h3_toparent(col1,col2) Gibt die übergeordnete H3-Zell-ID der Eingabe-H3-Zell-ID auf der angegebenen Auflösung zurück.
h3_try_coverash3(col1,col2) Gibt ein Array von Zell-IDs zurück, die als 64-Bit Ganzzahlen dargestellt werden und die mit der angegebenen Auflösung korrespondierenden Sechsecke oder Fünfecke darstellen, die die Linear- oder Arealgeografie der Eingabe minimal abdecken.
h3_try_coverash3string(col1,col2) Gibt ein Array von Zellenkennungen zurück, die als Zeichenfolgen dargestellt werden und Sechsecke oder Fünfecke mit der angegebenen Auflösung darstellen, die die Linear- oder Arealgeografie der Eingabe minimal abdecken.
h3_try_distance(col1,col2) Gibt den Rasterabstand zwischen zwei H3-Zell-IDs derselben Auflösung zurück oder None wenn der Abstand nicht definiert ist.
h3_try_polyfillash3(col1,col2) Gibt ein Array von Zell-IDs zurück, die als lange ganze Zahlen dargestellt werden, die Hexagone oder Pentagone der angegebenen Auflösung entsprechen und die in der Arealgeografie der Eingabe enthalten sind.
h3_try_polyfillash3string(col1,col2) Gibt ein Array von Zell-IDs als Zeichenfolgen zurück, die den in der Eingabeflächen-Geografie enthaltenen Sechsecken oder Fünfecken der angegebenen Auflösung entsprechen.
h3_try_tessellateaswkb(col1,col2) Gibt ein Array von Strukturen zurück, die die Chips darstellen, die die Geografie in der angegebenen Auflösung abdecken, oder null, wenn die Geometrie ungültig ist.
h3_try_validate(col) Gibt den Eingabewert zurück, wenn es sich um eine gültige H3-Zelle handelt, oder andernfalls "None".
h3_uncompact(col1,col2) Entkompensiert den Eingabesatz von H3-Zell-IDs auf die angegebene Auflösung.
h3_validate(col) Gibt den Eingabewert zurück, wenn es sich um eine gültige H3-Zelle handelt oder andernfalls einen Fehler ausgibt.

ST-Geospatialfunktionen (Databricks)

Funktion Description
st_addpoint(col1,col2,col3) Fügt an der n-ten Position in der Eingabezeilen-Geographie oder Geometrie einen neuen Punkt hinzu.
st_area(col) Gibt den Bereich der Eingabegeografie oder Geometrie zurück.
st_asbinary(col1,col2) Gibt den Eingabewert "Geography" oder "Geometry " im WKB-Format zurück.
st_asewkb(col1,col2) Gibt den Eingabegeometriewert im EWKB-Format zurück.
st_asewkt(col) Gibt den Eingabewert "Geography" oder "Geometry " im EWKT-Format zurück.
st_asgeojson(col) Gibt den Eingabewert "Geography" oder "Geometry " im GeoJSON-Format zurück.
st_astext(col) Gibt den Eingabewert "Geography" oder "Geometry " im WKT-Format zurück.
st_aswkb(col1,col2) Gibt den Eingabewert "Geography" oder "Geometry " im WKB-Format zurück.
st_aswkt(col) Gibt den Eingabewert "Geography" oder "Geometry " im WKT-Format zurück.
st_buffer(col1,col2) Gibt den Puffer der Eingabegeometrie mithilfe des angegebenen Radius zurück.
st_centroid(col) Gibt den Mittelpunkt der Eingabegeometrie als 2D-Punktgeometrie zurück.
st_concavehull(col1,col2,col3) Gibt den Konkavrumpf der Eingabegeometrie als Geometrie mit dem angegebenen Längenverhältnis zurück.
st_contains(col1,col2) Gibt zurück True , wenn die erste Geometrie die zweite Geometrie enthält.
st_convexhull(col) Gibt den konvexen Rumpf der Eingabegeometrie als Geometrie zurück.
st_covers(col1,col2) Gibt zurück True , wenn die erste Geometrie die zweite Geometrie abdeckt.
st_difference(col1,col2) Gibt die Punktmenge zurück, die den Unterschied der beiden Eingabegeometrien als 2D-Geometrie darstellt.
st_dimension(col) Gibt die topologische Dimension der 2D-Projektion der Eingabegeometrie zurück.
st_disjoint(col1,col2) Gibt zurück True , wenn die beiden Geometrien getrennt sind.
st_distance(col1,col2) Gibt den 2D-kartesischen Abstand zwischen den beiden Eingabegeometrien zurück.
st_distancesphere(col1,col2) Gibt den kugelförmigen Abstand (in Metern) zwischen zwei Punktgeometrien zurück, gemessen auf einer Kugel, deren Radius der mittlere Radius des WGS84-Ellipsoids ist.
st_distancespheroid(col1,col2) Gibt den geodesischen Abstand (in Metern) zwischen zwei Punktgeometrien auf dem WGS84-Ellipsoid zurück.
st_dwithin(col1,col2,col3) Gibt zurück True , wenn der 2D-kartesische Abstand zwischen den beiden Eingabegeometrien kleiner oder gleich dem Eingabeabstand ist.
st_endpoint(col) Gibt den letzten Punkt der Eingabezeilenzeichenfolge zurück oder None wenn sie nicht vorhanden ist.
st_envelope(col) Gibt den 2D-kartesischen, achsenparallel ausgerichteten Mindestbegrenzungsrahmen der nicht leeren Eingabegeometrie als Geometrieobjekt zurück.
st_envelope_agg(col) Gibt den Umschlag aller Geometrien in der Spalte zurück oder None wenn die Spalte null Zeilen enthält oder nur None Werte enthält.
st_equals(col1,col2) Gibt zurück True , wenn die beiden Geometrien geometrisch gleich sind
st_exteriorring(col) Gibt den äußeren Ring (Shell) als Linienzug des Eingabewerts der Geografie oder Geometriewert zurück, der ein Polygon darstellt.
st_flipcoordinates(col) Tauscht X- und Y-Koordinaten der Eingabegeometrie
st_geogfromgeojson(col) Analysiert die GeoJSON-Beschreibung und gibt den entsprechenden Geografiewert zurück.
st_geogfromtext(col) Analysiert die WKT-Beschreibung und gibt den entsprechenden Geografiewert zurück.
st_geogfromwkb(col) Analysiert die Eingabe-WKB-Beschreibung und gibt den entsprechenden Geografiewert zurück.
st_geogfromwkt(col) Analysiert die WKT-Beschreibung und gibt den entsprechenden Geografiewert zurück.
st_geohash(col1,col2) Gibt den Geohash der Eingabegeometrie zurück.
st_geometryn(col1,col2) Gibt das 1-basierte n-th-Element der Eingabe-Multigeometrie zurück oder None wenn es nicht vorhanden ist.
st_geometrytype(col) Gibt den Typ des Eingabegeografie - oder Geometriewerts als Zeichenfolge zurück.
st_geomfromewkb(col) Analysiert die EWKB-Eingabebeschreibung und gibt den entsprechenden Geometriewert zurück.
st_geomfromgeohash(col) Gibt das Geohash-Rasterfeld zurück, das dem Eingabe-Geohash-Wert als 2D-Polygongeometrie entspricht.
st_geomfromgeojson(col) Analysiert die GeoJSON-Beschreibung und gibt den entsprechenden Geometriewert zurück.
st_geomfromtext(col1,col2) Analysiert die WKT-Beschreibung und gibt den entsprechenden Geometriewert zurück.
st_geomfromwkb(col1,col2) Analysiert die Eingabe-WKB-Beschreibung und gibt den entsprechenden Geometriewert zurück.
st_geomfromwkt(col1,col2) Analysiert die WKT-Beschreibung und gibt den entsprechenden Geometriewert zurück.
st_intersection(col1,col2) Gibt die Punktsatz-Schnittmenge der beiden Eingabegeometrien als 2D-Geometrie zurück.
st_intersects(col1,col2) Gibt zurück True , wenn sich die beiden Geometrien überschneiden
st_isempty(col) Gibt zurück True , wenn der Eingabewert "Geography" oder "Geometry " keine nicht leeren Punkte enthält.
st_isvalid(col) Gibt zurück True , wenn die Eingabegeometrie eine gültige Geometrie im OGC-Sinne ist.
st_length(col) Gibt die Länge des Eingabegeometrie- oder Geografiewerts zurück.
st_m(col) Gibt die M-Koordinate der Eingabepunktgeometrie zurück oder None wenn die Eingabepunktgeometrie leer ist oder keine M-Koordinate vorhanden ist.
st_makeline(col) Gibt eine Linienzeichenfolgengeometrie zurück, deren Punkte die nicht leeren Punkte der Geometrien im Eingabearray von Geometrien sind, die als Punkte, Linienzeichenfolgen oder Multipoints erwartet werden.
st_makepolygon(col1,col2) Erstellt ein Polygon aus der äußeren Begrenzung und einem optionalen Array von inneren Begrenzungen, dargestellt als geschlossene Linienzüge.
st_multi(col) Gibt den Eingabewert "Geography" oder "Geometry " als gleichwertigen multispatialen Wert zurück, wobei die ursprüngliche SRID beibehalten wird.
st_ndims(col) Gibt die Koordinatendimension des Eingabegeografie - oder Geometriewerts zurück.
st_npoints(col) Gibt die Anzahl nicht leerer Punkte im Eingabewert "Geography" oder "Geometry " zurück.
st_numgeometries(col) Gibt die Anzahl der Geometrien in der Eingabegeometrie zurück.
st_perimeter(col) Gibt den Umkreis der Eingabegeografie oder Geometrie zurück.
st_point(col1,col2,col3) Gibt eine 2D-Punktgeometrie mit den angegebenen x- und y-Koordinaten und SRID-Werten zurück.
st_pointfromgeohash(col) Gibt die Mitte des Geohash-Rasterfelds zurück, das dem Eingabe-Geohash-Wert als 2D-Punktgeometrie entspricht.
st_pointn(col1,col2) Gibt den 1-basierten n-ten Punkt des übergebenen LineString zurück oder None, wenn er nicht existiert.
st_removepoint(col1,col2) Entfernt den n-th-Punkt aus der Eingabezeilengeografie oder Geometrie.
st_reverse(col) Kehrt die Reihenfolge der Scheitelpunkte in der Eingabe-Geografie oder im Geometriewert um.
st_rotate(col1,col2) Dreht die Eingabegeometrie um die Z-Achse um den angegebenen Drehwinkel (in Bogenmaßen)
st_scale(col1,col2,col3,col4) Skaliert die Eingabegeometrie in den Richtungen X, Y und Z (optional) mithilfe der angegebenen Faktoren.
st_setpoint(col1,col2,col3) Legt den n-th-Punkt in der Eingabezeilengeografie oder Geometrie fest
st_setsrid(col1,col2) Gibt einen neuen Geometry-Wert zurück, dessen SRID der angegebene SRID-Wert ist.
st_simplify(col1,col2) Vereinfacht die Eingabegeometrie mithilfe des Douglas-Peucker-Algorithmus.
st_srid(col) Gibt die SRID des Eingabewerts für die Geodaten zurück.
st_startpoint(col) Gibt den ersten Punkt der Eingabezeilenzeichenfolge zurück oder None wenn sie nicht vorhanden ist.
st_touches(col1,col2) Gibt zurück True , wenn sich die beiden Geometrien gegenseitig berühren
st_transform(col1,col2) Transformiert die X- und Y-Koordinaten der Eingabegeometrie in das koordinatenreferenzsystem (CRS), das vom bereitgestellten SRID-Wert beschrieben wird.
st_translate(col1,col2,col3,col4) Übersetzt die Eingabegeometrie in den Richtungen X, Y und Z (optional) mithilfe der bereitgestellten Offsets
st_union(col1,col2) Gibt die Punktsatz-Vereinigung der beiden Eingabegeometrien als 2D-Geometrie zurück.
st_union_agg(col) Gibt die punktweise Vereinigung aller Geometrien in der Spalte zurück oder None wenn die Spalte null Zeilen enthält oder nur None Werte enthält.
st_within(col1,col2) Gibt zurück True , wenn sich die erste Geometrie innerhalb der zweiten Geometrie befindet.
st_x(col) Gibt die X-Koordinate der Eingabepunktgeometrie zurück oder None wenn die Eingabepunktgeometrie leer ist.
st_xmax(col) Gibt die maximale X-Koordinate der Eingabegeometrie zurück oder None wenn die Eingabegeometrie leer ist.
st_xmin(col) Gibt die minimale X-Koordinate der Eingabegeometrie zurück oder None wenn die Eingabegeometrie leer ist.
st_y(col) Gibt die Y-Koordinate der Eingabepunktgeometrie zurück oder None wenn die Eingabepunktgeometrie leer ist.
st_ymax(col) Gibt die maximale Y-Koordinate der Eingabegeometrie zurück oder None wenn die Eingabegeometrie leer ist.
st_ymin(col) Gibt die minimale Y-Koordinate der Eingabegeometrie zurück oder None wenn die Eingabegeometrie leer ist.
st_z(col) Gibt die Z-Koordinate der Eingabepunktgeometrie zurück oder None wenn die Eingabepunktgeometrie leer ist oder keine Z-Koordinate vorhanden ist.
st_zmax(col) Gibt die maximale Z-Koordinate der Eingabegeometrie zurück, oder None wenn die Eingabegeometrie leer ist oder keine Z-Koordinaten enthält
st_zmin(col) Gibt die minimale Z-Koordinate der Eingabegeometrie zurück, oder None wenn die Eingabegeometrie leer ist oder keine Z-Koordinaten enthält
to_geography(col) Analysiert den Eingabewert BINARY oder den Zeichenfolgenwert und gibt den entsprechenden Geografiewert zurück.
to_geometry(col) Analysiert den Eingabe-BINARY- oder Zeichenfolgenwert und gibt den entsprechenden Geometry-Wert zurück.
try_to_geography(col) Analysiert den Eingabewert BINARY oder den Zeichenfolgenwert und gibt den entsprechenden Geography-Wert zurück oder None wenn die Eingabe ungültig ist.
try_to_geometry(col) Analysiert den Eingabe-BINARY- oder Zeichenfolgenwert und gibt den entsprechenden Geometriewert zurück oder None wenn die Eingabe ungültig ist.

CSV-Funktionen

Funktion Description
from_csv(col, schema[, options]) Analysiert eine Spalte, die eine CSV-Zeichenfolge enthält, in eine Zeile mit dem angegebenen Schema.
schema_of_csv(csv[, options]) Analysiert eine CSV-Zeichenfolge und leitet das Schema im DDL-Format ab.
to_csv(col[, options]) Konvertiert eine Spalte, die einen StructType enthält, in eine CSV-Zeichenfolge.

JSON-Funktionen

Funktion Description
from_json(col, schema[, options]) Analysiert eine Spalte mit einer JSON-Zeichenfolge in einen MapType mit StringType als Schlüsseltyp, StructType oder ArrayType mit dem angegebenen Schema.
get_json_object(col, path) Extrahiert json-Objekt aus einer JSON-Zeichenfolge basierend auf dem angegebenen JSON-Pfad und gibt json-Zeichenfolge des extrahierten JSON-Objekts zurück.
json_array_length(col) Gibt die Anzahl der Elemente im äußersten JSON-Array zurück.
json_object_keys(col) Gibt alle Schlüssel des äußersten JSON-Objekts als Array zurück.
json_tuple(col, *fields) Erstellt eine neue Zeile für eine JSON-Spalte gemäß den angegebenen Feldnamen.
schema_of_json(json[, options]) Analysiert eine JSON-Zeichenfolge und leitet das Schema im DDL-Format ab.
to_json(col[, options]) Konvertiert eine Spalte, die einen StructType, ArrayType oder einen MapType enthält, in eine JSON-Zeichenfolge.

Variant-Funktionen

Funktion Description
is_variant_null(v) Überprüfen Sie, ob ein Variant-Wert null ist.
parse_json(col) Analysiert eine Spalte mit einer JSON-Zeichenfolge in einen VariantType.
schema_of_variant(v) Gibt das Schema im SQL-Format einer Variante zurück.
schema_of_variant_agg(v) Gibt das zusammengeführte Schema im SQL-Format einer Variant-Spalte zurück.
try_variant_get(v, path, targetType) Extrahiert eine Teilvariante von v gemäß dem Pfad und wandelt dann die Teilvariante in "targetType" um.
variant_get(v, path, targetType) Extrahiert eine Teilvariante von v gemäß dem Pfad und wandelt dann die Teilvariante in "targetType" um.
try_parse_json(col) Analysiert eine Spalte mit einer JSON-Zeichenfolge in einen VariantType.
to_variant_object(col) Konvertiert eine Spalte mit geschachtelten Eingaben (Array/Map/Struktur) in eine Variante, bei der Karten und Strukturen in Variantenobjekte konvertiert werden, die im Gegensatz zu SQL-Strukturen ungeordnet sind.

XML-Funktionen

Funktion Description
from_xml(col, schema[, options]) Analysiert eine Spalte, die eine XML-Zeichenfolge enthält, in eine Zeile mit dem angegebenen Schema.
schema_of_xml(xml[, options]) Analysiert eine XML-Zeichenfolge und leitet das Schema im DDL-Format ab.
to_xml(col[, options]) Konvertiert eine Spalte, die einen StructType enthält, in eine XML-Zeichenfolge.
xpath(xml, path) Gibt ein String-Array von Werten innerhalb der Knoten von XML zurück, die dem XPath-Ausdruck entsprechen.
xpath_boolean(xml, path) Gibt true zurück, wenn der XPath-Ausdruck zu true ausgewertet wird oder ein übereinstimmender Knoten gefunden wird.
xpath_double(xml, path) Gibt einen doppelten Wert, den Wert Null zurück, wenn keine Übereinstimmung gefunden wird, oder NaN, wenn eine Übereinstimmung gefunden wird, aber der Wert nicht numerisch ist.
xpath_float(xml, path) Gibt einen Float-Wert zurück, den Wert Null, wenn keine Übereinstimmung gefunden wird, oder NaN, wenn eine Übereinstimmung gefunden wird, aber der Wert nicht numerisch ist.
xpath_int(xml, path) Gibt einen ganzzahligen Wert oder den Wert Null zurück, wenn keine Übereinstimmung gefunden wird, oder eine Übereinstimmung gefunden wird, der Wert ist jedoch nicht numerisch.
xpath_long(xml, path) Gibt einen langen ganzzahligen Wert oder den Wert Null zurück, wenn keine Übereinstimmung gefunden wird, oder eine Übereinstimmung gefunden wird, aber der Wert ist nicht numerisch.
xpath_number(xml, path) Gibt einen doppelten Wert, den Wert Null zurück, wenn keine Übereinstimmung gefunden wird, oder NaN, wenn eine Übereinstimmung gefunden wird, aber der Wert nicht numerisch ist.
xpath_short(xml, path) Gibt einen kurzen ganzzahligen Wert oder den Wert Null zurück, wenn keine Übereinstimmung gefunden wird, oder eine Übereinstimmung gefunden wird, aber der Wert ist nicht numerisch.
xpath_string(xml, path) Gibt den Textinhalt des ersten XML-Knotens zurück, der dem XPath-Ausdruck entspricht.

URL-Funktionen

Funktion Description
parse_url(url, partToExtract[, key]) Extrahiert einen angegebenen Teil aus einer URL.
try_parse_url(url, partToExtract[, key]) Versuchen Sie, den parse_url Vorgang auszuführen, aber geben Sie einen NULL-Wert zurück, anstatt einen Fehler zu auslösen, wenn die Analyse nicht ausgeführt werden kann.
url_decode(str) Decodiert eine URL-codierte Zeichenfolge im application/x-www-form-urlencoded Format in ihr ursprüngliches Format.
url_encode(str) Codiert eine Zeichenfolge in eine URL-codierte Zeichenfolge im Format "application/x-www-form-urlencoded".
try_url_decode(str) Versuchen Sie, den url_decode Vorgang auszuführen, aber geben Sie einen NULL-Wert zurück, anstatt einen Fehler zu auslösen, wenn die Decodierung nicht ausgeführt werden kann.

Sonstige Funktionen

Funktion Description
aes_decrypt(input, key[, mode, padding, aad]) Gibt einen entschlüsselten Wert der Eingabe mithilfe von AES im Modus mit Abstand zurück.
aes_encrypt(input, key[, mode, padding, iv, aad]) Gibt einen verschlüsselten Wert der Eingabe mithilfe von AES im angegebenen Modus mit dem angegebenen Abstand zurück.
assert_true(col[, errMsg]) Gibt NULL zurück, wenn die Eingabespalte wahr ist, oder wirft eine Ausnahme mit der bereitgestellten Fehlermeldung.
bitmap_bit_position(col) Gibt die Bitposition für die angegebene Eingabespalte zurück.
bitmap_bucket_number(col) Gibt die Bucketnummer für die angegebene Eingabespalte zurück.
bitmap_count(col) Gibt die Anzahl der festgelegten Bits in der Eingabebitmap zurück.
current_catalog() Diese Funktion gibt den aktuellen Katalog zurück.
current_database() Gibt die aktuelle Datenbank zurück.
current_schema() Gibt das aktuelle Schema zurück.
current_user() Gibt den aktuellen Benutzer zurück.
hll_sketch_estimate(col) Gibt die geschätzte Anzahl eindeutiger Werte für die binäre Darstellung einer Datasketches HllSketch zurück.
hll_union(col1, col2[, allowDifferentLgConfigK]) Führt zwei binäre Darstellungen von Datasketches HllSketch -Objekten mit einem Datasketches Union -Objekt zusammen.
input_file_block_length() Gibt die Länge des gelesenen Blocks zurück oder -1, falls nicht verfügbar.
input_file_block_start() Gibt den Anfangsoffset des gelesenen Blocks oder -1 zurück, falls nicht verfügbar.
input_file_name() Erstellt eine Zeichenfolgenspalte für den Dateinamen der aktuellen Spark-Aufgabe.
java_method(*cols) Ruft eine Methode mit Reflexion auf.
monotonically_increasing_id() Eine Spalte, die monoton steigende 64-Bit-Ganzzahlen generiert.
raise_error(errMsg) Löst eine Ausnahme mit der bereitgestellten Fehlermeldung aus.
reflect(*cols) Ruft eine Methode mit Reflexion auf.
session_user() Gibt den Benutzernamen des aktuellen Ausführungskontexts zurück.
spark_partition_id() Eine Spalte für die Partitions-ID.
try_aes_decrypt(input, key[, mode, padding, aad]) Versuchen Sie, den aes_decrypt Vorgang auszuführen, geben Sie jedoch einen NULL-Wert zurück, anstatt einen Fehler zu auslösen, wenn die Entschlüsselung nicht ausgeführt werden kann.
try_reflect(*cols) Versuchen Sie, einen reflect Vorgang auszuführen, aber geben Sie einen NULL-Wert zurück, anstatt einen Fehler zu auslösen, wenn die Invoke-Methode eine Ausnahme ausgelöst hat.
typeof(col) Gibt eine DDL-formatierte Typzeichenfolge für den Datentyp der Eingabe zurück.
user() Gibt den aktuellen Benutzer zurück.
version() Gibt die Spark-Version zurück.

UDF-, UDTF-, UDT-Funktionen

Funktion Description
call_udf(udfName, *cols) Rufen Sie eine benutzerdefinierte Funktion auf.
pandas_udf([f, returnType, functionType]) Erstellt eine benutzerdefinierte Pandas-Funktion (a.k.a.
udf([f, returnType, useArrow]) Erstellt eine benutzerdefinierte Funktion (UDF).
udtf([cls, returnType, useArrow]) Erstellt eine benutzerdefinierte Tabellenfunktion (UDTF).
unwrap_udt(col) Entpacken Sie die UDT-Datentypspalte in ihren zugrunde liegenden Typ.

Tabellenwertfunktionen

Funktion Description
TableValuedFunction.collations() Rufen Sie alle Spark SQL-Zeichenfolgensortierungen ab.
TableValuedFunction.explode(collection) Gibt einen DataFrame zurück, der eine neue Zeile für jedes Element in der angegebenen Matrix oder Zuordnung enthält.
TableValuedFunction.explode_outer(collection) Gibt einen DataFrame zurück, der mit einer neuen Zeile für jedes Element und dessen Position im angegebenen Array oder der angegebenen Map versehen ist.
TableValuedFunction.inline(input) Erstellt aus einem Array von Strukturen eine Tabelle.
TableValuedFunction.inline_outer(input) Erstellt aus einem Array von Strukturen eine Tabelle.
TableValuedFunction.json_tuple(input, *fields) Erstellt eine neue Zeile für eine JSON-Spalte gemäß den angegebenen Feldnamen.
TableValuedFunction.posexplode(collection) Gibt einen DataFrame zurück, der mit einer neuen Zeile für jedes Element und dessen Position im angegebenen Array oder der angegebenen Map versehen ist.
TableValuedFunction.posexplode_outer(collection) Gibt einen DataFrame zurück, der mit einer neuen Zeile für jedes Element und dessen Position im angegebenen Array oder der angegebenen Map versehen ist.
TableValuedFunction.range(start[, end, ...]) Erstellen Sie einen DataFrame mit einer einzelnen pyspark.sql.types.LongType-Spalte namens ID, die Elemente in einem Bereich von Anfang bis Ende (exklusiv) mit Schrittwertschritt enthält.
TableValuedFunction.sql_keywords() Abrufen Sie Spark SQL-Schlüsselwörter.
TableValuedFunction.stack(n, *fields) Trennt Spalte1, ..., Spaltek in n Zeilen.
TableValuedFunction.variant_explode(input) Trennt ein Variant-Objekt/Array in mehrere Zeilen, die die Felder/Elemente enthalten.
TableValuedFunction.variant_explode_outer(input) Trennt ein Variant-Objekt/Array in mehrere Zeilen, die die Felder/Elemente enthalten.