Partager via


Fonctions PySpark

Cette page fournit la liste des fonctions Sql PySpark disponibles sur Databricks avec des liens vers la documentation de référence correspondante.

Fonctions normales

Fonction Descriptif
broadcast(df) Marque un DataFrame comme suffisamment petit pour une utilisation dans les jointures de diffusion.
call_function(funcName, *cols) Appelez une fonction SQL.
col(col) Retourne une colonne basée sur le nom de colonne donné.
column(col) Retourne une colonne basée sur le nom de colonne donné.
lit(col) Crée une colonne de valeur littérale.
expr(str) Analyse la chaîne d’expression pour la colonne qu’elle représente

Fonctions conditionnelles

Fonction Descriptif
coalesce(*cols) Retourne la première colonne qui n’est pas nulle.
ifnull(col1, col2) Retourne col2 si col1 est null ou col1 sinon.
nanvl(col1, col2) Retourne col1 si ce n’est pas NaN, ou col2 si col1 est NaN.
nullif(col1, col2) Retourne la valeur Null si col1 est égal à col2 ou col1 dans le cas contraire.
nullifzero(col) Retourne null si col est égal à zéro, ou col sinon.
nvl(col1, col2) Retourne col2 si col1 est null ou col1 sinon.
nvl2(col1, col2, col3) Retourne col2 si col1 n’est pas null ou col3 sinon.
when(condition, value) Évalue une liste de conditions et retourne une expression de résultat parmi plusieurs possibilités.
zeroifnull(col) Retourne zéro si col est nul ou col sinon.

Fonctions de correspondance de modèle

Fonction Descriptif
equal_null(col1, col2) Retourne le même résultat que l’opérateur EQUAL(=) pour les opérandes non null, mais retourne true si les deux sont null, false si l’un d’eux est null.
ilike(str, pattern[, escapeChar]) Retourne vrai si str correspond au motif avec échappement sans respect de la casse, null si l'un des arguments est null, faux sinon.
isnan(col) Expression qui retourne true si la colonne est NaN.
isnotnull(col) Retourne la valeur true si col n’est pas null ou false dans le cas contraire.
isnull(col) Expression qui retourne true si la colonne a la valeur Null.
like(str, pattern[, escapeChar]) Retourne vrai si str correspond au modèle avec caractère d'échappement, null si un des arguments est null, faux sinon.
regexp(str, regexp) Retourne true si str correspond à la regexp regex Java, ou false dans le cas contraire.
regexp_like(str, regexp) Retourne true si str correspond à la regexp regex Java, ou false dans le cas contraire.
rlike(str, regexp) Retourne true si str correspond à la regexp regex Java, ou false dans le cas contraire.

Fonctions de tri

Fonction Descriptif
asc(col) Retourne une expression de tri pour la colonne cible dans l’ordre croissant.
asc_nulls_first(col) Retourne une expression de tri basée sur l'ordre croissant de la colonne spécifiée, où les valeurs nulles apparaissent avant les valeurs non nulles.
asc_nulls_last(col) Retourne une expression de tri basée sur l’ordre croissant du nom de colonne donné et les valeurs Null apparaissent après les valeurs non null.
desc(col) Retourne une expression de tri pour la colonne cible dans l’ordre décroissant.
desc_nulls_first(col) Retourne une expression de tri basée sur l’ordre décroissant du nom de colonne donné et les valeurs Null apparaissent avant les valeurs non null.
desc_nulls_last(col) Retourne une expression de tri basée sur l’ordre décroissant du nom de colonne donné et les valeurs Null apparaissent après les valeurs non Null.

Fonctions mathématiques

Fonction Descriptif
abs(col) Calcule la valeur absolue de la colonne ou de l’expression donnée.
acos(col) Calcule le cosinus inverse (également appelé arccosine) de la colonne ou de l’expression donnée.
acosh(col) Calcule le cosinus hyperbolique inverse (également appelé arcosh) de la colonne ou de l’expression donnée.
asin(col) Calcule le sinus inverse de la colonne d’entrée.
asinh(col) Calcule le sinus hyperbolique inverse de la colonne d’entrée.
atan(col) Calculez la tangente inverse de la colonne d’entrée.
atan2(col1, col2) Calculez l’angle en radians entre l’axe x positif d’un plan et le point donné par les coordonnées
atanh(col) Calcule la tangente hyperbolique inverse de la colonne d’entrée.
bin(col) Retourne la représentation sous forme de chaîne de la valeur binaire de la colonne donnée.
bround(col[, scale]) Arrondissez la valeur donnée au nombre de décimales spécifié en fonction de l’échelle en utilisant le mode d'arrondi HALF_EVEN si l’échelle >= 0 ou à la partie entière lorsque l’échelle < 0.
cbrt(col) Calcule la racine du cube de la valeur donnée.
ceil(col[, scale]) Calcule le plafond de la valeur donnée.
ceiling(col[, scale]) Calcule le plafond de la valeur donnée.
conv(col, fromBase, toBase) Convertissez un nombre dans une colonne de chaîne de caractères d’une base vers une autre.
cos(col) Calcule le cosinus de la colonne d’entrée.
cosh(col) Calcule le cosinus hyperbolique de la colonne d’entrée.
cot(col) Calcule la cotangente de la colonne d’entrée.
csc(col) Calcule la cosécante de la colonne d’entrée.
degrees(col) Convertit un angle mesuré en radians en angle approximativement équivalent mesuré en degrés.
e() Retourne le nombre d’Euler.
exp(col) Calcule l’exponentielle de la valeur donnée.
expm1(col) Calcule l’exponentielle de la valeur donnée moins une.
factorial(col) Calcule la factorielle de la valeur donnée.
floor(col[, scale]) Calcule le plancher de la valeur donnée.
greatest(*cols) Retourne la valeur la plus élevée de la liste des noms de colonnes, en ignorant les valeurs Null.
hex(col) Calcule la valeur hexadécimal de la colonne donnée, qui peut être StringType, BinaryType, IntegerType ou LongType.
hypot(col1, col2) Calcule sqrt(a^2 + b^2) sans dépassement de capacité intermédiaire ou sous-débordement.
least(*cols) Retourne la valeur la moins élevée de la liste des noms de colonnes, en ignorant les valeurs Null.
ln(col) Retourne le logarithme naturel de l’argument.
log(arg1[, arg2]) Retourne le logarithme du deuxième argument avec pour base le premier argument.
log10(col) Calcule le logarithme de la valeur donnée dans Base 10.
log1p(col) Calcule le logarithme naturel de la valeur donnée plus un.
log2(col) Retourne le logarithme de base 2 de l’argument.
negate(col) Retourne la valeur négative.
negative(col) Retourne la valeur négative.
pi() Retourne Pi.
pmod(dividend, divisor) Retourne la valeur positive du diviseur mod de dividende.
positive(col) Retourne la valeur.
pow(col1, col2) Retourne la valeur du premier argument déclenché à la puissance du deuxième argument.
power(col1, col2) Retourne la valeur du premier argument déclenché à la puissance du deuxième argument.
radians(col) Convertit un angle mesuré en degrés en angle approximativement équivalent mesuré en radians.
rand([seed]) Génère une colonne aléatoire avec des échantillons distribués de manière indépendante et identique (i.i.d.) uniformément distribués dans [0.0, 1.0).
randn([seed]) Génère une colonne aléatoire avec des échantillons indépendants et distribués de manière identique (i.i.d.) à partir de la distribution normale standard.
rint(col) Retourne la valeur double qui est la plus proche de la valeur de l’argument et est égale à un entier mathématique.
round(col[, scale]) Arrondissez la valeur donnée pour arrondir les décimales à l'aide du mode d'arrondi HALF_UP si l’échelle > = 0 ou sur la partie intégrale quand l’échelle < 0.
sec(col) Calcule la sécante de la colonne d’entrée.
sign(col) Calcule le signe de la valeur donnée.
signum(col) Calcule le signe de la valeur donnée.
sin(col) Calcule le sinus de la colonne d’entrée.
sinh(col) Calcule le sinus hyperbolique de la colonne d’entrée.
sqrt(col) Calcule la racine carrée de la valeur float spécifiée.
tan(col) Calcule la tangente de la colonne d’entrée.
tanh(col) Calcule la tangente hyperbolique de la colonne d’entrée.
try_add(left, right) Retourne la somme de gauche et de droite et le résultat est null sur le dépassement de capacité.
try_divide(left, right) Retourne le résultat du dividende/diviseur.
try_mod(left, right) Retourne le reste après dividende/diviseur.
try_multiply(left, right) Retourne le produit de la valeur de gauche multiplié par celle de droite, et le résultat est nul en cas de dépassement de capacité.
try_subtract(left, right) Retourne la valeur de gauche moins la valeur de droite et le résultat est null en cas de dépassement de capacité.
unhex(col) Inverse de l’hex.
uniform(min, max[, seed]) Retourne une valeur aléatoire avec des valeurs indépendantes et distribuées de manière identique (i.i.d.) avec la plage de nombres spécifiée.
width_bucket(v, min, max, numBucket) Retourne le numéro de compartiment dans lequel la valeur de cette expression tomberait après avoir été évaluée.

Fonctions de chaîne

Fonction Descriptif
ascii(col) Calcule la valeur numérique du premier caractère de la colonne de chaîne.
base64(col) Calcule l’encodage BASE64 d’une colonne binaire et le retourne sous forme de colonne de chaîne.
bit_length(col) Calcule la longueur du bit pour la colonne de chaîne spécifiée.
btrim(str[, trim]) Supprimez les caractères d'espacement au début et à la fin de la chaîne "str".
char(col) Retourne le caractère ASCII ayant l’équivalent binaire de col.
char_length(str) Retourne la longueur en nombre de caractères de données de type chaîne, ou en nombre d’octets de données binaires.
character_length(str) Retourne la longueur en nombre de caractères de données de type chaîne, ou en nombre d’octets de données binaires.
collate(col, collation) Marque une colonne donnée avec un classement spécifié.
collation(col) Retourne le nom de classement d’une colonne donnée.
concat_ws(sep, *cols) Concatène plusieurs colonnes de chaîne d’entrée en une seule colonne de chaîne à l’aide du séparateur donné.
contains(left, right) Retourne une valeur booléenne.
decode(col, charset) Convertit le premier argument en une chaîne à partir d’un binaire, utilisant le jeu de caractères donné (l’un des US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32).
elt(*inputs) Retourne la n-ième entrée, par exemple, retourne l’entrée2 lorsque n est 2.
encode(col, charset) Calcule le premier argument en binaire à partir d'une chaîne en utilisant le jeu de caractères fourni (l'un des US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32).
endswith(str, suffix) Retourne une valeur booléenne.
find_in_set(str, str_array) Retourne l’index (basé sur 1) de la chaîne donnée (str) dans la liste délimitée par des virgules (strArray).
format_number(col, d) Met en forme le nombre X à un format tel que #,--#,--#.--, arrondi à d décimales avec HALF_EVEN mode arrondi et retourne le résultat sous forme de chaîne.
format_string(format, *cols) Met en forme les arguments dans le style printf et retourne le résultat sous forme de colonne de chaîne.
initcap(col) Traduisez la première lettre de chaque mot en majuscules dans la phrase.
instr(str, substr) Trouver la position de la première occurrence de la sous-chaîne dans la chaîne donnée.
is_valid_utf8(str) Retourne true si l’entrée est une chaîne UTF-8 valide, sinon retourne false.
lcase(str) Retourne str avec tous les caractères modifiés en minuscules.
left(str, len) Renvoie les len caractères les plus à gauche de la chaîne str. Si len est inférieur ou égal à 0, le résultat est une chaîne vide. "len" peut être de type chaîne.
length(col) Calcule la longueur de caractères des données de chaîne ou le nombre d’octets de données binaires.
levenshtein(left, right[, threshold]) Calcule la distance Levenshtein des deux chaînes données.
locate(substr, str[, pos]) Déterminez la position de la première occurrence d'une sous-chaîne dans une colonne de texte, après la position pos.
lower(col) Convertit une expression de chaîne en minuscules.
lpad(col, len, pad) Remplissage gauche de la colonne de chaîne à largeur len avec le pavé.
ltrim(col[, trim]) Supprimez les espaces de gauche pour la valeur de chaîne spécifiée.
make_valid_utf8(str) Retourne une nouvelle chaîne dans laquelle toutes les séquences d’octets UTF-8 non valides, le cas échéant, sont remplacées par le caractère de remplacement Unicode (U+FFFD).
mask(col[, upperChar, lowerChar, digitChar, ...]) Masque la valeur de chaîne donnée.
octet_length(col) Calcule la longueur d’octet de la colonne de chaîne spécifiée.
overlay(src, replace, pos[, len]) Superposez la partie spécifiée de src avec remplacement, en commençant par la position d’octet de src et en procédant pour les octets len.
position(substr, str[, start]) Retourne la position de la première occurrence de sous-chaîne dans str après le début de la position.
printf(format, *cols) Met en forme les arguments dans le style printf et retourne le résultat sous forme de colonne de chaîne.
randstr(length[, seed]) Retourne une chaîne de la longueur spécifiée dont les caractères sont choisis uniformément au hasard à partir du pool de caractères suivant : 0-9, a-z, A-Z.
regexp_count(str, regexp) Retourne le nombre de fois où le modèle regex Java regexp est mis en correspondance dans la chaîne str.
regexp_extract(str, pattern, idx) Extrayez un groupe spécifique mis en correspondance par la regexp regex Java, à partir de la colonne de chaîne spécifiée.
regexp_extract_all(str, regexp[, idx]) Extrayez toutes les chaînes de la str qui correspondent au regexp regex Java et correspondant à l’index du groupe regex.
regexp_instr(str, regexp[, idx]) Retourne la position de la première sous-chaîne dans le str qui correspond à l'expression régulière Java et est associé à l’index du groupe regex.
regexp_replace(string, pattern, replacement) Remplacez toutes les sous-chaînes de la valeur de chaîne spécifiée qui correspondent à regexp par remplacement.
regexp_substr(str, regexp) Retourne la première sous-chaîne qui correspond au regexp regex Java dans la chaîne str.
repeat(col, n) Répète une colonne de chaîne n fois et la retourne sous la forme d’une nouvelle colonne de chaîne.
replace(src, search[, replace]) Remplace toutes les occurrences de recherche par remplacer.
right(str, len) Renvoie les len caractères les plus à droite de la chaîne str (len peut être de type chaîne). Si len est inférieur ou égal à 0, le résultat est une chaîne vide.
rpad(col, len, pad) Remplissage droit de la colonne de chaîne pour largeur len avec le pavé.
rtrim(col[, trim]) Supprimez les espaces de droite pour la valeur de chaîne spécifiée.
sentences(string[, language, country]) Fractionne une chaîne en tableaux de phrases, où chaque phrase est un tableau de mots.
soundex(col) Retourne l’encodage SoundEx pour une chaîne
split(str, pattern[, limit]) Divise la chaîne autour des correspondances du modèle donné.
split_part(src, delimiter, partNum) Fractionne str par délimiteur et retourne la partie demandée du fractionnement (basé sur 1).
startswith(str, prefix) Retourne une valeur booléenne.
substr(str, pos[, len]) Retourne la sous-chaîne de str qui commence à pos et est de longueur len, ou la tranche du tableau d’octets qui commence à pos et est de longueur len.
substring(str, pos, len) La sous-chaîne commence à pos et est de longueur len lorsque str est type String ou retourne la tranche de tableau d’octets qui commence à pos in byte et est de longueur len lorsque str est de type binaire.
substring_index(str, delim, count) Retourne la sous-chaîne de la chaîne str avant un certain nombre d'occurrences du délimiteur delim.
to_binary(col[, format]) Convertit le col d’entrée en valeur binaire en fonction du format fourni.
to_char(col, format) Convertir la colonne en chaîne en fonction du format.
to_number(col, format) Convertissez la chaîne 'col' en nombre en fonction du format de chaîne 'format'.
to_varchar(col, format) Convertir la colonne en chaîne en fonction du format.
translate(srcCol, matching, replace) Traduisez n’importe quel caractère dans le srcCol par un caractère correspondant.
trim(col[, trim]) Supprimez les espaces des deux extrémités pour la colonne de chaîne spécifiée.
try_to_binary(col[, format]) Essayez d’effectuer l’opération to_binary , mais retournez une valeur NULL au lieu de déclencher une erreur si la conversion ne peut pas être effectuée.
try_to_number(col, format) Convertissez une chaîne col en nombre en fonction du format formatde chaîne.
try_validate_utf8(str) Retourne la valeur d’entrée si elle correspond à une chaîne UTF-8 valide ou NULL dans le cas contraire.
ucase(str) Retourne str avec tous les caractères modifiés en majuscules.
unbase64(col) Décode une colonne de chaîne encodée BASE64 et la retourne sous forme de colonne binaire.
upper(col) Convertit une chaîne de caractères en majuscules.
validate_utf8(str) Retourne la valeur d’entrée si elle correspond à une chaîne UTF-8 valide ou émet une erreur dans le cas contraire.

Fonctions au niveau du bit

Fonction Descriptif
bit_count(col) Retourne le nombre de bits définis dans l’expr argument en tant qu’entier 64 bits non signé ou NULL si l’argument a la valeur NULL.
bit_get(col, pos) Retourne la valeur du bit (0 ou 1) à la position spécifiée.
bitwise_not(col) Calcule le non bit-à-bit.
getbit(col, pos) Retourne la valeur du bit (0 ou 1) à la position spécifiée.
shiftleft(col, numBits) Décalez la valeur donnée de numBits vers la gauche.
shiftright(col, numBits) (Signé) déplacez la valeur donnée à droite.
shiftrightunsigned(col, numBits) Effectuez un décalage logique du nombre donné de numBits vers la droite.

Fonctions de date et d’heure

Fonction Descriptif
add_months(start, months) Retourne la date qui correspond à X mois après la date de début.
convert_timezone(sourceTz, targetTz, sourceTs) Convertit le timestamp sourceTs sans fuseau horaire du fuseau horaire sourceTz vers targetTz.
curdate() Retourne la date actuelle au début de l’évaluation de requête en tant que colonne DateType.
current_date() Retourne la date actuelle au début de l’évaluation de requête en tant que colonne DateType.
current_timestamp() Retourne l’horodatage actuel au début de l’évaluation de la requête en tant que colonne de type TimestampType.
current_timezone() Retourne le fuseau horaire local de la session actuelle.
date_add(start, days) Retourne la date de jours après le début.
date_diff(end, start) Retourne le nombre de jours de début à fin.
date_format(date, format) Convertit une date/timestamp/string en valeur de chaîne au format spécifié par le format de date donné par le deuxième argument.
date_from_unix_date(days) Créer une date à partir du nombre de jours depuis le 01/01/1970.
date_part(field, source) Extrait une partie de la date/horodatage ou de l'intervalle de la source.
date_sub(start, days) Retourne la date de N jours avant la date de début.
date_trunc(format, timestamp) Retourne l’horodatage tronqué à l’unité spécifiée par le format.
dateadd(start, days) Retourne la date de jours après le début.
datediff(end, start) Retourne le nombre de jours de début à fin.
datepart(field, source) Extrait une partie de la date/horodatage ou de l'intervalle de la source.
day(col) Extrayez le jour du mois d’un horodatage/date donné en tant qu’entier.
dayname(col) Retourne le nom de jour abrégé de trois lettres à partir de la date donnée.
dayofmonth(col) Extrayez le jour du mois d’un horodatage/date donné en tant qu’entier.
dayofweek(col) Extrayez le jour de la semaine d’une date/timestamp donnée en tant qu’entier.
dayofyear(col) Extrayez le jour de l’année d’une date/timestamp donnée en tant qu’entier.
extract(field, source) Extrait une partie de la date/horodatage ou de l'intervalle de la source.
from_unixtime(timestamp[, format]) Convertit le nombre de secondes de l’époque unix (1970-01-01 00:00:00 UTC) en une chaîne représentant l’horodatage de ce moment dans le fuseau horaire système actuel au format donné.
from_utc_timestamp(timestamp, tz) Il s’agit d’une fonction courante pour les bases de données prenant en charge TIMESTAMP WITHOUT TIMEZONE.
hour(col) Extrayez les heures d’un horodatage donné en tant qu’entier.
last_day(date) Retourne le dernier jour du mois auquel appartient la date donnée.
localtimestamp() Retourne l’horodatage actuel sans fuseau horaire au début de l’évaluation de la requête en tant qu’horodatage sans colonne de fuseau horaire.
make_date(year, month, day) Retourne une colonne avec une date générée à partir des colonnes année, mois et jour.
make_dt_interval([days, hours, mins, secs]) Faites de dayTimeIntervalType la durée des jours, des heures, des minutes et des secondes.
make_interval([years, months, weeks, days, ...]) Créez un intervalle à partir des années, des mois, des semaines, des jours, des heures, des minutes et des secondes.
make_timestamp(years, months, days, hours, ...) Créez un horodatage à partir d’années, de mois, de jours, d’heures, de minutes, de secondes et de champs de fuseau horaire.
make_timestamp_ltz(years, months, days, ...) Créez l’horodatage actuel avec le fuseau horaire local à partir des années, des mois, des jours, des heures, des mins, des secondes et des champs de fuseau horaire.
make_timestamp_ntz(years, months, days, ...) Créez la date et heure locales à partir des champs pour les années, mois, jours, heures, minutes, secondes.
make_ym_interval([years, months]) Créez un intervalle année-mois à partir des années et des mois.
minute(col) Extrayez les minutes d’un horodatage donné en tant qu’entier.
month(col) Extrayez le mois d’un horodatage/date donné en tant qu’entier.
monthname(col) Retourne le nom du mois abrégé en trois lettres à partir de la date donnée.
months_between(date1, date2[, roundOff]) Retourne le nombre de mois entre date1 et date2.
next_day(date, dayOfWeek) Retourne la première date qui est postérieure à la valeur de la colonne de date en fonction de l’argument deuxième jour de semaine.
now() Retourne le timestamp actuel au début de l’évaluation de la requête.
quarter(col) Extrayez le trimestre d’un horodatage/date donné en tant qu’entier.
second(col) Extrayez les secondes d’une date donnée sous forme d’entier.
session_window(timeColumn, gapDuration) Génère la fenêtre de session en fonction d’un horodatage spécifiant la colonne.
timestamp_add(unit, quantity, ts) Obtient la différence entre les horodatages dans les unités spécifiées en tronquant la partie fractionnaire.
timestamp_diff(unit, start, end) Obtient la différence entre les horodatages dans les unités spécifiées en tronquant la partie fractionnaire.
timestamp_micros(col) Crée un horodatage à partir du nombre de microsecondes depuis l’époque UTC.
timestamp_millis(col) Crée un horodatage à partir du nombre de millisecondes depuis l’époque UTC.
timestamp_seconds(col) Convertit le nombre de secondes de l’époque Unix (1970-01-01T00:00:00Z) en un horodatage.
to_date(col[, format]) Convertit une colonne en pyspark.sql.types.DateType à l’aide du format spécifié éventuellement.
to_timestamp(col[, format]) Convertit une colonne en pyspark.sql.types.TimestampType à l’aide du format spécifié éventuellement.
to_timestamp_ltz(timestamp[, format]) Convertit l'horodatage selon un format en un horodatage avec fuseau horaire.
to_timestamp_ntz(timestamp[, format]) Convertit l’horodatage à partir du format en un horodatage sans fuseau horaire.
to_unix_timestamp(timestamp[, format]) Retourne l’horodatage UNIX de l’heure donnée.
to_utc_timestamp(timestamp, tz) Il s’agit d’une fonction courante pour les bases de données prenant en charge TIMESTAMP WITHOUT TIMEZONE.
trunc(date, format) Retourne la date tronquée à l’unité spécifiée par le format.
try_make_interval([years, months, weeks, ...]) Essayez d’effectuer une make_interval opération, mais retournez une valeur NULL au lieu de déclencher une erreur si l’intervalle ne peut pas être créé.
try_make_timestamp(years, months, days, ...) Essayez de créer un horodatage à partir d’années, de mois, de jours, d’heures, de mins, de secondes et de champs de fuseau horaire.
try_make_timestamp_ltz(years, months, days, ...) Essayez de créer l’horodatage actuel avec le fuseau horaire local à partir d’années, de mois, de jours, d’heures, de mins, de secondes et de champs de fuseau horaire.
try_make_timestamp_ntz(years, months, days, ...) Essayez de créer une date-heure locale à partir des champs année, mois, jour, heure, minute, et seconde.
try_to_timestamp(col[, format]) Analyse la colonne avec le format en horodatage.
unix_date(col) Retourne le nombre de jours depuis 1970-01-01.
unix_micros(col) Retourne le nombre de microsecondes depuis 1970-01-01 00:00:00 UTC.
unix_millis(col) Retourne le nombre de millisecondes depuis 1970-01-01 00:00:00 UTC.
unix_seconds(col) Retourne le nombre de secondes depuis 1970-01-01 00:00:00 UTC.
unix_timestamp([timestamp, format]) Convertissez la chaîne de temps avec un modèle donné ('aaaa-MM-jj HH :mm :ss', par défaut) en horodatage Unix (en secondes), à l’aide du fuseau horaire par défaut et des paramètres régionaux par défaut, retourne null en cas d’échec.
weekday(col) Retourne le jour de la semaine pour l’horodatage (0 = lundi, 1 = mardi, ..., 6 = dimanche).
weekofyear(col) Extrayez le numéro de semaine d’une date donnée sous forme d’entier.
window(timeColumn, windowDuration[, ...]) Compartimentez les lignes dans une ou plusieurs fenêtres temporelles données selon une colonne spécifiant un horodatage.
window_time(windowColumn) Calcule l’heure de l’événement à partir d’une colonne de fenêtre.
year(col) Extrayez l’année d’une date/timestamp donnée en tant qu’entier.

Fonctions de hachage

Fonction Descriptif
crc32(col) Calcule la valeur de vérification de redondance cyclique (CRC32) d’une colonne binaire et renvoie la valeur en tant que bigint.
hash(*cols) Calcule le code de hachage des colonnes données et retourne le résultat sous forme de colonne int.
md5(col) Calcule la synthèse MD5 et retourne la valeur sous la forme d’une chaîne hexadécimal de 32 caractères.
sha(col) Retourne une valeur de hachage SHA1 sous forme de chaîne hexadécimale de la colonne.
sha1(col) Retourne la chaîne hexadécimale résultante de SHA-1.
sha2(col, numBits) Retourne le résultat de chaîne hexadécimal de la famille SHA-2 de fonctions de hachage (SHA-224, SHA-256, SHA-384 et SHA-512).
xxhash64(*cols) Calcule le code de hachage des colonnes données à l’aide de la variante 64 bits de l’algorithme xxHash et retourne le résultat sous la forme d’une longue colonne.

Fonctions de collection

Fonction Descriptif
aggregate(col, initialValue, merge[, finish]) Applique un opérateur binaire à un état initial et à tous les éléments du tableau, et le réduit à un seul état.
array_sort(col[, comparator]) Trie le tableau d’entrée dans l’ordre croissant.
cardinality(col) Retourne la longueur du tableau ou de la carte stockée dans la colonne.
concat(*cols) Concatène plusieurs colonnes d’entrée en une seule colonne.
element_at(col, extraction) Retourne l’élément de tableau à l’index donné (basé sur 1).
exists(col, f) Indique si un prédicat s'applique à un ou plusieurs éléments du tableau.
filter(col, f) Retourne un tableau d’éléments pour lesquels un prédicat est vrai dans un tableau donné.
forall(col, f) Indique si un prédicat est respecté pour tous les éléments du tableau.
map_filter(col, f) Retourne une nouvelle colonne de mappage dont les paires clé-valeur répondent à une fonction de prédicat donnée.
map_zip_with(col1, col2, f) Fusionne deux cartes fournies en une carte unique en appliquant une fonction aux paires de clés et de valeurs.
reduce(col, initialValue, merge[, finish]) Applique un opérateur binaire à un état initial et à tous les éléments du tableau, et le réduit à un seul état.
reverse(col) Retourne une chaîne inversée ou un tableau avec des éléments dans l’ordre inverse.
size(col) Retourne la longueur du tableau ou de la carte stockée dans la colonne.
transform(col, f) Retourne un tableau d’éléments après avoir appliqué une transformation à chaque élément du tableau d’entrée.
transform_keys(col, f) Applique une fonction à chaque paire clé-valeur dans une carte et retourne une carte avec les résultats de ces applications en tant que nouvelles clés pour les paires.
transform_values(col, f) Applique une fonction à chaque paire clé-valeur dans une carte et retourne une carte avec les résultats de ces applications en tant que nouvelles valeurs pour les paires.
try_element_at(col, extraction) Retourne l’élément de tableau à un index donné (basé sur 1).
zip_with(left, right, f) Fusionnez deux tableaux donnés, à l’échelle de l’élément, dans un tableau unique à l’aide d’une fonction.

Fonctions de tableau

Fonction Descriptif
array(*cols) Crée une nouvelle colonne de tableau à partir des colonnes ou des noms de colonnes fournis.
array_append(col, value) Retourne une nouvelle colonne de tableau en ajoutant une valeur à la colonne de tableau existante.
array_compact(col) Supprime les valeurs Null du tableau.
array_contains(col, value) Retourne une valeur booléenne indiquant si le tableau contient la valeur donnée : null si le tableau est null, true si le tableau contient la valeur donnée et false dans le cas contraire.
array_distinct(col) Supprime les valeurs dupliquées du tableau.
array_except(col1, col2) Retourne un nouveau tableau contenant les éléments présents dans col1, mais pas dans col2, sans doublons.
array_insert(arr, pos, value) Insère un élément dans un tableau donné à un index de tableau spécifié.
array_intersect(col1, col2) Retourne un nouveau tableau contenant l’intersection des éléments dans col1 et col2, sans doublons.
array_join(col, delimiter[, null_replacement]) Retourne une colonne de chaîne en concaténant les éléments de la colonne de tableau d’entrée à l’aide du délimiteur.
array_max(col) Retourne la valeur maximale du tableau.
array_min(col) Retourne la valeur minimale du tableau.
array_position(col, value) Recherche la position de la première occurrence de la valeur donnée dans le tableau donné.
array_prepend(col, value) Retourne un tableau contenant l’élément donné comme premier élément et le reste des éléments du tableau d’origine.
array_remove(col, element) Supprimez tous les éléments qui sont égaux à l’élément du tableau donné.
array_repeat(col, count) Crée un tableau contenant une colonne répétée un certain nombre de fois.
array_size(col) Retourne le nombre total d’éléments dans le tableau.
array_union(col1, col2) Retourne un nouveau tableau contenant l’union d’éléments dans col1 et col2, sans doublons.
arrays_overlap(a1, a2) Retourne une colonne booléenne indiquant si les tableaux d’entrée ont des éléments non null courants, en retournant true s’ils le font, null si les tableaux ne contiennent pas d’éléments communs, mais ne sont pas vides et au moins l’un d’eux contient un élément Null, et false dans le cas contraire.
arrays_zip(*cols) Retourne un tableau fusionné de structs dans lequel le N-th struct contient toutes les valeurs N-th des tableaux d’entrée.
flatten(col) Crée un tableau unique à partir d’un tableau de tableaux.
get(col, index) Retourne l’élément d’un tableau à l’index donné (basé sur 0).
sequence(start, stop[, step]) Générez une séquence d’entiers de début à arrêt, incrémentant par étape.
shuffle(col[, seed]) Génère une permutation aléatoire du tableau donné.
slice(x, start, length) Retourne une nouvelle colonne de tableau en coupant la colonne du tableau d’entrée d’un index de début à une longueur spécifique.
sort_array(col[, asc]) Trie le tableau d’entrée dans l’ordre croissant ou décroissant en fonction de l’ordre naturel des éléments du tableau.

Fonctions de structure

Fonction Descriptif
named_struct(*cols) Crée un struct avec les noms et valeurs de champ donnés.
struct(*cols) Crée une nouvelle colonne de struct.

Fonctions de mappage

Fonction Descriptif
create_map(*cols) Crée une colonne cartographique à partir d’un nombre pair de colonnes d’entrée ou de références de colonne.
map_concat(*cols) Retourne l’union de toutes les cartes données.
map_contains_key(col, value) Retourne true si la carte contient la clé.
map_entries(col) Retourne un tableau non ordonné de toutes les entrées de la carte donnée.
map_from_arrays(col1, col2) Crée une carte à partir de deux tableaux.
map_from_entries(col) Transforme un tableau d’entrées de paire clé-valeur (structs avec deux champs) en une carte.
map_keys(col) Retourne un tableau non ordonné contenant les clés de la carte.
map_values(col) Retourne un tableau non ordonné contenant les valeurs de la carte.
str_to_map(text[, pairDelim, keyValueDelim]) Convertit une chaîne en carte après le fractionnement du texte en paires clé/valeur à l’aide de délimiteurs.

Fonctions d'agrégation

Fonction Descriptif
any_value(col[, ignoreNulls]) Retourne une valeur de col pour un groupe de lignes.
approx_count_distinct(col[, rsd]) Retourne une nouvelle colonne, qui estime le nombre approximatif d’éléments dans une colonne spécifiée ou un groupe de colonnes.
approx_percentile(col, percentage[, accuracy]) Retourne le centile approximatif de la colonne numérique col qui est la plus petite valeur des valeurs ordonnées de col (triées du moins au plus grand) de sorte qu’aucun pourcentage plus élevé des valeurs de col ne soit inférieur ou égal à cette valeur.
array_agg(col) Retourne une liste d’objets avec des doublons.
avg(col) Retourne la moyenne des valeurs d’un groupe.
bit_and(col) Retourne l'AND bit à bit de toutes les valeurs d’entrée non nulles, ou nulle s’il n’y en a aucune.
bit_or(col) Retourne l'opération OR au niveau du bit de toutes les valeurs d’entrée non nulles, ou null si aucune.
bit_xor(col) Retourne l'opération XOR au niveau binaire de toutes les valeurs d’entrée non nulles, ou nulle si aucune.
bitmap_construct_agg(col) Retourne une bitmap avec les positions des bits définies à partir de toutes les valeurs de la colonne d’entrée.
bitmap_or_agg(col) Retourne un bitmap qui est le OU binaire de tous les bitmaps de la colonne d’entrée.
bool_and(col) Retourne vrai si toutes les valeurs de col sont vraies.
bool_or(col) Renvoie vrai si au moins une valeur de la colonne est vraie.
collect_list(col) Collecte les valeurs d’une colonne dans une liste, conserve les doublons et retourne cette liste d’objets.
collect_set(col) Collecte les valeurs d’une colonne dans un ensemble, éliminant les doublons et retourne cet ensemble d’objets.
corr(col1, col2) Retourne une nouvelle colonne pour le coefficient de corrélation Pearson pour col1 et col2.
count(col) Retourne le nombre d'éléments figurant dans un groupe.
count_distinct(col, *cols) Retourne une nouvelle colonne pour un compte distinct de colonne ou de colonnes.
count_if(col) Retourne le nombre de valeurs TRUE pour la colonne.
count_min_sketch(col, eps, confidence[, seed]) Retourne un croquis count-min d’une colonne avec l’esp, la confiance et l’amorçage donnés.
covar_pop(col1, col2) Retourne une nouvelle colonne pour la covariance de population de col1 et col2.
covar_samp(col1, col2) Retourne une nouvelle colonne pour l’exemple de covariance de col1 et col2.
every(col) Retourne vrai si toutes les valeurs de col sont vraies.
first(col[, ignorenulls]) Retourne la première valeur d’un groupe.
first_value(col[, ignoreNulls]) Retourne la première valeur de col pour un groupe de lignes.
grouping(col) Indique si une colonne spécifiée dans une GROUP BY liste est agrégée ou non, retourne 1 pour agrégée ou 0 pour non agrégée dans le jeu de résultats.
grouping_id(*cols) Retourne le niveau de regroupement, égal à
histogram_numeric(col, nBins) Calcule un histogramme sur un « col » numérique à l’aide de bacs nb.
hll_sketch_agg(col[, lgConfigK]) Retourne la représentation binaire pouvant être mise à jour de Datasketches HllSketch configurée avec lgConfigK arg.
hll_union_agg(col[, allowDifferentLgConfigK]) Retourne la représentation binaire pouvant être mise à jour de Datasketches HllSketch, générée par la fusion d’instances Datasketches HllSketch créées précédemment via une instance Datasketches Union.
kurtosis(col) Retourne le coefficient de kurtosis des valeurs d’un groupe.
last(col[, ignorenulls]) Retourne la dernière valeur d’un groupe.
last_value(col[, ignoreNulls]) Retourne la dernière valeur de col pour un groupe de lignes.
listagg(col[, delimiter]) Retourne la concaténation des valeurs d’entrée non null, séparées par le délimiteur.
listagg_distinct(col[, delimiter]) Retourne la concaténation de valeurs d’entrée non Null distinctes, séparées par le délimiteur.
max(col) Retourne la valeur maximale de l’expression dans un groupe.
max_by(col, ord) Retourne la valeur du paramètre col associé à la valeur maximale du paramètre ord.
mean(col) Retourne la moyenne des valeurs d’un groupe.
median(col) Retourne la médiane des valeurs d’un groupe.
min(col) Retourne la valeur minimale de l’expression dans un groupe.
min_by(col, ord) Retourne la valeur du paramètre col associé à la valeur minimale du paramètre ord.
mode(col[, deterministic]) Retourne la valeur la plus fréquente dans un groupe.
percentile(col, percentage[, frequency]) Retourne le(s) percentile(s) exact(s) de l'expression de colonne numérique au(x) pourcentage(s) donné(s) avec une plage de valeurs de 0,0 à 1,0.
percentile_approx(col, percentage[, accuracy]) Retourne le centile approximatif de la colonne numérique col qui est la plus petite valeur des valeurs ordonnées de col (triées du moins au plus grand) de sorte qu’aucun pourcentage plus élevé des valeurs de col ne soit inférieur ou égal à cette valeur.
product(col) Retourne le produit des valeurs d’un groupe.
regr_avgx(y, x) Retourne la moyenne de la variable indépendante pour les paires non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_avgy(y, x) Retourne la moyenne de la variable dépendante pour les paires non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_count(y, x) Retourne le nombre de paires de nombres non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_intercept(y, x) Retourne l’interception de la ligne de régression linéaire univariée pour les paires non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_r2(y, x) Retourne le coefficient de détermination pour les paires non Null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_slope(y, x) Retourne la pente de la ligne de régression linéaire pour les paires non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_sxx(y, x) Retourne REGR_COUNT(y, x) * VAR_POP(x) pour les paires non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_sxy(y, x) Retourne REGR_COUNT(y, x) * COVAR_POP(y, x) pour les paires non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
regr_syy(y, x) Retourne REGR_COUNT(y, x) * VAR_POP(y) pour les paires non null dans un groupe, où y est la variable dépendante et x est la variable indépendante.
skewness(col) Retourne l’asymétrie des valeurs d’un groupe.
some(col) Renvoie vrai si au moins une valeur de la colonne est vraie.
std(col) Alias pour stddev_samp.
stddev(col) Alias pour stddev_samp.
stddev_pop(col) Retourne l'écart type de population de l'expression au sein d'un groupe.
stddev_samp(col) Retourne l'écart-type de l'échantillon non biaisé pour l'expression dans un groupe.
string_agg(col[, delimiter]) Retourne la concaténation des valeurs d’entrée non null, séparées par le délimiteur.
string_agg_distinct(col[, delimiter]) Retourne la concaténation de valeurs d’entrée non Null distinctes, séparées par le délimiteur.
sum(col) Retourne la somme de toutes les valeurs de l’expression.
sum_distinct(col) Retourne la somme des valeurs distinctes dans l’expression.
try_avg(col) Retourne la moyenne calculée à partir des valeurs d’un groupe et le résultat est null sur le dépassement de capacité.
try_sum(col) Retourne la somme calculée à partir des valeurs d’un groupe et le résultat est nul en cas de dépassement de capacité.
var_pop(col) Retourne la variance de population des valeurs d’un groupe.
var_samp(col) Retourne la variance d’échantillon non biaisée des valeurs d’un groupe.
variance(col) Alias pour var_samp

Fonctions de fenêtre

Fonction Descriptif
cume_dist() Retourne la distribution cumulative des valeurs dans une partition de fenêtre, c’est-à-dire la fraction de lignes situées sous la ligne actuelle.
dense_rank() Retourne le rang des lignes dans une partition de fenêtre, sans lacunes.
lag(col[, offset, default]) Retourne la valeur qui correspond aux lignes de décalage avant la ligne actuelle et la valeur par défaut s’il y a moins de lignes de décalage avant la ligne active.
lead(col[, offset, default]) Retourne la valeur qui se trouve aux lignes de décalage après la ligne courante, ou la valeur par défaut si le nombre de lignes après la ligne courante est inférieur à celui des lignes de décalage.
nth_value(col, offset[, ignoreNulls]) Retourne la valeur qui correspond à la ligne de décalage du cadre de fenêtre (en comptant à partir de 1) et null si la taille du cadre de fenêtre est inférieure à celle des lignes de décalage.
ntile(n) Renvoie l’ID de groupe ntile (allant de 1 à n inclusivement) dans une fenêtre partitionnée de manière ordonnée.
percent_rank() Retourne le rang relatif (c.-à-d.
rank() Retourne le rang des lignes dans une partition de fenêtre.
row_number() Retourne un nombre séquentiel commençant à 1 dans une partition de fenêtre.

Fonctions du générateur

Fonction Descriptif
explode(col) Retourne une nouvelle ligne pour chaque élément du tableau ou de la carte donné.
explode_outer(col) Retourne une nouvelle ligne pour chaque élément du tableau ou de la carte donné.
inline(col) Décompose un tableau de structures dans une table.
inline_outer(col) Décompose un tableau de structures dans une table.
posexplode(col) Retourne une nouvelle ligne pour chaque élément avec une position dans le tableau ou la carte donné.
posexplode_outer(col) Retourne une nouvelle ligne pour chaque élément avec une position dans le tableau ou la carte donné.
stack(*cols) Sépare les colonnes col1, ..., colk en n rangées.

Fonctions de transformation de partition

Fonction Descriptif
partitioning.years(col) Transformation des horodatages et des dates pour partitionner les données en années.
partitioning.months(col) Transformation des horodatages et des dates pour partitionner les données en mois.
partitioning.days(col) Transformation des horodatages et des dates pour partitionner les données en jours.
partitioning.hours(col) Transformation des horodatages pour partitionner des données en heures.
partitioning.bucket(numBuckets, col) Transformation d'un type quelconque qui partitionne par un hachage de la colonne d'entrée.

Fonctions géospatiales H3 (Databricks)

Fonction Descriptif
h3_boundaryasgeojson(col) Retourne la limite d’une cellule H3 au format GeoJSON
h3_boundaryaswkb(col) Retourne la limite d’une cellule H3 au format WKB
h3_boundaryaswkt(col) Retourne la limite d’une cellule H3 au format WKT
h3_centerasgeojson(col) Renvoie le centre d’une cellule H3 au format GeoJSON
h3_centeraswkb(col) Retourne le centre d’une cellule H3 au format WKB
h3_centeraswkt(col) Retourne le centre d’une cellule H3 au format WKT
h3_compact(col) Compacte l'ensemble d'entrée d'ID de cellule H3 aussi efficacement que possible
h3_coverash3(col1,col2) Retourne un tableau d’IDs de cellules représenté sous forme d’entiers longs, correspondant à des hexagones ou des pentagones de la résolution spécifiée qui couvrent au minimum le linéaire d’entrée ou la géographie aréale.
h3_coverash3string(col1,col2) Retourne un tableau d’identifiants de cellules représentés sous forme de chaînes, correspondant à des hexagones ou des pentagones de la résolution spécifiée qui couvrent minimalement la géographie linéaire ou aréale d’entrée.
h3_distance(col1,col2) Retourne la distance de la grille entre deux identifiants de cellule H3
h3_h3tostring(col) Convertit un ID de cellule H3 en chaîne représentant l’ID de cellule sous forme de chaîne hexadécimale
h3_hexring(col1,col2) Retourne un tableau d’ID de cellule H3 qui forment un anneau hexagonal creux centré au niveau de la cellule H3 d’origine et qui sont à distance de grille k de la cellule H3 d’origine
h3_ischildof(col1,col2) Retourne True si le premier ID de cellule H3 est un enfant du deuxième ID de cellule H3
h3_ispentagon(col) Retourne True si l’ID de cellule H3 d’entrée représente un pentagone
h3_isvalid(col) Retourne True si l’entrée représente un ID de cellule H3 valide
h3_kring(col1,col2) Retourne les ID de cellule H3 qui se trouvent à distance de grille k de l'ID de cellule d'origine.
h3_kringdistances(col1,col2) Retourne tous les ID de cellule H3 (représentés sous forme d’entiers ou de chaînes longs) à l’intérieur de la distance de grille k de l’ID de cellule H3 d’origine, ainsi que leur distance par rapport à l’ID de cellule H3 d’origine
h3_longlatash3(col1,col2,col3) Retourne l’ID de cellule H3 (en tant que BIGINT) correspondant à la longitude et à la latitude fournies à la résolution spécifiée
h3_longlatash3string(col1,col2,col3) Retourne l’ID de cellule H3 (sous forme de chaîne) correspondant à la longitude et à la latitude fournies à la résolution spécifiée
h3_maxchild(col1,col2) Retourne l’enfant de la valeur maximale de la cellule H3 d’entrée à la résolution spécifiée
h3_minchild(col1,col2) Retourne l'enfant ayant la valeur minimale parmi ceux de la cellule H3 d’entrée à la résolution spécifiée.
h3_pointash3(col1,col2) Retourne l’ID de cellule H3 (en tant que BIGINT) correspondant au point fourni à la résolution spécifiée
h3_pointash3string(col1,col2) Retourne l’ID de cellule H3 (sous forme de chaîne) correspondant au point fourni à la résolution spécifiée
h3_polyfillash3(col1,col2) Retourne un tableau d’ID de cellule représenté sous forme d’entiers longs, correspondant à des hexagones ou pentagones de la résolution spécifiée et contenus dans la zone géographique d’entrée
h3_polyfillash3string(col1,col2) Retourne un tableau d’ID de cellule représenté sous forme de chaînes, correspondant à des hexagones ou à des pentagones de la résolution spécifiée contenues par la zone géographique d’entrée
h3_resolution(col) Retourne la résolution de l’ID de cellule H3
h3_stringtoh3(col) Convertit l’ID de cellule H3 de représentation sous forme de chaîne en représentation de grand entier
h3_tessellateaswkb(col1,col2) Retourne un tableau de structures représentant les circuits couvrant la géographie à la résolution spécifiée
h3_tochildren(col1,col2) Retourne les ID de cellule H3 enfants de l’ID de cellule H3 d’entrée au niveau de la résolution spécifiée
h3_toparent(col1,col2) Retourne l’ID de cellule H3 parent de l’ID de cellule H3 d’entrée à la résolution spécifiée
h3_try_coverash3(col1,col2) Retourne un tableau d’IDs de cellules représenté sous forme d’entiers longs, correspondant à des hexagones ou des pentagones de la résolution spécifiée qui couvrent au minimum le linéaire d’entrée ou la géographie aréale.
h3_try_coverash3string(col1,col2) Retourne un tableau d’identifiants de cellules représentés sous forme de chaînes, correspondant à des hexagones ou des pentagones de la résolution spécifiée qui couvrent minimalement la géographie linéaire ou aréale d’entrée.
h3_try_distance(col1,col2) Retourne la distance de grille entre deux ID de cellule H3 de la même résolution, ou None si elle n'est pas définie.
h3_try_polyfillash3(col1,col2) Retourne un tableau d’ID de cellule représenté sous forme d’entiers longs, correspondant à des hexagones ou pentagones de la résolution spécifiée et contenus dans la zone géographique d’entrée
h3_try_polyfillash3string(col1,col2) Retourne un tableau d’ID de cellule représenté sous forme de chaînes, correspondant à des hexagones ou à des pentagones de la résolution spécifiée contenues par la zone géographique d’entrée
h3_try_tessellateaswkb(col1,col2) Retourne un tableau de structs représentant les puces couvrant la géographie à la résolution spécifiée, ou null si la géométrie n’est pas valide
h3_try_validate(col) Retourne la valeur d’entrée si elle est une cellule H3 valide ou Aucun sinon
h3_uncompact(col1,col2) Annule l’ensemble d’entrées des ID de cellule H3 à la résolution spécifiée
h3_validate(col) Retourne la valeur d’entrée s’il s’agit d’une cellule H3 valide ou émet une erreur dans le cas contraire

Fonctions géospatiales ST (Databricks)

Fonction Descriptif
st_addpoint(col1,col2,col3) Ajoute un nouveau point à la n-ième position dans la chaîne de ligne d’entrée Geography ou Geometry
st_area(col) Retourne la zone de la géographie ou de la géométrie d’entrée
st_asbinary(col1,col2) Retourne la valeur Geography ou Geometry d’entrée au format WKB
st_asewkb(col1,col2) Retourne la valeur Geometry d’entrée au format EWKB
st_asewkt(col) Retourne la valeur Geography ou Geometry d’entrée au format EWKT
st_asgeojson(col) Retourne la valeur Geography ou Geometry d’entrée au format GeoJSON
st_astext(col) Retourne la valeur Geography ou Geometry d’entrée au format WKT
st_aswkb(col1,col2) Retourne la valeur Geography ou Geometry d’entrée au format WKB
st_aswkt(col) Retourne la valeur Geography ou Geometry d’entrée au format WKT
st_buffer(col1,col2) Retourne la mémoire tampon de la géométrie d’entrée à l’aide du rayon spécifié
st_centroid(col) Retourne le centroïde de la géométrie d’entrée en tant que géométrie de point 2D
st_concavehull(col1,col2,col3) Retourne la coque concave de la géométrie d’entrée en tant que géométrie à l’aide du ratio de longueur spécifié
st_contains(col1,col2) Retourne True si la première géométrie contient la deuxième géométrie
st_convexhull(col) Retourne l'enveloppe convexe de la géométrie d’entrée comme une géométrie
st_covers(col1,col2) Retourne True si la première géométrie couvre la deuxième géométrie
st_difference(col1,col2) Retourne le jeu de points différent des deux géométries d’entrée sous la forme d’une géométrie 2D
st_dimension(col) Retourne la dimension topologique de la projection 2D de la géométrie d’entrée
st_disjoint(col1,col2) Retourne True si les deux géométries sont disjointes
st_distance(col1,col2) Retourne la distance 2D cartesienne entre les deux géométries d’entrée
st_distancesphere(col1,col2) Renvoie la distance sphérique (en mètres) entre deux géométries point, mesurées sur une sphère dont le rayon est le rayon moyen de l’ellipsoïde WGS84
st_distancespheroid(col1,col2) Retourne la distance géodesique (en mètres) entre deux géométries point sur le ellipsoïde WGS84
st_dwithin(col1,col2,col3) Retourne True si la distance 2D cartesiennes entre les deux géométries d’entrée est inférieure ou égale à la distance d’entrée
st_endpoint(col) Retourne le dernier point de la chaîne de ligne d’entrée, ou None s’il n’existe pas
st_envelope(col) Renvoie la zone de délimitation minimale alignée sur l’axe 2D (enveloppe) de la géométrie non vide d’entrée, en tant que géométrie
st_envelope_agg(col) Retourne l’enveloppe de toutes les géométries de la colonne, ou None si la colonne n’a aucune ligne ou contient uniquement des valeurs None
st_equals(col1,col2) Retourne True si les deux géométries sont géométriquement égales
st_exteriorring(col) Renvoie l’anneau extérieur (shell), en tant que chaîne de ligne, de la valeur Geography ou Geometry d’entrée représentant un polygone
st_flipcoordinates(col) Échange les coordonnées X et Y de la géométrie d’entrée
st_geogfromgeojson(col) Analyse la description GeoJSON et retourne la valeur Geography correspondante
st_geogfromtext(col) Analyse la description WKT et retourne la valeur Geography correspondante
st_geogfromwkb(col) Analyse la description WKB d’entrée et retourne la valeur Geography correspondante
st_geogfromwkt(col) Analyse la description WKT et retourne la valeur Geography correspondante
st_geohash(col1,col2) Retourne le géohash de la géométrie d’entrée
st_geometryn(col1,col2) Retourne le n-ième élément basé sur 1 de la géométrie multiple d’entrée, ou None s’il n’existe pas
st_geometrytype(col) Retourne le type de la valeur Geography ou Geometry d’entrée sous forme de chaîne
st_geomfromewkb(col) Analyse la description EWKB d’entrée et retourne la valeur Geometry correspondante
st_geomfromgeohash(col) Retourne la zone de grille geohash correspondant à la valeur geohash d’entrée sous forme de géométrie de polygone 2D
st_geomfromgeojson(col) Analyse la description GeoJSON et retourne la valeur Geometry correspondante
st_geomfromtext(col1,col2) Analyse la description WKT et retourne la valeur Geometry correspondante
st_geomfromwkb(col1,col2) Analyse la description WKB d’entrée et retourne la valeur Geometry correspondante
st_geomfromwkt(col1,col2) Analyse la description WKT et retourne la valeur Geometry correspondante
st_intersection(col1,col2) Retourne l’intersection du jeu de points des deux géométries d’entrée sous la forme d’une géométrie 2D
st_intersects(col1,col2) Retourne True si les deux géométries se croisent
st_isempty(col) Retourne True si la valeur Geography ou Geometry d’entrée ne contient aucun point non vide
st_isvalid(col) Retourne True si la géométrie d’entrée est une géométrie valide dans le sens OGC
st_length(col) Retourne la longueur de la géométrie d’entrée ou de la valeur géographique
st_m(col) Retourne la coordonnée M de la géométrie du point d’entrée, ou None si la géométrie du point d’entrée est vide ou si elle n’a pas de coordonnée M
st_makeline(col) Renvoie une géométrie de ligne dont les points sont les points non vides des géométries dans le tableau d’entrée de géométries, lesquelles doivent être des points, des linestrings ou des multipoints.
st_makepolygon(col1,col2) Construit un polygone à partir de la limite externe d’entrée et d’un tableau facultatif de limites internes, représenté sous forme de chaînes de lignes fermées
st_multi(col) Retourne la valeur Geography ou Geometry d’entrée en tant que valeur géospatiale multispatiale équivalente, en conservant le SRID d’origine
st_ndims(col) Retourne la dimension de coordonnées de la valeur Geography ou Geometry d’entrée
st_npoints(col) Retourne le nombre de points non vides dans la valeur Geography ou Geometry d’entrée
st_numgeometries(col) Retourne le nombre de géométries dans la géométrie d’entrée
st_perimeter(col) Retourne le périmètre de la géographie ou de la géométrie d’entrée
st_point(col1,col2,col3) Retourne une géométrie de point 2D avec les coordonnées x et y données et la valeur SRID
st_pointfromgeohash(col) Retourne le centre de la zone de grille geohash correspondant à la valeur geohash d’entrée comme une géométrie de type point 2D.
st_pointn(col1,col2) Retourne le n-ième point de base de la chaîne de ligne d’entrée, ou None s’il n’existe pas
st_removepoint(col1,col2) Supprime le n-ième point de la chaîne de ligne d’entrée Geography ou Geometry
st_reverse(col) Inverse l’ordre des sommets dans la valeur Geography ou Geometry d’entrée
st_rotate(col1,col2) Fait pivoter la géométrie d’entrée autour de l’axe Z par l’angle de rotation donné (en radians)
st_scale(col1,col2,col3,col4) Met à l’échelle la géométrie d’entrée dans les directions X, Y et Z (facultatif) à l’aide des facteurs donnés
st_setpoint(col1,col2,col3) Définit le n-ième point dans la chaîne de ligne d’entrée Geography ou Geometry
st_setsrid(col1,col2) Retourne une nouvelle valeur Geometry dont le SRID est la valeur SRID spécifiée
st_simplify(col1,col2) Simplifie la géométrie d’entrée à l’aide de l’algorithme Douglas-Peucker
st_srid(col) Retourne le SRID de la valeur géospatiale d’entrée
st_startpoint(col) Retourne le premier point de la chaîne de ligne d’entrée, ou None s’il n’existe pas
st_touches(col1,col2) Retourne True si les deux géométries se touchent les unes les autres
st_transform(col1,col2) Transforme les coordonnées X et Y de la géométrie d’entrée en système de référence de coordonnées (CRS) décrit par la valeur SRID fournie
st_translate(col1,col2,col3,col4) Traduit la géométrie d’entrée dans les directions X, Y et Z (facultatif) à l’aide des décalages fournis
st_union(col1,col2) Retourne l’union de l’ensemble de points des deux géométries d’entrée sous la forme d’une géométrie 2D
st_union_agg(col) Retourne l’union point par point de toutes les géométries de la colonne, ou None si la colonne a zéro ligne ou contient uniquement des valeurs None
st_within(col1,col2) Retourne True si la première géométrie se trouve dans la deuxième géométrie
st_x(col) Retourne la coordonnée X de la géométrie du point d’entrée ou None si la géométrie du point d’entrée est vide
st_xmax(col) Retourne la coordonnée X maximale de la géométrie d’entrée ou None si la géométrie d’entrée est vide
st_xmin(col) Retourne la coordonnée X minimale de la géométrie d’entrée ou None si la géométrie d’entrée est vide
st_y(col) Retourne la coordonnée Y de la géométrie du point d’entrée ou None si la géométrie du point d’entrée est vide
st_ymax(col) Retourne la coordonnée Y maximale de la géométrie d’entrée, ou None si la géométrie d’entrée est vide
st_ymin(col) Retourne la coordonnée Y minimale de la géométrie d’entrée ou None si la géométrie d’entrée est vide
st_z(col) Retourne la coordonnée Z de la géométrie du point d’entrée, ou None si la géométrie du point d’entrée est vide ou si elle n’a pas de coordonnée Z
st_zmax(col) Retourne la coordonnée Z maximale de la géométrie d’entrée, ou None si la géométrie d’entrée est vide ou ne contient pas de coordonnées Z
st_zmin(col) Retourne la coordonnée Z minimale de la géométrie d’entrée, ou None si la géométrie d’entrée est vide ou ne contient pas de coordonnées Z
to_geography(col) Analyse la valeur BINARY ou chaîne d’entrée et retourne la valeur Geography correspondante.
to_geometry(col) Analyse la valeur BINARY ou chaîne d’entrée et retourne la valeur Geometry correspondante.
try_to_geography(col) Analyse la valeur BINARY ou chaîne d’entrée et retourne la valeur Geography correspondante, ou None si l’entrée n’est pas valide
try_to_geometry(col) Analyse la valeur BINARY ou chaîne d’entrée et retourne la valeur Geometry correspondante, ou None si l’entrée n’est pas valide

Fonctions CSV

Fonction Descriptif
from_csv(col, schema[, options]) Analyse une colonne contenant une chaîne CSV dans une ligne avec le schéma spécifié.
schema_of_csv(csv[, options]) Analyse une chaîne CSV et déduit son schéma au format DDL.
to_csv(col[, options]) Convertit une colonne contenant un StructType en chaîne CSV.

Fonctions JSON

Fonction Descriptif
from_json(col, schema[, options]) Analyse une colonne contenant une chaîne JSON dans un MapType avec StringType comme type de clés, StructType ou ArrayType avec le schéma spécifié.
get_json_object(col, path) Extrait un objet JSON d'une chaîne JSON en fonction du chemin d'accès JSON spécifié, et retourne la chaîne JSON de l'objet JSON extrait.
json_array_length(col) Retourne le nombre d’éléments dans le tableau JSON le plus externe.
json_object_keys(col) Retourne toutes les clés de l’objet JSON le plus externe en tant que tableau.
json_tuple(col, *fields) Crée une ligne pour une colonne json en fonction des noms de champs donnés.
schema_of_json(json[, options]) Analyse une chaîne JSON et déduit son schéma au format DDL.
to_json(col[, options]) Convertit une colonne contenant un StructType, ArrayType ou Un MapType en chaîne JSON.

Fonctions de variante

Fonction Descriptif
is_variant_null(v) Vérifiez si une valeur de variante est une variante nulle.
parse_json(col) Analyse une colonne contenant une chaîne JSON dans un VariantType.
schema_of_variant(v) Retourne le schéma au format SQL d’une variante.
schema_of_variant_agg(v) Retourne le schéma fusionné au format SQL d’une colonne de type variant.
try_variant_get(v, path, targetType) Extrait une sous-variante de v en fonction du chemin d’accès, puis convertit la sous-variante en targetType.
variant_get(v, path, targetType) Extrait une sous-variante de v en fonction du chemin d’accès, puis convertit la sous-variante en targetType.
try_parse_json(col) Analyse une colonne contenant une chaîne JSON dans un VariantType.
to_variant_object(col) Convertit une colonne contenant des types de données imbriqués (tableau/carte/struct) en types variants où les cartes et les structs sont convertis en objets variants qui ne sont pas triés contrairement aux structs SQL.

Fonctions XML

Fonction Descriptif
from_xml(col, schema[, options]) Analyse une colonne contenant une chaîne XML sur une ligne avec le schéma spécifié.
schema_of_xml(xml[, options]) Analyse une chaîne XML et déduit son schéma au format DDL.
to_xml(col[, options]) Convertit une colonne contenant un StructType en chaîne XML.
xpath(xml, path) Retourne un tableau de chaînes de valeurs dans les nœuds de xml qui correspondent à l’expression XPath.
xpath_boolean(xml, path) Retourne true si l’expression XPath prend la valeur true ou si un nœud correspondant est trouvé.
xpath_double(xml, path) Retourne une valeur double, la valeur zéro si aucune correspondance n’est trouvée ou NaN si une correspondance est trouvée, mais la valeur n’est pas numérique.
xpath_float(xml, path) Retourne une valeur float, la valeur zéro si aucune correspondance n’est trouvée, ou NaN si une correspondance est trouvée, mais la valeur n’est pas numérique.
xpath_int(xml, path) Retourne une valeur entière, ou la valeur zéro si aucune correspondance n’est trouvée, ou une correspondance est trouvée, mais la valeur n’est pas numérique.
xpath_long(xml, path) Retourne une valeur entière longue, ou la valeur zéro si aucune correspondance n’est trouvée, ou une correspondance est trouvée, mais la valeur n’est pas numérique.
xpath_number(xml, path) Retourne une valeur double, la valeur zéro si aucune correspondance n’est trouvée ou NaN si une correspondance est trouvée, mais la valeur n’est pas numérique.
xpath_short(xml, path) Retourne une valeur entière courte, ou la valeur zéro si aucune correspondance n’est trouvée, ou une correspondance est trouvée, mais la valeur n’est pas numérique.
xpath_string(xml, path) Retourne le contenu du texte du premier nœud xml qui correspond à l’expression XPath.

Fonctions d’URL

Fonction Descriptif
parse_url(url, partToExtract[, key]) Extrait une partie spécifiée d’une URL.
try_parse_url(url, partToExtract[, key]) Essayez d’effectuer l’opération parse_url , mais retournez une valeur NULL au lieu de déclencher une erreur si l’analyse ne peut pas être effectuée.
url_decode(str) Décode une chaîne encodée en URL au format application/x-www-form-urlencoded à son format d'origine.
url_encode(str) Encode une chaîne dans une chaîne encodée url au format « application/x-www-form-urlencoded ».
try_url_decode(str) Essayez d’effectuer l’opération url_decode , mais retournez une valeur NULL au lieu de déclencher une erreur si le décodage ne peut pas être effectué.

Fonctions diverses

Fonction Descriptif
aes_decrypt(input, key[, mode, padding, aad]) Retourne une valeur déchiffrée d’entrée à l’aide d’AES en mode avec remplissage.
aes_encrypt(input, key[, mode, padding, iv, aad]) Retourne une valeur chiffrée d’entrée à l’aide d’AES en mode donné avec le remplissage spécifié.
assert_true(col[, errMsg]) Retourne null si la colonne d’entrée a la valeur true ; lève une exception avec le message d’erreur fourni dans le cas contraire.
bitmap_bit_position(col) Retourne la position du bit pour la colonne d’entrée donnée.
bitmap_bucket_number(col) Retourne le numéro de compartiment de la colonne d’entrée donnée.
bitmap_count(col) Retourne le nombre de bits définis dans la bitmap d’entrée.
current_catalog() Retourne le catalogue actuel.
current_database() Retourne la base de données active.
current_schema() Retourne le schéma actuel.
current_user() Retourne l’utilisateur actuel.
hll_sketch_estimate(col) Retourne le nombre estimé de valeurs uniques en fonction de la représentation binaire d’un Datasketches HllSketch.
hll_union(col1, col2[, allowDifferentLgConfigK]) Fusionne deux représentations binaires d’objets Datasketches HllSketch à l’aide d’un objet Datasketches Union.
input_file_block_length() Retourne la longueur du bloc lu ou -1 s’il n’est pas disponible.
input_file_block_start() Retourne le décalage de début du bloc lu ou -1 s’il n’est pas disponible.
input_file_name() Crée une colonne de chaîne pour le nom de fichier de la tâche Spark actuelle.
java_method(*cols) Appelle une méthode avec réflexion.
monotonically_increasing_id() Une colonne qui génère des entiers 64 bits monotoniques croissants.
raise_error(errMsg) Lève une exception avec le message d’erreur fourni.
reflect(*cols) Appelle une méthode avec réflexion.
session_user() Retourne le nom d’utilisateur du contexte d’exécution actuel.
spark_partition_id() Colonne pour l’ID de partition.
try_aes_decrypt(input, key[, mode, padding, aad]) Essayez d’effectuer l’opération aes_decrypt , mais retournez une valeur NULL au lieu de déclencher une erreur si le déchiffrement ne peut pas être effectué.
try_reflect(*cols) Essayez d’effectuer une reflect opération, mais retournez une valeur NULL au lieu de déclencher une erreur si la méthode invoke lève une exception.
typeof(col) Retourne la chaîne de type au format DDL pour le type de données de l’entrée.
user() Retourne l’utilisateur actuel.
version() Retourne la version de Spark.

Fonctions UDF, UDTF, UDT

Fonction Descriptif
call_udf(udfName, *cols) Appelez une fonction définie par l’utilisateur.
pandas_udf([f, returnType, functionType]) Crée une fonction définie par l’utilisateur pandas (a.k.a.
udf([f, returnType, useArrow]) Crée une fonction définie par l’utilisateur (UDF).
udtf([cls, returnType, useArrow]) Crée une fonction de table définie par l’utilisateur (UDTF).
unwrap_udt(col) Dérouler la colonne de type de données UDT en son type sous-jacent.

Fonctions table

Fonction Descriptif
TableValuedFunction.collations() Obtenez tous les classements de chaînes Spark SQL.
TableValuedFunction.explode(collection) Retourne un DataFrame contenant une nouvelle ligne pour chaque élément du tableau ou de la carte donné.
TableValuedFunction.explode_outer(collection) Retourne un DataFrame contenant une nouvelle ligne pour chaque élément avec une position dans le tableau ou la carte donné.
TableValuedFunction.inline(input) Décompose un tableau de structures dans une table.
TableValuedFunction.inline_outer(input) Décompose un tableau de structures dans une table.
TableValuedFunction.json_tuple(input, *fields) Crée une ligne pour une colonne json en fonction des noms de champs donnés.
TableValuedFunction.posexplode(collection) Retourne un DataFrame contenant une nouvelle ligne pour chaque élément avec une position dans le tableau ou la carte donné.
TableValuedFunction.posexplode_outer(collection) Retourne un DataFrame contenant une nouvelle ligne pour chaque élément avec une position dans le tableau ou la carte donné.
TableValuedFunction.range(start[, end, ...]) Créez un DataFrame avec une seule colonne pyspark.sql.types.LongType nommée ID, contenant des éléments d’une plage de début à fin (exclusif) avec étape de valeur.
TableValuedFunction.sql_keywords() Obtenez les mots-clés Spark SQL.
TableValuedFunction.stack(n, *fields) Sépare les colonnes col1, ..., colk en n rangées.
TableValuedFunction.variant_explode(input) Sépare un objet/tableau variant en plusieurs lignes contenant ses champs/éléments.
TableValuedFunction.variant_explode_outer(input) Sépare un objet/tableau variant en plusieurs lignes contenant ses champs/éléments.