Compartilhar via


Funções do PySpark

Esta página fornece uma lista de funções SQL do PySpark disponíveis no Databricks com links para a documentação de referência correspondente.

Funções normais

Função Description
broadcast(df) Marca um DataFrame como pequeno o suficiente para uso em junções de difusão.
call_function(funcName, *cols) Chame uma função SQL.
col(col) Retorna uma coluna com base no nome da coluna fornecido.
column(col) Retorna uma coluna com base no nome da coluna fornecido.
lit(col) Cria uma coluna de valor literal.
expr(str) Analisa a cadeia de caracteres de expressão na coluna que ela representa

Funções condicionais

Função Description
coalesce(*cols) Retorna a primeira coluna que não é nula.
ifnull(col1, col2) Retorna col2 se col1 for nulo; caso contrário, retorna col1.
nanvl(col1, col2) Retorna col1 se não for NaN, caso contrário, retorna col2.
nullif(col1, col2) Retorna nulo se col1 é igual a col2, ou col1 caso contrário.
nullifzero(col) Retornará nulo se col for igual a zero ou col caso contrário.
nvl(col1, col2) Retorna col2 se col1 for nulo; caso contrário, retorna col1.
nvl2(col1, col2, col3) Retorna col2 se col1 não for nulo ou col3 caso contrário.
when(condition, value) Avalia uma lista de condições e retorna uma das várias expressões de resultado possíveis.
zeroifnull(col) Retorna zero se col for nulo, ou col caso contrário.

Funções de correspondência de padrões

Função Description
equal_null(col1, col2) Retorna o mesmo resultado que o operador EQUAL(=) para operandos não nulos, mas retorna true se ambos forem nulos, false se um deles for nulo.
ilike(str, pattern[, escapeChar]) Retorna verdadeiro se str corresponder ao padrão com escape sem diferenciar maiúsculas de minúsculas, null se algum argumento for null, caso contrário, falso.
isnan(col) Uma expressão que retorna verdadeiro se a coluna for não numérico.
isnotnull(col) Retorna verdadeiro se col não for nulo, ou falso caso contrário.
isnull(col) Uma expressão que retorna verdadeiro se a coluna estiver nula.
like(str, pattern[, escapeChar]) Retorna true se str corresponder ao padrão com escape, nulo se algum argumento for nulo e false caso contrário.
regexp(str, regexp) Retorna true se str corresponder ao regex Java, ou false caso contrário.
regexp_like(str, regexp) Retorna true se str corresponder ao regex Java, ou false caso contrário.
rlike(str, regexp) Retorna true se str corresponder ao regex Java, ou false caso contrário.

Funções de classificação

Função Description
asc(col) Retorna uma expressão de classificação para a coluna de destino em ordem crescente.
asc_nulls_first(col) Retorna uma expressão de classificação com base na ordem crescente do nome da coluna fornecida e os valores nulos retornam antes dos valores não nulos.
asc_nulls_last(col) Retorna uma expressão de classificação com base na ordem crescente do nome da coluna fornecida e os valores nulos aparecem após valores não nulos.
desc(col) Retorna uma expressão de classificação para a coluna de destino em ordem decrescente.
desc_nulls_first(col) Retorna uma expressão de classificação com base na ordem decrescente do nome da coluna fornecida e os valores nulos são exibidos antes dos valores não nulos.
desc_nulls_last(col) Retorna uma expressão de classificação com base na ordem decrescente do nome da coluna fornecida e os valores nulos aparecem após valores não nulos.

Funções matemáticas

Função Description
abs(col) Calcula o valor absoluto da coluna ou expressão fornecida.
acos(col) Calcula o cosseno inverso (também conhecido como arccosina) da coluna ou expressão fornecida.
acosh(col) Calcula o cosseno hiperbólico inverso (também conhecido como arcosh) da coluna ou expressão fornecida.
asin(col) Calcula o seno inverso da coluna de entrada.
asinh(col) Calcula o seno hiperbólico inverso da coluna de entrada.
atan(col) Calcular a tangente inversa da coluna de entrada.
atan2(col1, col2) Calcular o ângulo em radianos entre o eixo x positivo de um plano e o ponto fornecido pelas coordenadas
atanh(col) Calcula a tangente hiperbólica inversa da coluna de entrada.
bin(col) Retorna a representação de cadeia de caracteres do valor binário da coluna fornecida.
bround(col[, scale]) Arredonde o valor fornecido para um número específico de casas decimais usando o modo de arredondamento HALF_EVEN se a escala >= 0 ou na parte inteira quando a escala < 0.
cbrt(col) Calcula a raiz cúbica do valor fornecido.
ceil(col[, scale]) Calcula o teto do valor fornecido.
ceiling(col[, scale]) Calcula o teto do valor fornecido.
conv(col, fromBase, toBase) Converta um número em uma coluna de string de uma base para outra.
cos(col) Calcula o cosseno da coluna de entrada.
cosh(col) Calcula o cosseno hiperbólico da coluna de entrada.
cot(col) Calcula o cotangente da coluna de entrada.
csc(col) Calcula a cossecante da coluna de entrada.
degrees(col) Converte um ângulo medido em radianos em um ângulo aproximadamente equivalente medido em graus.
e() Retorna o número de Euler.
exp(col) Calcula o exponencial do valor fornecido.
expm1(col) Calcula o exponencial do valor fornecido menos um.
factorial(col) Calcula o fatorial do valor fornecido.
floor(col[, scale]) Calcula o piso do valor fornecido.
greatest(*cols) Retorna o maior valor da lista de nomes de coluna, ignorando valores nulos.
hex(col) Calcula o valor hex da coluna fornecida, que pode ser StringType, BinaryType, IntegerType ou LongType.
hypot(col1, col2) Cálculos sqrt(a^2 + b^2) sem estouro intermediário ou subfluxo.
least(*cols) Retorna o menor valor da lista de nomes de coluna, ignorando valores nulos.
ln(col) Retorna o logaritmo natural do argumento.
log(arg1[, arg2]) Retorna o primeiro logaritmo baseado em argumento do segundo argumento.
log10(col) Calcula o logaritmo do valor fornecido na Base 10.
log1p(col) Calcula o logaritmo natural do valor fornecido mais um.
log2(col) Retorna o logaritmo de base 2 do argumento.
negate(col) Retorna o valor negativo.
negative(col) Retorna o valor negativo.
pi() Retorna Pi.
pmod(dividend, divisor) Retorna o valor positivo do divisor mod de dividendos.
positive(col) Retorna o valor.
pow(col1, col2) Retorna o valor do primeiro argumento gerado ao poder do segundo argumento.
power(col1, col2) Retorna o valor do primeiro argumento gerado ao poder do segundo argumento.
radians(col) Converte um ângulo medido em graus em um ângulo aproximadamente equivalente medido em radianos.
rand([seed]) Gera uma coluna aleatória com amostras independentes e distribuídas de forma idêntica (i.i.d.) distribuídas uniformemente em [0.0, 1.0).
randn([seed]) Gera uma coluna aleatória com amostras independentes e distribuídas de forma idêntica (i.i.d.) da distribuição normal padrão.
rint(col) Retorna o valor duplo mais próximo do valor do argumento e é igual a um inteiro matemático.
round(col[, scale]) Arredondar o valor fornecido para dimensionar casas decimais usando o modo de arredondamento HALF_UP se a escala >= 0 ou na parte inteira quando a escala < 0.
sec(col) Calcula a secante da coluna de entrada.
sign(col) Calcula o sinal do valor fornecido.
signum(col) Calcula o sinal do valor fornecido.
sin(col) Calcula o seno da coluna de entrada.
sinh(col) Calcula o seno hiperbólico da coluna de entrada.
sqrt(col) Calcula a raiz quadrada do valor flutuante especificado.
tan(col) Calcula a tangente da coluna de entrada.
tanh(col) Calcula a tangente hiperbólica da coluna de entrada.
try_add(left, right) Retorna a soma dos valores à esquerda e à direita, e o resultado é nulo em caso de overflow.
try_divide(left, right) Retorna a razão entre o dividendo e o divisor.
try_mod(left, right) Retorna o resto após a divisão entre dividendo e divisor.
try_multiply(left, right) Retorna o valor à esquerda multiplicado pelo valor à direita, e o resultado é nulo em caso de estouro.
try_subtract(left, right) Retorna à esquerda menos à direita e o resultado é nulo no estouro.
unhex(col) Inverso ao hexadeceno.
uniform(min, max[, seed]) Retorna um valor aleatório com valores independentes e distribuídos de forma idêntica (i.i.d.) com o intervalo de números especificado.
width_bucket(v, min, max, numBucket) Retorna o número do compartimento no qual o valor desta expressão se encaixaria após ser avaliado.

Funções de cadeia de caracteres

Função Description
ascii(col) Calcula o valor numérico do primeiro caractere da coluna de cadeia de caracteres.
base64(col) Calcula a codificação BASE64 de uma coluna binária e a retorna como uma coluna de cadeia de caracteres.
bit_length(col) Calcula o comprimento do bit para a coluna de cadeia de caracteres especificada.
btrim(str[, trim]) Remova os caracteres de corte à esquerda e à direita do str.
char(col) Retorna o caractere ASCII que tem o equivalente binário a col.
char_length(str) Retorna o tamanho, em caracteres, dos dados da cadeia de caracteres ou o número de bytes de dados binários.
character_length(str) Retorna o tamanho, em caracteres, dos dados da cadeia de caracteres ou o número de bytes de dados binários.
collate(col, collation) Marca uma determinada coluna com ordenação especificada.
collation(col) Retorna o nome de ordenação de uma determinada coluna.
concat_ws(sep, *cols) Concatena várias colunas de cadeia de caracteres de entrada em uma única coluna de cadeia de caracteres, usando o separador especificado.
contains(left, right) Retorna um booliano.
decode(col, charset) Calcula o primeiro argumento em uma cadeia de caracteres de um binário usando o conjunto de caracteres fornecido (um de US-ASCII, ISO-8859-1, , UTF-8, UTF-16BE, UTF-16LE, UTF-16, , ). UTF-32
elt(*inputs) Retorna a entrada n-th, por exemplo, retorna input2 quando n é 2.
encode(col, charset) Calcula o primeiro argumento em binário a partir de uma cadeia de caracteres usando o conjunto de caracteres fornecido (um de US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32).
endswith(str, suffix) Retorna um booliano.
find_in_set(str, str_array) Retorna o índice (baseado em 1) da cadeia de caracteres determinada (str) na lista delimitada por vírgulas (strArray).
format_number(col, d) Formata o número X para um formato como #,--#,--#.--, arredondado para casas decimais d com HALF_EVEN modo redondo e retorna o resultado como uma cadeia de caracteres.
format_string(format, *cols) Formata os argumentos no estilo printf e retorna o resultado como uma coluna de cadeia de caracteres.
initcap(col) Converta a primeira letra de cada palavra para maiúsculas na frase.
instr(str, substr) Localize a posição da primeira ocorrência da coluna substr na cadeia de caracteres fornecida.
is_valid_utf8(str) Retornará true se a entrada for uma cadeia de caracteres UTF-8 válida, caso contrário, retornará false.
lcase(str) Retorna str com todos os caracteres alterados para minúsculas.
left(str, len) Retorna os primeiros len caracteres da string str (len pode ser do tipo string), se len for menor ou igual a 0, o resultado será uma string vazia.
length(col) Calcula o comprimento do caractere de dados de cadeia de caracteres ou o número de bytes de dados binários.
levenshtein(left, right[, threshold]) Calcula a distância Levenshtein das duas strings fornecidas.
locate(substr, str[, pos]) Localize a posição da primeira ocorrência de substr em uma coluna de string, após a posição pos.
lower(col) Converte uma expressão de cadeia de caracteres em letras minúsculas.
lpad(col, len, pad) Preencha à esquerda a coluna de string até a largura 'len' com 'pad'.
ltrim(col[, trim]) Corte os espaços da extremidade esquerda para o valor de cadeia de caracteres especificado.
make_valid_utf8(str) Retorna uma nova cadeia de caracteres na qual todas as sequências de bytes UTF-8 inválidas, se houver, são substituídas pelo caractere de substituição Unicode (U+FFFD).
mask(col[, upperChar, lowerChar, digitChar, ...]) Mascara o valor de cadeia de caracteres fornecido.
octet_length(col) Calcula o comprimento do byte para a coluna de cadeia de caracteres especificada.
overlay(src, replace, pos[, len]) Sobreponha a parte especificada do src com replace, começando da posição de byte pos de src e continuando por len bytes.
position(substr, str[, start]) Retorna a posição da primeira ocorrência de substr em str após a posição inicial.
printf(format, *cols) Formata os argumentos no estilo printf e retorna o resultado como uma coluna de cadeia de caracteres.
randstr(length[, seed]) Retorna uma cadeia de caracteres do comprimento especificado cujos caracteres são escolhidos uniformemente aleatoriamente do seguinte pool de caracteres: 0-9, a-z, A-Z.
regexp_count(str, regexp) Retorna uma contagem do número de vezes que o padrão regex do Java é correspondido na cadeia de caracteres str.
regexp_extract(str, pattern, idx) Extraia um grupo específico correspondido pelo Java regex, a partir da coluna de string especificada.
regexp_extract_all(str, regexp[, idx]) Extraia todas as cadeias de caracteres no str que correspondem ao regexp do Java regex e correspondentes ao índice do grupo regex.
regexp_instr(str, regexp[, idx]) Retorna a posição da primeira subcadeia de caracteres na string que corresponde ao padrão regex Java e é correspondente ao índice do grupo no regex.
regexp_replace(string, pattern, replacement) Substitua todas as substrings do valor de cadeia de caracteres especificado que correspondem ao regexp por um valor de substituição.
regexp_substr(str, regexp) Retorna a primeira subcadeia de caracteres que corresponde ao regex Java dentro da cadeia de caracteres str.
repeat(col, n) Repete uma coluna de cadeia de caracteres n vezes e a retorna como uma nova coluna de cadeia de caracteres.
replace(src, search[, replace]) Substitui todas as ocorrências de pesquisa por substituição.
right(str, len) Retorna os caracteres len mais à direita (len pode ser do tipo string) da string str; se len for menor ou igual a 0, o resultado será uma string vazia.
rpad(col, len, pad) Teclado direito da coluna de cadeia de caracteres para largura len com pad.
rtrim(col[, trim]) Corte os espaços da extremidade direita para o valor de cadeia de caracteres especificado.
sentences(string[, language, country]) Divide uma cadeia de caracteres em matrizes de frases, em que cada frase é uma matriz de palavras.
soundex(col) Retorna a codificação SoundEx para uma cadeia de caracteres
split(str, pattern[, limit]) Divide a string em torno de correspondências do padrão fornecido.
split_part(src, delimiter, partNum) Divide str por delimitador e retorna parte solicitada da divisão (com base em 1).
startswith(str, prefix) Retorna um booliano.
substr(str, pos[, len]) Retorna a subcadeia de caracteres de str que começa em pos e é de comprimento len, ou a fatia de matriz de bytes que começa em pos e é de comprimento len.
substring(str, pos, len) A substring começa em pos e tem comprimento len quando str é do tipo String ou retorna o trecho do array de bytes que começa em pos em byte e tem comprimento len quando str é do tipo Binary.
substring_index(str, delim, count) Retorna a substring da cadeia de caracteres str antes de count ocorrências do delimitador delim.
to_binary(col[, format]) Converte o col de entrada em um valor binário com base no formato fornecido.
to_char(col, format) Converta col em uma cadeia de caracteres com base no formato.
to_number(col, format) Converta a string 'col' em um número com base no formato de string 'format'.
to_varchar(col, format) Converta col em uma cadeia de caracteres com base no formato.
translate(srcCol, matching, replace) Traduza qualquer caractere no srcCol por um caractere correspondente.
trim(col[, trim]) Corte os espaços de ambas as extremidades para a coluna de cadeia de caracteres especificada.
try_to_binary(col[, format]) Tente executar a to_binary operação, mas retorne um valor NULL em vez de gerar um erro se a conversão não puder ser executada.
try_to_number(col, format) Converter cadeia de caracteres col em um número com base no formato de cadeia de caracteres format.
try_validate_utf8(str) Retorna o valor de entrada se corresponder a uma cadeia de caracteres UTF-8 válida ou NULL caso contrário.
ucase(str) Retorna str com todos os caracteres alterados para maiúsculas.
unbase64(col) Decodifica uma coluna de cadeia de caracteres codificada em BASE64 e a retorna como uma coluna binária.
upper(col) Converte uma expressão de cadeia de caracteres em maiúsculas.
validate_utf8(str) Retorna o valor de entrada se corresponder a uma string UTF-8 válida, ou gera um erro caso contrário.

Funções bit a bit

Função Description
bit_count(col) Retorna o número de bits definidos no argumento expr como um inteiro sem sinal de 64 bits ou NULL se o argumento for NULL.
bit_get(col, pos) Retorna o valor do bit (0 ou 1) na posição especificada.
bitwise_not(col) Calcula a negação bit a bit.
getbit(col, pos) Retorna o valor do bit (0 ou 1) na posição especificada.
shiftleft(col, numBits) Desloce o valor fornecido numBits para a esquerda.
shiftright(col, numBits) (Assinado) mova o valor fornecido numBits para a direita.
shiftrightunsigned(col, numBits) Mude sem sinal o valor fornecido numBits para a direita.

Funções de data/hora

Função Description
add_months(start, months) Retorna a data que é meses após a data de início.
convert_timezone(sourceTz, targetTz, sourceTs) Converte o carimbo de data/hora sourceTs sem fuso horário do fuso horário sourceTz para targetTz.
curdate() Retorna a data atual no início da avaliação da consulta como uma coluna DateType.
current_date() Retorna a data atual no início da avaliação da consulta como uma coluna DateType.
current_timestamp() Retorna a data/hora atual no início da avaliação da consulta como uma coluna do tipo TimestampType.
current_timezone() Retorna o fuso horário local da sessão atual.
date_add(start, days) Retorna a data que é dias após a data inicial.
date_diff(end, start) Retorna o número de dias do início ao fim.
date_format(date, format) Converte uma data/carimbo de data/hora/texto em um valor de texto no formato especificado pelo segundo argumento.
date_from_unix_date(days) Crie uma data a partir do número de dias desde 1970-01-01.
date_part(field, source) Extrai uma parte da origem de data/carimbo de data/hora ou intervalo.
date_sub(start, days) Retorna a data que é dias antes do início.
date_trunc(format, timestamp) Retorna o timestamp truncado na unidade especificada pelo formato.
dateadd(start, days) Retorna a data que é dias após a data inicial.
datediff(end, start) Retorna o número de dias do início ao fim.
datepart(field, source) Extrai uma parte da origem de data/carimbo de data/hora ou intervalo.
day(col) Extraia o dia do mês de um determinado timestamp/data como um inteiro.
dayname(col) Retorna o nome do dia, abreviado em três letras, da data fornecida.
dayofmonth(col) Extraia o dia do mês de um determinado timestamp/data como um inteiro.
dayofweek(col) Extraia o dia da semana de uma determinada data/timestamp como inteiro.
dayofyear(col) Extraia o dia do ano de uma determinada data/timestamp como inteiro.
extract(field, source) Extrai uma parte da origem de data/carimbo de data/hora ou intervalo.
from_unixtime(timestamp[, format]) Converte o número de segundos desde a época Unix (1970-01-01 00:00:00 UTC) em uma string que representa o timestamp daquele momento no fuso horário atual do sistema, no formato fornecido.
from_utc_timestamp(timestamp, tz) Essa é uma função comum para bancos de dados que dão suporte a TIMESTAMP WITHOUT TIMEZONE.
hour(col) Extraia as horas de um determinado timestamp como inteiro.
last_day(date) Retorna o último dia do mês ao qual a data determinada pertence.
localtimestamp() Retorna o carimbo de data/hora atual sem fuso horário no início da avaliação da consulta como um carimbo de data/hora sem coluna de fuso horário.
make_date(year, month, day) Retorna uma coluna com uma data criada a partir das colunas ano, mês e dia.
make_dt_interval([days, hours, mins, secs]) Crie uma duração de DayTimeIntervalType a partir de dias, horas, minutos e segundos.
make_interval([years, months, weeks, days, ...]) Crie um intervalo de anos, meses, semanas, dias, horas, minutos e segundos.
make_timestamp(years, months, days, hours, ...) Crie um carimbo de data/hora a partir dos campos de anos, meses, dias, horas, minutos, segundos e fuso horário.
make_timestamp_ltz(years, months, days, ...) Crie o carimbo de data/hora atual a partir de anos, meses, dias, horas, minutos, segundos e fuso horário local.
make_timestamp_ntz(years, months, days, ...) Crie data-hora local a partir de anos, meses, dias, horas, minutos, segundos.
make_ym_interval([years, months]) Crie um intervalo de ano-mês a partir de anos, meses.
minute(col) Extraia os minutos de um determinado timestamp como inteiro.
month(col) Extraia o mês de uma data/hora fornecida como um número inteiro.
monthname(col) Retorna o nome do mês abreviado de três letras da data fornecida.
months_between(date1, date2[, roundOff]) Retorna o número de meses entre data1 e data2.
next_day(date, dayOfWeek) Retorna a primeira data que é posterior ao valor da coluna de data com base no argumento do segundo dia da semana.
now() Retorna o carimbo de data/hora atual no início da avaliação da consulta.
quarter(col) Extraia o trimestre de uma data/hora especificada como inteiro.
second(col) Extraia os segundos de uma determinada data como inteiro.
session_window(timeColumn, gapDuration) Gera uma janela de sessão a partir de uma coluna que especifica o carimbo de data/hora.
timestamp_add(unit, quantity, ts) Obtém a diferença entre os timestamps nas unidades especificadas, truncando a parte fracionária.
timestamp_diff(unit, start, end) Obtém a diferença entre os timestamps nas unidades especificadas, truncando a parte fracionária.
timestamp_micros(col) Cria um timestamp a partir do número de microssegundos desde o início da era UTC.
timestamp_millis(col) Cria um timestamp a partir do número de milissegundos desde a época Unix.
timestamp_seconds(col) Converte o número de segundos da Época Unix (1970-01-01T00:00:00Z) para um timestamp.
to_date(col[, format]) Converte uma coluna em pyspark.sql.types.DateType usando o formato opcionalmente especificado.
to_timestamp(col[, format]) Converte uma coluna em pyspark.sql.types.TimestampType usando o formato opcionalmente especificado.
to_timestamp_ltz(timestamp[, format]) Converte o carimbo de data/hora usando o formato específico para um carimbo de data/hora com fuso horário.
to_timestamp_ntz(timestamp[, format]) Analisa o carimbo de data/hora com o formato para um carimbo de data/hora sem fuso horário.
to_unix_timestamp(timestamp[, format]) Retorna o carimbo de data/hora UNIX do tempo determinado.
to_utc_timestamp(timestamp, tz) Essa é uma função comum para bancos de dados que dão suporte a TIMESTAMP WITHOUT TIMEZONE.
trunc(date, format) Retorna a data truncada para a unidade especificada pelo formato.
try_make_interval([years, months, weeks, ...]) Tente executar uma make_interval operação, mas retorne um valor NULL em vez de gerar um erro se o intervalo não puder ser criado.
try_make_timestamp(years, months, days, ...) Tente criar carimbo de data/hora a partir de anos, meses, dias, horas, minutos, segundos e fuso horário.
try_make_timestamp_ltz(years, months, days, ...) Tente criar o carimbo de data/hora atual com o fuso horário local a partir dos campos de anos, meses, dias, horas, minutos, segundos e fuso horário.
try_make_timestamp_ntz(years, months, days, ...) Tente criar data/hora local a partir dos campos anos, meses, dias, horas, minutos e segundos.
try_to_timestamp(col[, format]) Analisa a coluna com o formato para um timestamp.
unix_date(col) Retorna o número de dias desde 1970-01-01.
unix_micros(col) Retorna o número de microssegundos desde 1970-01-01 00:00:00 UTC.
unix_millis(col) Retorna o número de milissegundos desde 1970-01-01 00:00:00 UTC.
unix_seconds(col) Retorna o número de segundos desde 1970-01-01 00:00:00 UTC.
unix_timestamp([timestamp, format]) Converter string de tempo com determinado padrão ('yyyy-MM-dd HH:mm:ss', por padrão) para timestamp Unix (em segundos), usando o fuso horário padrão e a localidade padrão, retorna nulo se falhar.
weekday(col) Retorna o dia da semana para data/timestamp (0 = segunda-feira, 1 = terça-feira, ..., 6 = domingo).
weekofyear(col) Extraia o número da semana de uma determinada data como inteiro.
window(timeColumn, windowDuration[, ...]) Distribuir linhas em uma ou mais janelas de tempo com base em uma coluna de carimbo de data/hora especificada.
window_time(windowColumn) Calcula o tempo do evento a partir de uma coluna de janela.
year(col) Extraia o ano de um determinado timestamp como inteiro.

Funções de hash

Função Description
crc32(col) Calcula o valor de verificação de redundância cíclica (CRC32) de uma coluna binária e retorna o valor como um bigint.
hash(*cols) Calcula o código hash de determinadas colunas e retorna o resultado como uma coluna int.
md5(col) Calcula o resumo do MD5 e retorna o valor como uma cadeia de caracteres hexadecimais de 32 caracteres.
sha(col) Retorna um valor de hash sha1 como uma cadeia de caracteres hexadecimais do col.
sha1(col) Retorna o resultado da cadeia de caracteres hex de SHA-1.
sha2(col, numBits) Retorna o resultado na cadeia de caracteres hexadecimal da família SHA-2 de funções de hash (SHA-224, SHA-256, SHA-384 e SHA-512).
xxhash64(*cols) Calcula o código hash de determinadas colunas usando a variante de 64 bits do algoritmo xxHash e retorna o resultado como uma coluna longa.

Funções de coleção

Função Description
aggregate(col, initialValue, merge[, finish]) Aplica um operador binário a um estado inicial e a todos os elementos na matriz e reduz isso a um único estado.
array_sort(col[, comparator]) Classifica a matriz de entrada em ordem crescente.
cardinality(col) Retorna o comprimento da matriz ou mapa armazenado na coluna.
concat(*cols) Concatena várias colunas de entrada em uma única coluna.
element_at(col, extraction) Retorna o elemento da matriz no índice fornecido (baseado em 1).
exists(col, f) Retorna se um predicado é válido para um ou mais elementos na matriz.
filter(col, f) Retorna uma matriz de elementos para a qual um predicado se mantém em uma determinada matriz.
forall(col, f) Retorna se um predicado é válido para cada elemento na matriz.
map_filter(col, f) Retorna uma nova coluna de mapa cujos pares chave-valor atendem a uma determinada função de predicado.
map_zip_with(col1, col2, f) Mescla dois mapas determinados em um único mapa aplicando uma função aos pares chave-valor.
reduce(col, initialValue, merge[, finish]) Aplica um operador binário a um estado inicial e a todos os elementos na matriz e reduz isso a um único estado.
reverse(col) Retorna uma cadeia de caracteres invertida ou uma matriz com elementos em ordem inversa.
size(col) Retorna o comprimento da matriz ou mapa armazenado na coluna.
transform(col, f) Retorna uma matriz de elementos depois de aplicar uma transformação a cada elemento na matriz de entrada.
transform_keys(col, f) Aplica uma função a cada par chave-valor em um mapa e retorna um mapa com os resultados dessas aplicações como as novas chaves para os pares.
transform_values(col, f) Aplica uma função a cada par chave-valor em um mapa e retorna um mapa com os resultados desses aplicativos como os novos valores para os pares.
try_element_at(col, extraction) Retorna o elemento da matriz em determinado índice (baseado em 1).
zip_with(left, right, f) Mesclar duas matrizes específicas, em termos de elemento, em uma única matriz usando uma função.

Funções de matriz

Função Description
array(*cols) Cria uma nova coluna de array a partir das colunas fornecidas ou dos nomes das colunas.
array_append(col, value) Retorna uma nova coluna de matriz acrescentando o valor ao col de matriz existente.
array_compact(col) Remove valores nulos da matriz.
array_contains(col, value) Retorna um booliano que indica se a matriz contém o valor fornecido: nulo se a matriz for nula, true se a matriz contiver o valor fornecido e false caso contrário.
array_distinct(col) Remove valores duplicados da matriz.
array_except(col1, col2) Retorna uma nova matriz que contém os elementos presentes em col1, mas não em col2, sem duplicatas.
array_insert(arr, pos, value) Insere um item em uma determinada matriz em um índice de matriz especificado.
array_intersect(col1, col2) Retorna uma nova matriz que contém a interseção de elementos em col1 e col2, sem duplicatas.
array_join(col, delimiter[, null_replacement]) Retorna uma coluna de cadeia de caracteres concatenando os elementos da coluna de matriz de entrada usando o delimitador.
array_max(col) Retorna o valor máximo da matriz.
array_min(col) Retorna o valor mínimo da matriz.
array_position(col, value) Localiza a posição da primeira ocorrência do valor fornecido na matriz fornecida.
array_prepend(col, value) Retorna uma matriz que contém o elemento fornecido como o primeiro elemento e o restante dos elementos da matriz original.
array_remove(col, element) Remova todos os elementos que são iguais ao elemento da matriz fornecida.
array_repeat(col, count) Cria uma matriz que contém uma coluna repetidamente tempo de contagem.
array_size(col) Retorna o número total de elementos na matriz.
array_union(col1, col2) Retorna uma nova matriz que contém a união de elementos em col1 e col2, sem duplicatas.
arrays_overlap(a1, a2) Retorna uma coluna booliana indicando se as matrizes de entrada têm elementos não nulos comuns, retornando true se o fizerem, nulo se as matrizes não contiverem elementos comuns, mas não estiverem vazias e pelo menos uma delas contiver um elemento nulo e false caso contrário.
arrays_zip(*cols) Retorna uma matriz mesclada de structs em que o struct N-th contém todos os valores N-th de matrizes de entrada.
flatten(col) Cria uma única matriz a partir de uma matriz de matrizes.
get(col, index) Retorna o elemento de uma matriz no índice fornecido (baseado em 0).
sequence(start, stop[, step]) Gere uma sequência de inteiros do início ao fim, incrementando por etapa.
shuffle(col[, seed]) Gera uma permutação aleatória da matriz fornecida.
slice(x, start, length) Retorna uma nova coluna de matriz segmentando a coluna de matriz de entrada de um índice inicial até um comprimento específico.
sort_array(col[, asc]) Classifica a matriz de entrada em ordem crescente ou decrescente de acordo com a ordenação natural dos elementos da matriz.

Funções de struct

Função Description
named_struct(*cols) Cria um struct com os valores e nomes de campo fornecidos.
struct(*cols) Cria uma nova coluna de struct.

Funções de mapa

Função Description
create_map(*cols) Cria uma nova coluna de mapa a partir de um número par de colunas de entrada ou de referências a colunas.
map_concat(*cols) Retorna a união de todos os mapas especificados.
map_contains_key(col, value) Retorna true se o mapa contiver a chave.
map_entries(col) Retorna uma matriz não ordenada de todas as entradas no mapa especificado.
map_from_arrays(col1, col2) Cria um novo mapa de duas matrizes.
map_from_entries(col) Transforma uma matriz de entradas de par chave-valor (structs com dois campos) em um mapa.
map_keys(col) Retorna uma matriz não ordenada que contém as chaves do mapa.
map_values(col) Retorna uma matriz não ordenada que contém os valores do mapa.
str_to_map(text[, pairDelim, keyValueDelim]) Converte uma cadeia de caracteres em um mapa depois de dividir o texto em pares chave/valor usando delimitadores.

Funções de agregação

Função Description
any_value(col[, ignoreNulls]) Retorna algum valor de col para um grupo de linhas.
approx_count_distinct(col[, rsd]) Retorna uma nova Coluna, que estima a contagem distinta aproximada de elementos em uma coluna especificada ou em um grupo de colunas.
approx_percentile(col, percentage[, accuracy]) Retorna o percentil aproximado da coluna numérica col, que é o menor valor entre os valores ordenados de col, classificados do menor para o maior, de modo que não mais do que a porcentagem dos valores de col é menor ou igual a esse valor.
array_agg(col) Retorna uma lista de objetos com duplicatas.
avg(col) Retorna a média dos valores em um grupo.
bit_and(col) Retorna a operação AND bit a bit de todos os valores de entrada não nulos, ou nulo se não houver nenhum.
bit_or(col) Retorna o OU bit a bit de todos os valores de entrada não nulos, ou retorna nulo se não houver valores.
bit_xor(col) Retorna o XOR bit a bit de todos os valores de entrada não nulos, ou nulo se não houver nenhum valor de entrada.
bitmap_construct_agg(col) Retorna um bitmap com as posições dos bits definidos de todos os valores da coluna de entrada.
bitmap_or_agg(col) Retorna um bitmap que é o OR bit a bit de todos os bitmaps da coluna de entrada.
bool_and(col) Retorna true se todos os valores de col forem verdadeiros.
bool_or(col) Retornará true se pelo menos um valor de col for verdadeiro.
collect_list(col) Coleta os valores de uma coluna em uma lista, mantendo duplicatas e retorna essa lista de objetos.
collect_set(col) Coleta os valores de uma coluna em um conjunto, eliminando duplicatas e retorna esse conjunto de objetos.
corr(col1, col2) Retorna uma nova coluna para o Coeficiente de Correlação Pearson para col1 e col2.
count(col) Retorna o número de itens de um grupo.
count_distinct(col, *cols) Retorna uma nova coluna para contagem distinta de coluna ou colunas.
count_if(col) Retorna o número de valores TRUE para a coluna.
count_min_sketch(col, eps, confidence[, seed]) Retorna um esboço de contagem min de uma coluna com o esp, confiança e semente determinados.
covar_pop(col1, col2) Retorna uma nova coluna para a covariância da população de col1 e col2.
covar_samp(col1, col2) Retorna uma nova coluna para a covariância de exemplo de col1 e col2.
every(col) Retorna true se todos os valores de col forem verdadeiros.
first(col[, ignorenulls]) Retorna o primeiro valor em um grupo.
first_value(col[, ignoreNulls]) Retorna o primeiro valor de col para um grupo de linhas.
grouping(col) Indica se uma coluna especificada em uma GROUP BY lista é agregada ou não, retorna 1 para agregada ou 0 para não agregada no conjunto de resultados.
grouping_id(*cols) Retorna o nível de agrupamento, igual a
histogram_numeric(col, nBins) Calcula um histograma em 'col' numérico usando compartimentos de nb.
hll_sketch_agg(col[, lgConfigK]) Retorna a representação binária atualizável do Datasketches HllSketch configurada com o argumento lgConfigK.
hll_union_agg(col[, allowDifferentLgConfigK]) Retorna a representação binária atualizável do Datasketches HllSketch, gerada pela mesclagem de instâncias de Datasketches HllSketch criadas anteriormente por meio de uma instância do Datasketches Union.
kurtosis(col) Retorna a kurtose dos valores em um grupo.
last(col[, ignorenulls]) Retorna o último valor em um grupo.
last_value(col[, ignoreNulls]) Retorna o último valor de col para um grupo de linhas.
listagg(col[, delimiter]) Retorna a concatenação de valores de entrada não nulos, separados pelo delimitador.
listagg_distinct(col[, delimiter]) Retorna a concatenação de valores de entrada não nulos distintos, separados pelo delimitador.
max(col) Retorna o valor máximo da expressão em um grupo.
max_by(col, ord) Retorna o valor do parâmetro col associado ao valor máximo do parâmetro ord.
mean(col) Retorna a média dos valores em um grupo.
median(col) Retorna a mediana dos valores em um grupo.
min(col) Retorna o valor mínimo da expressão em um grupo.
min_by(col, ord) Retorna o valor do parâmetro col associado ao valor mínimo do parâmetro ord.
mode(col[, deterministic]) Retorna o valor mais frequente em um grupo.
percentile(col, percentage[, frequency]) Retorna os percentis exatos da coluna numérica expr nas percentagens fornecidas com intervalo de valor em [0.0, 1.0].
percentile_approx(col, percentage[, accuracy]) Retorna o percentil aproximado da coluna numérica col, que é o menor valor entre os valores ordenados de col, classificados do menor para o maior, de modo que não mais do que a porcentagem dos valores de col é menor ou igual a esse valor.
product(col) Retorna o produto dos valores em um grupo.
regr_avgx(y, x) Retorna a média da variável independente para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
regr_avgy(y, x) Retorna a média da variável dependente para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
regr_count(y, x) Retorna o número de pares de números não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
regr_intercept(y, x) Retorna o intercepto da linha de regressão linear univariada para pares não nulos em um grupo, onde y é a variável dependente e x é a variável independente.
regr_r2(y, x) Retorna o coeficiente de determinação para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
regr_slope(y, x) Retorna a inclinação da linha de regressão linear para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
regr_sxx(y, x) Retorna REGR_COUNT(y, x) * VAR_POP(x) para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
regr_sxy(y, x) Retorna REGR_COUNT(y, x) * COVAR_POP(y, x) para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
regr_syy(y, x) Retorna REGR_COUNT(y, x) * VAR_POP(y) para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente.
skewness(col) Retorna a distorção dos valores em um grupo.
some(col) Retornará true se pelo menos um valor de col for verdadeiro.
std(col) Alias para stddev_samp.
stddev(col) Alias para stddev_samp.
stddev_pop(col) Retorna o desvio padrão da população da expressão em um grupo.
stddev_samp(col) Retorna o desvio padrão amostral não tendencioso da expressão de um grupo.
string_agg(col[, delimiter]) Retorna a concatenação de valores de entrada não nulos, separados pelo delimitador.
string_agg_distinct(col[, delimiter]) Retorna a concatenação de valores de entrada não nulos distintos, separados pelo delimitador.
sum(col) Retorna a soma de todos os valores na expressão.
sum_distinct(col) Retorna a soma de valores distintos na expressão.
try_avg(col) Retorna a média calculada a partir dos valores de um grupo e o resultado é nulo em caso de estouro.
try_sum(col) Retorna a soma calculada dos valores de um grupo, e o resultado é nulo em caso de estouro.
var_pop(col) Retorna a variação da população dos valores em um grupo.
var_samp(col) Retorna a variância amostral não enviesada dos valores em um grupo.
variance(col) Alias para var_samp

Funções da janela

Função Description
cume_dist() Retorna a distribuição cumulativa de valores em uma partição de janela, ou seja, a fração de linhas abaixo da linha atual.
dense_rank() Retorna a classificação de linhas dentro de uma partição de janela, sem nenhuma lacuna.
lag(col[, offset, default]) Retorna o valor que está a um determinado número de linhas antes da linha atual, e retorna o valor padrão se houver menos linhas que esse número antes da linha atual.
lead(col[, offset, default]) Retorna o valor na linha que está deslocada em relação à linha atual, ou o valor padrão caso haja menos linhas disponíveis do que o deslocamento especificado após a linha atual.
nth_value(col, offset[, ignoreNulls]) Retorna o valor que é a linha de deslocamento do quadro da janela (contando de 1) e nulo se o tamanho do quadro de janela for menor que as linhas de deslocamento.
ntile(n) Retorna a ID do grupo ntile (de 1 a n inclusive) em uma partição de janela ordenada.
percent_rank() Retorna a classificação relativa (ou seja,
rank() Retorna a classificação de linhas dentro de uma partição de janela.
row_number() Retorna um número sequencial começando em 1 dentro de uma partição de janela.

Funções de gerador

Função Description
explode(col) Retorna uma nova linha para cada elemento na matriz ou mapa fornecido.
explode_outer(col) Retorna uma nova linha para cada elemento na matriz ou mapa fornecido.
inline(col) Explode uma matriz de structs em uma tabela.
inline_outer(col) Explode uma matriz de structs em uma tabela.
posexplode(col) Retorna uma nova linha para cada elemento com posição na matriz ou mapa fornecido.
posexplode_outer(col) Retorna uma nova linha para cada elemento com posição na matriz ou mapa fornecido.
stack(*cols) Separa col1, ..., colk em n linhas.

Funções de transformação de partição

Função Description
partitioning.years(col) Uma transformação para carimbos de data/hora e datas para dividir dados em anos.
partitioning.months(col) Uma transformação para carimbos de data/hora e datas que particiona os dados em meses.
partitioning.days(col) Uma transformação para timestamps e datas que particiona dados em dias.
partitioning.hours(col) Uma transformação para carimbos de data/hora para particionar dados em horas.
partitioning.bucket(numBuckets, col) Uma transformação para qualquer tipo que particiona usando um hash da coluna de entrada.

Funções geoespaciais H3 (Databricks)

Função Description
h3_boundaryasgeojson(col) Retorna o limite de uma célula H3 no formato GeoJSON
h3_boundaryaswkb(col) Retorna o limite de uma célula H3 no formato WKB
h3_boundaryaswkt(col) Retorna o limite de uma célula H3 no formato WKT
h3_centerasgeojson(col) Retorna o centro de uma célula H3 no formato GeoJSON
h3_centeraswkb(col) Retorna o centro de uma célula H3 no formato WKB
h3_centeraswkt(col) Retorna o centro de uma célula H3 no formato WKT
h3_compact(col) Compacta o conjunto de entrada de IDs de célula H3 da melhor maneira possível
h3_coverash3(col1,col2) Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada
h3_coverash3string(col1,col2) Retorna uma matriz de IDs de célula representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada
h3_distance(col1,col2) Retorna a distância da grade entre duas IDs de célula H3
h3_h3tostring(col) Converte um ID de célula do H3 em uma string que representa o ID da célula como uma sequência hexadecimal.
h3_hexring(col1,col2) Retorna uma matriz de IDs de célula H3 que formam um anel hexagonal oco centrado na célula H3 de origem e que estão a uma distância de grade k da célula H3 de origem
h3_ischildof(col1,col2) Retorna True se a primeira ID da célula H3 for um filho da segunda ID da célula H3
h3_ispentagon(col) Retorna True se a ID da célula H3 de entrada representa um pentágono
h3_isvalid(col) Retorna True se a entrada representa uma ID de célula H3 válida
h3_kring(col1,col2) Retorna as IDs de célula H3 que estão dentro (grade) da distância k da ID da célula de origem
h3_kringdistances(col1,col2) Retorna todas as IDs de células H3 (representadas como inteiros longos ou cadeias de caracteres) que estão a uma distância de grade k da ID de célula H3 de origem, juntamente com suas distâncias em relação à ID de célula H3 de origem.
h3_longlatash3(col1,col2,col3) Retorna a ID da célula H3 (como um BIGINT) correspondente à longitude e latitude fornecidas na resolução especificada
h3_longlatash3string(col1,col2,col3) Retorna a ID da célula H3 (como uma cadeia de caracteres) correspondente à longitude e latitude fornecidas na resolução especificada
h3_maxchild(col1,col2) Retorna o filho com o valor máximo da célula H3 de entrada na resolução especificada.
h3_minchild(col1,col2) Retorna o filho com o menor valor da célula H3 de entrada na resolução especificada
h3_pointash3(col1,col2) Retorna a ID da célula H3 (como um BIGINT) correspondente ao ponto fornecido na resolução especificada
h3_pointash3string(col1,col2) Retorna a ID da célula H3 (como uma cadeia de caracteres) correspondente ao ponto fornecido na resolução especificada
h3_polyfillash3(col1,col2) Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na geografia areal de entrada
h3_polyfillash3string(col1,col2) Retorna um array de IDs de células representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na área geográfica de entrada.
h3_resolution(col) Retorna a resolução da ID da célula H3
h3_stringtoh3(col) Converte a ID da célula H3 de representação em cadeia de caracteres para sua representação de inteiro grande
h3_tessellateaswkb(col1,col2) Retorna uma lista de estruturas que representam os chips que abrangem a geografia na resolução especificada
h3_tochildren(col1,col2) Retorna os IDs das células H3 filhas do ID de célula H3 informado na resolução especificada
h3_toparent(col1,col2) Retorna o ID da célula H3 pai do ID da célula H3 de entrada na resolução especificada
h3_try_coverash3(col1,col2) Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada
h3_try_coverash3string(col1,col2) Retorna uma matriz de IDs de célula representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada
h3_try_distance(col1,col2) Retorna a distância da grade entre duas IDs de célula H3 da mesma resolução ou None se a distância for indefinida
h3_try_polyfillash3(col1,col2) Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na geografia areal de entrada
h3_try_polyfillash3string(col1,col2) Retorna um array de IDs de células representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na área geográfica de entrada.
h3_try_tessellateaswkb(col1,col2) Retorna um array de estruturas que representam os chips que abrangem a geografia na resolução especificada ou null se a geometria for inválida
h3_try_validate(col) Retornará o valor de entrada se for uma célula H3 válida ou Nenhuma, caso contrário
h3_uncompact(col1,col2) Descompacta o conjunto de entrada de IDs de célula H3 para a resolução especificada
h3_validate(col) Retorna o valor de entrada se for uma célula H3 válida ou emite um erro caso contrário.

Funções Geoespaciais ST (Databricks)

Função Description
st_addpoint(col1,col2,col3) Adiciona um novo ponto na n-ésima posição do linestring de entrada de Geografia ou Geometria
st_area(col) Retorna a área da geografia ou geometria de entrada
st_asbinary(col1,col2) Retorna o valor de entrada Geography ou Geometry no formato WKB
st_asewkb(col1,col2) Retorna o valor de entrada Geometry no formato EWKB
st_asewkt(col) Retorna o valor de entrada Geography ou Geometry no formato EWKT
st_asgeojson(col) Retorna o valor de entrada geography ou geometry no formato GeoJSON
st_astext(col) Retorna o valor de entrada Geography ou Geometry no formato WKT.
st_aswkb(col1,col2) Retorna o valor de entrada Geography ou Geometry no formato WKB
st_aswkt(col) Retorna o valor de entrada Geography ou Geometry no formato WKT.
st_buffer(col1,col2) Retorna o buffer da geometria de entrada usando o raio especificado
st_centroid(col) Retorna o centroide da geometria de entrada como uma geometria de ponto 2D
st_concavehull(col1,col2,col3) Retorna o casco côncavo da geometria de entrada como uma geometria usando a taxa de comprimento especificada
st_contains(col1,col2) Retorna True se a primeira geometria contiver a segunda geometria
st_convexhull(col) Retorna o casco convexo da geometria de entrada como uma geometria
st_covers(col1,col2) Retorna True se a primeira geometria abrange a segunda geometria
st_difference(col1,col2) Retorna o conjunto de pontos diferente das duas geometrias de entrada como uma geometria 2D
st_dimension(col) Retorna a dimensão topológica da projeção 2D da geometria de entrada
st_disjoint(col1,col2) Retorna True se as duas geometrias estiverem desarticuladas
st_distance(col1,col2) Retorna a distância cartesiana 2D entre as duas geometrias de entrada
st_distancesphere(col1,col2) Retorna a distância esférica (em metros) entre geometrias de dois pontos, medida em uma esfera cujo raio é o raio médio do elipsóide WGS84
st_distancespheroid(col1,col2) Retorna a distância geodésica (em metros) entre geometrias de dois pontos no elipsoide WGS84
st_dwithin(col1,col2,col3) Retorna True se a distância cartesiana 2D entre as duas geometrias de entrada for menor ou igual à distância de entrada
st_endpoint(col) Retorna o último ponto da linha de entrada ou None se ela não existe
st_envelope(col) Retorna a caixa delimitadora mínima alinhada ao eixo cartesiano 2D (envelope) da geometria não vazia de entrada, como uma geometria
st_envelope_agg(col) Retorna o envelope de todas as geometrias na coluna, ou None se a coluna tem linhas zero ou contém apenas valores None
st_equals(col1,col2) Retorna True se as duas geometrias forem geométricas iguais
st_exteriorring(col) Retorna o anel exterior (shell), como uma linha, do valor de entrada geography ou geometry que representa um polígono
st_flipcoordinates(col) Troca as coordenadas X e Y da geometria de entrada
st_geogfromgeojson(col) Analisa a descrição GeoJSON e retorna o valor de Geografia correspondente
st_geogfromtext(col) Analisa a descrição WKT e retorna o valor correspondente Geografia
st_geogfromwkb(col) Analisa a descrição WKB de entrada e retorna o valor Geografia correspondente
st_geogfromwkt(col) Analisa a descrição WKT e retorna o valor correspondente Geografia
st_geohash(col1,col2) Retorna o geohash da Geometria de entrada
st_geometryn(col1,col2) Retorna o elemento n-ésimo baseado em 1 da multi-geometria de entrada ou None se não existir
st_geometrytype(col) Retorna o tipo do valor de entrada geography ou geometry como uma string
st_geomfromewkb(col) Analisa a descrição EWKB de entrada e retorna o Geometry valor correspondente
st_geomfromgeohash(col) Retorna a caixa de grade geohash correspondente ao valor geohash de entrada como uma geometria de polígono 2D
st_geomfromgeojson(col) Analisa a descrição GeoJSON e retorna o valor de Geometria correspondente
st_geomfromtext(col1,col2) Analisa a descrição WKT e retorna o valor de Geometry correspondente
st_geomfromwkb(col1,col2) Analisa a descrição WKB de entrada e retorna o valor de Geometry correspondente
st_geomfromwkt(col1,col2) Analisa a descrição WKT e retorna o valor de Geometry correspondente
st_intersection(col1,col2) Retorna a interseção de um conjunto de pontos das duas geometrias de entrada como uma geometria 2D.
st_intersects(col1,col2) Retorna True se as duas geometrias se cruzam
st_isempty(col) Retornará True se o valor geography ou geometry de entrada não contiver nenhum ponto não vazio
st_isvalid(col) Retorna True se a geometria de entrada for uma geometria válida no sentido OGC
st_length(col) Retorna o comprimento da geometria de entrada ou do valor de geografia
st_m(col) Retorna a coordenada M da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia ou se ela não tiver uma coordenada M
st_makeline(col) Retorna uma geometria de linestring cujos pontos são os pontos não vazios das geometrias na matriz de entrada de geometrias, que devem ser pontos, linhas de linha ou vários pontos
st_makepolygon(col1,col2) Constrói um polígono a partir do limite externo de entrada e de um array opcional de limites internos, representados como linhas fechadas.
st_multi(col) Retorna o valor de entrada geography ou geometry como um valor geoespacial múltiplo equivalente, mantendo o SRID original.
st_ndims(col) Retorna a dimensão da coordenada do valor Geography ou Geometry de entrada
st_npoints(col) Retorna o número de pontos não vazios no valor de entrada geography ou geometry
st_numgeometries(col) Retorna o número de geometrias na geometria de entrada
st_perimeter(col) Retorna o perímetro da geografia ou geometria de entrada
st_point(col1,col2,col3) Retorna uma Geometria de ponto 2D com as coordenadas x e y fornecidas e o valor SRID
st_pointfromgeohash(col) Retorna o centro da grade de geohash correspondente ao valor de geohash de entrada como uma geometria 2D de ponto.
st_pointn(col1,col2) Retorna o n-ésimo ponto, com base em 1, da linha de string de entrada ou None caso ele não exista
st_removepoint(col1,col2) Remove o ponto n-ésimo da Geografia ou Geometria da linestring de entrada
st_reverse(col) Inverte a ordem dos vértices no valor de entrada Geography ou Geometry
st_rotate(col1,col2) Gira a geometria de entrada ao redor do eixo Z pelo ângulo de rotação fornecido (em radianos)
st_scale(col1,col2,col3,col4) Dimensiona a geometria de entrada nas direções X, Y e Z (opcional) usando os fatores especificados
st_setpoint(col1,col2,col3) Estabelece o n-ésimo ponto no linestring Geography ou Geometry de entrada.
st_setsrid(col1,col2) Retorna um novo valor geometry cujo SRID é o valor SRID especificado
st_simplify(col1,col2) Simplifica a geometria de entrada usando o algoritmo Douglas-Peucker
st_srid(col) Retorna o SRID do valor geoespacial de entrada
st_startpoint(col) Retorna o primeiro ponto da linha de entrada ou None se ela não existe
st_touches(col1,col2) Retorna True caso as duas geometrias se toquem
st_transform(col1,col2) Transforma as coordenadas X e Y da geometria de entrada no CRS (sistema de referência de coordenadas) descrito pelo valor srid fornecido
st_translate(col1,col2,col3,col4) Translada a geometria de entrada nas direções X, Y e na direção Z (opcional) usando os deslocamentos fornecidos.
st_union(col1,col2) Retorna a união de conjunto de pontos das duas geometrias de entrada como uma geometria 2D
st_union_agg(col) Retorna a união pontual de todas as geometrias na coluna ou None se a coluna tem zero linhas ou contém apenas None valores
st_within(col1,col2) Retorna True se a primeira geometria estiver dentro da segunda geometria
st_x(col) Retorna a coordenada X da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia
st_xmax(col) Retorna a coordenada X máxima da geometria de entrada ou None se a geometria de entrada estiver vazia
st_xmin(col) Retorna a coordenada X mínima da geometria de entrada ou None se a geometria de entrada estiver vazia
st_y(col) Retorna a coordenada Y da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia
st_ymax(col) Retorna a coordenada Y máxima da geometria de entrada ou None se a geometria de entrada estiver vazia
st_ymin(col) Retorna a coordenada mínima Y da geometria de entrada ou None se a geometria de entrada estiver vazia
st_z(col) Retorna a coordenada Z da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia ou se ela não tiver uma coordenada Z
st_zmax(col) Retorna a coordenada Z máxima da geometria de entrada ou None se a geometria de entrada estiver vazia ou não contiver coordenadas Z
st_zmin(col) Retorna a coordenada Z mínima da geometria de entrada ou None se a geometria de entrada estiver vazia ou não contiver coordenadas Z
to_geography(col) Analisa o valor binário ou de cadeia de caracteres de entrada e retorna o valor de Geografia correspondente
to_geometry(col) Analisa o valor BINÁRIO ou de cadeia de caracteres de entrada e retorna o valor de Geometry correspondente
try_to_geography(col) Analisa o valor binário ou de cadeia de caracteres de entrada e retorna o valor geography correspondente ou None se a entrada é inválida
try_to_geometry(col) Analisa o valor binário ou de cadeia de caracteres de entrada e retorna o valor geometry correspondente ou None se a entrada é inválida

Funções CSV

Função Description
from_csv(col, schema[, options]) Analisa uma coluna que contém uma cadeia de caracteres CSV em uma linha com o esquema especificado.
schema_of_csv(csv[, options]) Analisa uma cadeia de caracteres CSV e infere seu esquema no formato DDL.
to_csv(col[, options]) Converte uma coluna que contém um StructType em uma cadeia de caracteres CSV.

Funções JSON

Função Description
from_json(col, schema[, options]) Analisa uma coluna que contém uma cadeia de caracteres JSON em um MapType com StringType como tipo de chave, StructType ou ArrayType com o esquema especificado.
get_json_object(col, path) Extrai o objeto json de uma cadeia de caracteres json com base no caminho json especificado e retorna a cadeia de caracteres json do objeto json extraído.
json_array_length(col) Retorna o número de elementos na matriz JSON mais externa.
json_object_keys(col) Retorna todas as chaves do objeto JSON mais externo como uma matriz.
json_tuple(col, *fields) Cria uma nova linha para uma coluna json de acordo com os nomes de campo especificados.
schema_of_json(json[, options]) Analisa uma cadeia de caracteres JSON e infere seu esquema no formato DDL.
to_json(col[, options]) Converte uma coluna que contém um StructType, ArrayType ou um MapType em uma cadeia de caracteres JSON.

Funções variantes

Função Description
is_variant_null(v) Verifique se um valor do tipo variant é nulo.
parse_json(col) Analisa uma coluna que contém uma cadeia de caracteres JSON em um VariantType.
schema_of_variant(v) Retorna o esquema no formato SQL de uma variante.
schema_of_variant_agg(v) Retorna o esquema mesclado no formato SQL de uma coluna variante.
try_variant_get(v, path, targetType) Extrai uma sub-variante de v de acordo com o caminho e, em seguida, converte a sub-variante em targetType.
variant_get(v, path, targetType) Extrai uma sub-variante de v de acordo com o caminho e, em seguida, converte a sub-variante em targetType.
try_parse_json(col) Analisa uma coluna que contém uma cadeia de caracteres JSON em um VariantType.
to_variant_object(col) Converte uma coluna que contém entradas aninhadas (matriz/mapa/estrutura) em variantes, onde mapas e estruturas são convertidos em objetos de variantes que não são ordenados, ao contrário das estruturas SQL.

Funções XML

Função Description
from_xml(col, schema[, options]) Analisa uma coluna que contém uma cadeia de caracteres XML para uma linha com o esquema especificado.
schema_of_xml(xml[, options]) Analisa uma cadeia de caracteres XML e infere seu esquema no formato DDL.
to_xml(col[, options]) Converte uma coluna que contém um StructType em uma cadeia de caracteres XML.
xpath(xml, path) Retorna uma matriz de strings dos valores dentro dos nós do XML que correspondem à expressão XPath.
xpath_boolean(xml, path) Retorna verdadeiro se a expressão XPath for avaliada como verdadeira ou se um nó correspondente for encontrado.
xpath_double(xml, path) Retorna um valor duplo, o valor zero se nenhuma correspondência for encontrada ou NaN se uma correspondência for encontrada, mas o valor não for numérico.
xpath_float(xml, path) Retorna um valor flutuante, o valor zero se nenhuma correspondência for encontrada ou NaN se uma correspondência for encontrada, mas o valor não for numérico.
xpath_int(xml, path) Retorna um valor inteiro ou o valor zero se nenhuma correspondência for encontrada ou uma correspondência for encontrada, mas o valor não for numérico.
xpath_long(xml, path) Retorna um valor inteiro longo ou o valor zero se nenhuma correspondência for encontrada ou uma correspondência for encontrada, mas o valor não for numérico.
xpath_number(xml, path) Retorna um valor duplo, o valor zero se nenhuma correspondência for encontrada ou NaN se uma correspondência for encontrada, mas o valor não for numérico.
xpath_short(xml, path) Retorna um valor inteiro curto ou o valor zero se nenhuma correspondência for encontrada ou uma correspondência for encontrada, mas o valor não for numérico.
xpath_string(xml, path) Retorna o conteúdo do texto do primeiro nó xml que corresponde à expressão XPath.

Funções de URL

Função Description
parse_url(url, partToExtract[, key]) Extrai uma parte especificada de uma URL.
try_parse_url(url, partToExtract[, key]) Tente executar a parse_url operação, mas retorne um valor NULL em vez de gerar um erro se a análise não puder ser executada.
url_decode(str) Decodifica uma cadeia de caracteres codificada em URL em application/x-www-form-urlencoded formato para seu formato original.
url_encode(str) Codifica uma cadeia de caracteres em uma cadeia de caracteres codificada em URL no formato 'application/x-www-form-urlencoded'.
try_url_decode(str) Tente executar a url_decode operação, mas retorne um valor NULL em vez de gerar um erro se a decodificação não puder ser executada.

Funções diversas

Função Description
aes_decrypt(input, key[, mode, padding, aad]) Retorna um valor descriptografado de entrada usando AES em modo com preenchimento.
aes_encrypt(input, key[, mode, padding, iv, aad]) Retorna um valor criptografado de entrada usando AES no modo fornecido com o padding especificado.
assert_true(col[, errMsg]) Retornará nulo se a coluna de entrada for verdadeira; gera uma exceção com a mensagem de erro fornecida caso contrário.
bitmap_bit_position(col) Retorna a posição de bit para a coluna de entrada dada.
bitmap_bucket_number(col) Retorna o número do bucket para a coluna de entrada fornecida.
bitmap_count(col) Retorna o número de bits definidos no bitmap de entrada.
current_catalog() Retorna o catálogo atual.
current_database() Retorna o banco de dados atual.
current_schema() Retorna o esquema atual.
current_user() Retorna o usuário atual.
hll_sketch_estimate(col) Retorna o número estimado de valores exclusivos dada a representação binária de um Datasketches HllSketch.
hll_union(col1, col2[, allowDifferentLgConfigK]) Mescla duas representações binárias de objetos Datasketches HllSketch usando um objeto Datasketches Union.
input_file_block_length() Retorna o comprimento do bloco que está sendo lido ou -1 se não estiver disponível.
input_file_block_start() Retorna o deslocamento inicial do bloco que está sendo lido ou -1 se não estiver disponível.
input_file_name() Cria uma coluna de string para o nome do arquivo da tarefa Spark atual.
java_method(*cols) Chama um método com reflexão.
monotonically_increasing_id() Uma coluna que gera inteiros de 64 bits que aumentam monotonamente.
raise_error(errMsg) Gera uma exceção com a mensagem de erro fornecida.
reflect(*cols) Chama um método com reflexão.
session_user() Retorna o nome de usuário do contexto de execução atual.
spark_partition_id() Uma coluna para ID de partição.
try_aes_decrypt(input, key[, mode, padding, aad]) Tente executar a aes_decrypt operação, mas retorne um valor NULL em vez de gerar um erro se a descriptografia não puder ser executada.
try_reflect(*cols) Tente executar uma reflect operação, mas retorne um valor NULL em vez de gerar um erro se o método de invocação gerar exceção.
typeof(col) Retornar cadeia de caracteres de tipo formatada em DDL para o tipo de dados da entrada.
user() Retorna o usuário atual.
version() Retorna a versão do Spark.

Funções UDF, UDTF, UDT

Função Description
call_udf(udfName, *cols) Chame uma função definida pelo usuário.
pandas_udf([f, returnType, functionType]) Cria uma função definida pelo usuário do Pandas (também conhecida como.
udf([f, returnType, useArrow]) Cria uma UDF (função definida pelo usuário).
udtf([cls, returnType, useArrow]) Cria uma função de tabela definida pelo usuário (UDTF).
unwrap_udt(col) Desestruturar a coluna de tipo de dados UDT em seu tipo subjacente.

Funções com valor de tabela

Função Description
TableValuedFunction.collations() Obtenha todas as ordenações de cadeia de caracteres SQL do Spark.
TableValuedFunction.explode(collection) Retorna um DataFrame que contém uma nova linha para cada elemento na matriz ou mapa fornecido.
TableValuedFunction.explode_outer(collection) Retorna um DataFrame que contém uma nova linha para cada elemento com posição na matriz ou mapa fornecido.
TableValuedFunction.inline(input) Explode uma matriz de structs em uma tabela.
TableValuedFunction.inline_outer(input) Explode uma matriz de structs em uma tabela.
TableValuedFunction.json_tuple(input, *fields) Cria uma nova linha para uma coluna json de acordo com os nomes de campo especificados.
TableValuedFunction.posexplode(collection) Retorna um DataFrame que contém uma nova linha para cada elemento com posição na matriz ou mapa fornecido.
TableValuedFunction.posexplode_outer(collection) Retorna um DataFrame que contém uma nova linha para cada elemento com posição na matriz ou mapa fornecido.
TableValuedFunction.range(start[, end, ...]) Crie um DataFrame com uma única coluna do tipo pyspark.sql.types.LongType chamada id, contendo elementos em um intervalo do início ao fim (exclusivo) com um valor de passo definido por step.
TableValuedFunction.sql_keywords() Obtenha palavras-chave sql do Spark.
TableValuedFunction.stack(n, *fields) Separa col1, ..., colk em n linhas.
TableValuedFunction.variant_explode(input) Separa um objeto/matriz variante em várias linhas que contêm seus campos/elementos.
TableValuedFunction.variant_explode_outer(input) Separa um objeto/matriz variante em várias linhas que contêm seus campos/elementos.