Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta página fornece uma lista das funções SQL do PySpark disponíveis nos Databricks com ligações para a documentação de referência correspondente.
Funções normais
| Função | Description |
|---|---|
broadcast(df) |
Marca um DataFrame como suficientemente pequeno para ser utilizado em broadcast joins. |
call_function(funcName, *cols) |
Chama uma função SQL. |
col(col) |
Devolve uma coluna com base no nome da coluna fornecida. |
column(col) |
Devolve uma coluna com base no nome da coluna fornecida. |
lit(col) |
Cria uma coluna de valor literal. |
expr(str) |
Analisa a cadeia de expressões na coluna que ela representa |
Funções condicionais
| Função | Description |
|---|---|
coalesce(*cols) |
Devolve a primeira coluna que não é nula. |
ifnull(col1, col2) |
Devolve col2 se col1 for nulo, ou col1 caso contrário. |
nanvl(col1, col2) |
Devolve col1 se este não for NaN, caso contrário, devolve col2 se col1 for NaN. |
nullif(col1, col2) |
Devolve nulo se col1 for igual a col2, ou col1 caso contrário. |
nullifzero(col) |
Devolve nulo se col for igual a zero, ou col caso contrário. |
nvl(col1, col2) |
Devolve col2 se col1 for nulo, ou col1 caso contrário. |
nvl2(col1, col2, col3) |
Devolve col2 se col1 não for nulo, ou col3 caso contrário. |
when(condition, value) |
Avalia uma lista de condições e retorna uma das várias expressões de resultado possíveis. |
zeroifnull(col) |
Retorna zero se col for nulo, ou col caso contrário. |
Funções de correspondência de padrões
| Função | Description |
|---|---|
equal_null(col1, col2) |
Devolve o mesmo resultado que o operador EQUAL(=) para operandos não nulos, mas retorna verdadeiro se ambos forem nulos, falso se um deles for nulo. |
ilike(str, pattern[, escapeChar]) |
Retorna verdadeiro se str corresponder ao padrão com escape, ignorando maiúsculas/minúsculas; nulo se algum argumento for nulo; falso caso contrário. |
isnan(col) |
Uma expressão que retorna verdadeira se a coluna for NaN. |
isnotnull(col) |
Retorna verdadeiro se o col não for nulo, ou falso caso contrário. |
isnull(col) |
Uma expressão que retorna verdadeira se a coluna for nula. |
like(str, pattern[, escapeChar]) |
Devolve true se str corresponder ao padrão com escape, null se algum argumento for nulo, false caso contrário. |
regexp(str, regexp) |
Retorna verdadeiro se str coincidir com o regex regexp do Java, ou falso caso contrário. |
regexp_like(str, regexp) |
Retorna verdadeiro se str coincidir com o regex regexp do Java, ou falso caso contrário. |
rlike(str, regexp) |
Retorna verdadeiro se str coincidir com o regex regexp do Java, ou falso caso contrário. |
Funções de ordenação
| Função | Description |
|---|---|
asc(col) |
Devolve uma expressão de ordenação para a coluna alvo em ordem crescente. |
asc_nulls_first(col) |
Devolve uma expressão de ordenação baseada na ordem crescente do nome da coluna dada, e os valores nulos retornam antes dos valores não nulos. |
asc_nulls_last(col) |
Devolve uma expressão de ordenação baseada na ordem crescente do nome da coluna dada, e os valores nulos aparecem após valores não nulos. |
desc(col) |
Devolve uma expressão de ordenação para a coluna alvo por ordem decrescente. |
desc_nulls_first(col) |
Devolve uma expressão de ordenação baseada na ordem decrescente do nome da coluna dada, e os valores nulos aparecem antes dos valores não nulos. |
desc_nulls_last(col) |
Devolve uma expressão de ordenação baseada na ordem decrescente do nome da coluna dada, e os valores nulos aparecem após valores não nulos. |
Funções matemáticas
| Função | Description |
|---|---|
abs(col) |
Calcula o valor absoluto da coluna ou expressão dada. |
acos(col) |
Calcula o cosseno inverso (também conhecido como arccoseno) da coluna ou expressão dada. |
acosh(col) |
Calcula o cosseno hiperbólico inverso (também conhecido como arcosh) da coluna ou expressão dada. |
asin(col) |
Calcula o seno inverso da coluna de entrada. |
asinh(col) |
Calcula o seno hiperbólico inverso da coluna de entrada. |
atan(col) |
Calcule a tangente inversa da coluna de entrada. |
atan2(col1, col2) |
Calcule o ângulo em radianos entre o eixo x positivo de um plano e o ponto dado pelas coordenadas |
atanh(col) |
Calcula a tangente hiperbólica inversa da coluna de entrada. |
bin(col) |
Devolve a representação em string do valor binário da coluna dada. |
bround(col[, scale]) |
Arredonda o valor dado para um número específico de casas decimais usando o modo de arredondamento HALF_EVEN se a escala >= 0, ou na parte inteira quando a escala < 0. |
cbrt(col) |
Calcula a raiz cúbica do valor dado. |
ceil(col[, scale]) |
Calcula o teto máximo do valor dado. |
ceiling(col[, scale]) |
Calcula o teto máximo do valor dado. |
conv(col, fromBase, toBase) |
Converte um número numa coluna string de uma base para outra. |
cos(col) |
Calcula o cosseno da coluna fornecida. |
cosh(col) |
Calcula o cosseno hiperbólico da coluna de entrada. |
cot(col) |
Calcula a cotangente da coluna de entrada. |
csc(col) |
Calcula o cosecante da coluna de entrada. |
degrees(col) |
Converte um ângulo medido em radianos num ângulo aproximadamente equivalente medido em graus. |
e() |
Devolve o número do Euler. |
exp(col) |
Calcula a exponencial do valor dado. |
expm1(col) |
Calcula a exponencial do valor dado menos um. |
factorial(col) |
Calcula o fatorial do valor dado. |
floor(col[, scale]) |
Calcula o mínimo do valor dado. |
greatest(*cols) |
Devolve o maior valor da lista de nomes das colunas, saltando valores nulos. |
hex(col) |
Calcula o valor hexadecimal da coluna dada, que pode ser StringType, BinaryType, IntegerType ou LongType. |
hypot(col1, col2) |
Calcula sqrt(a^2 + b^2) sem provocar overflow ou underflow intermédio. |
least(*cols) |
Devolve o menor valor da lista de nomes das colunas, saltando valores nulos. |
ln(col) |
Devolve o logaritmo natural do argumento. |
log(arg1[, arg2]) |
Devolve o primeiro logaritmo baseado em argumentos do segundo argumento. |
log10(col) |
Calcula o logaritmo do valor dado em base 10. |
log1p(col) |
Calcula o logaritmo natural do valor dado mais um. |
log2(col) |
Devolve o logaritmo em base 2 do argumento. |
negate(col) |
Devolve o valor negativo. |
negative(col) |
Devolve o valor negativo. |
pi() |
Retorna Pi. |
pmod(dividend, divisor) |
Devolve o valor positivo do dividendo mod divisor. |
positive(col) |
Devolve o valor. |
pow(col1, col2) |
Devolve o valor do primeiro argumento levantado ao poder do segundo argumento. |
power(col1, col2) |
Devolve o valor do primeiro argumento levantado ao poder do segundo argumento. |
radians(col) |
Converte um ângulo medido em graus num ângulo aproximadamente equivalente medido em radianos. |
rand([seed]) |
Gera uma coluna aleatória com amostras independentes e idênticamente distribuídas (i.i.d.) uniformemente distribuídas em [0.0, 1.0). |
randn([seed]) |
Gera uma coluna aleatória com amostras independentes e identicamente distribuídas (i.i.d.) a partir da distribuição normal standard. |
rint(col) |
Devolve o valor duplo que é o mais próximo em valor do argumento e é igual a um inteiro matemático. |
round(col[, scale]) |
Arredondar o valor dado para o número de casas decimais especificado, usando o modo de arredondamento HALF_UP, se a escala for >= 0 ou na parte integral quando a escala for < 0. |
sec(col) |
Calcula a secante da coluna de entrada. |
sign(col) |
Calcula o sinal do valor dado. |
signum(col) |
Calcula o sinal do valor dado. |
sin(col) |
Calcula o seno da coluna de entrada. |
sinh(col) |
Calcula o seno hiperbólico da coluna de entrada. |
sqrt(col) |
Calcula a raiz quadrada do valor float especificado. |
tan(col) |
Calcula a tangente da coluna de entrada. |
tanh(col) |
Calcula a tangente hiperbólica da coluna de entrada. |
try_add(left, right) |
Devolve a soma dos valores à esquerda e à direita e o resultado é nulo em caso de overflow. |
try_divide(left, right) |
Retorna o quociente de dividendo/divisor. |
try_mod(left, right) |
Devolve o restante após dividendo/divisor. |
try_multiply(left, right) |
Retornos à esquerda multiplicados pela direita e o resultado é nulo no overflow. |
try_subtract(left, right) |
Retorna à esquerda menos à direita e o resultado é nulo no overflow. |
unhex(col) |
Inverso do hexágono. |
uniform(min, max[, seed]) |
Devolve um valor aleatório com valores independentes e idênticamente distribuídos (i.i.d.) com o intervalo especificado de números. |
width_bucket(v, min, max, numBucket) |
Devolve o número do compartimento em que o valor desta expressão se enquadrará após ser avaliado. |
Funções de cadeia de caracteres
| Função | Description |
|---|---|
ascii(col) |
Calcula o valor numérico do primeiro carácter da coluna da cadeia. |
base64(col) |
Calcula a codificação BASE64 de uma coluna binária e devolve-a como uma coluna de string. |
bit_length(col) |
Calcula o comprimento em bits para a coluna da string especificada. |
btrim(str[, trim]) |
Remove os caracteres de corte dianteiro e final da força. |
char(col) |
Devolve o carácter ASCII cujo equivalente binário é idêntico a col. |
char_length(str) |
Retorna o comprimento do caractere dos dados da cadeia de caracteres ou o número de bytes dos dados binários. |
character_length(str) |
Retorna o comprimento do caractere dos dados da cadeia de caracteres ou o número de bytes dos dados binários. |
collate(col, collation) |
Marca uma coluna específica com uma colação especificada. |
collation(col) |
Retorna o nome da colação de uma coluna específica. |
concat_ws(sep, *cols) |
Concatena múltiplas colunas de strings de entrada numa única coluna de string, usando o separador dado. |
contains(left, right) |
Devolve um booleano. |
decode(col, charset) |
Calcula o primeiro argumento numa string a partir de um binário usando o conjunto de caracteres fornecido (um de US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LEUTF-16, , UTF-32). |
elt(*inputs) |
Devolve a n-ésima entrada, por exemplo, devolve a entrada2 quando n é 2. |
encode(col, charset) |
Calcula o primeiro argumento num binário a partir de uma cadeia usando o conjunto de caracteres fornecido (um dos US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LEUTF-16, UTF-32). |
endswith(str, suffix) |
Devolve um booleano. |
find_in_set(str, str_array) |
Devolve o índice (baseado em 1) da cadeia (str) dada na lista delimitada por vírgulas (strArray). |
format_number(col, d) |
Formata o número X para um formato como #,--#,--#.--, arredondado para d casas decimais com o modo de arredondamento HALF_EVEN, e devolve o resultado como uma cadeia de caracteres. |
format_string(format, *cols) |
Formata os argumentos no estilo printf e devolve o resultado como uma coluna de string. |
initcap(col) |
Traduza a primeira letra de cada palavra para maiúsculas na frase. |
instr(str, substr) |
Localiza a posição da primeira ocorrência da coluna substr na cadeia dada. |
is_valid_utf8(str) |
Retorna true se a entrada for uma string UTF-8 válida, caso contrário retorna false. |
lcase(str) |
Retorna a string com todos os caracteres alterados para minúsculas. |
left(str, len) |
Devolve os caracteres len mais à esquerda (len pode ser do tipo cadeia) da cadeia str; se len for menor ou igual a 0, o resultado é uma cadeia vazia. |
length(col) |
Calcula o comprimento dos caracteres dos dados da cadeia ou o número de bytes de dados binários. |
levenshtein(left, right[, threshold]) |
Calcula a distância de Levenshtein das duas cadeias dadas. |
locate(substr, str[, pos]) |
Localiza a posição da primeira ocorrência de substr numa coluna de texto, após a posição pos. |
lower(col) |
Converte uma expressão de cadeia em minúscula. |
lpad(col, len, pad) |
Preenche à esquerda a coluna de cadeia até à largura especificada com o pad. |
ltrim(col[, trim]) |
Remova os espaços do lado esquerdo do valor especificado da cadeia. |
make_valid_utf8(str) |
Devolve uma nova cadeia em que todas as sequências de bytes UTF-8 inválidas, se existirem, são substituídas pelo carácter de substituição Unicode (U+FFFD). |
mask(col[, upperChar, lowerChar, digitChar, ...]) |
Máscara a cadeia de caracteres dada. |
octet_length(col) |
Calcula o comprimento em bytes para a coluna da string especificada. |
overlay(src, replace, pos[, len]) |
Sobrepõe a parte especificada de src com replace, começando pela posição de bytes pos de src e avançando para bytes LEN. |
position(substr, str[, start]) |
Devolve a posição da primeira ocorrência de substr em str após o início da posição. |
printf(format, *cols) |
Formata os argumentos no estilo printf e devolve o resultado como uma coluna de string. |
randstr(length[, seed]) |
Devolve uma cadeia do comprimento especificado cujos caracteres são escolhidos uniformemente aleatoriamente do seguinte conjunto de caracteres: 0-9, a-z, A-Z. |
regexp_count(str, regexp) |
Devolve a contagem do número de vezes que o regexp do padrão regex Java é correspondido na string str. |
regexp_extract(str, pattern, idx) |
Extraia um grupo específico que corresponda à expressão regular do Java, da coluna de cadeias de caracteres especificada. |
regexp_extract_all(str, regexp[, idx]) |
Extrair todas as strings no str que correspondam ao regexp regex Java e correspondentes ao índice do grupo regex. |
regexp_instr(str, regexp[, idx]) |
Devolve a posição da primeira substring em str que corresponde à expressão regular Java (regexp) e ao índice do grupo correspondente. |
regexp_replace(string, pattern, replacement) |
Substitua todas as substrings do valor especificado que correspondam a regexp com substituição. |
regexp_substr(str, regexp) |
Devolve a primeira substring que corresponde ao regexp regex Java dentro da string str. |
repeat(col, n) |
Repete uma coluna de cadeias n vezes e devolve-a como uma nova coluna de cadeia. |
replace(src, search[, replace]) |
Substitui todas as ocorrências de procura por substituir. |
right(str, len) |
Devolve os caracteres len mais à direita (len pode ser do tipo cadeia) da cadeia str; se len for menor ou igual a 0, o resultado é uma cadeia vazia. |
rpad(col, len, pad) |
Preencha à direita a coluna de texto até o comprimento especificado com preenchimento. |
rtrim(col[, trim]) |
Corte os espaços a partir da extremidade direita para o valor especificado da string. |
sentences(string[, language, country]) |
Divide uma sequência em arrays de frases, onde cada frase é um array de palavras. |
soundex(col) |
Devolve a codificação SoundEx para uma string |
split(str, pattern[, limit]) |
Divide a string em torno de ocorrências do padrão dado. |
split_part(src, delimiter, partNum) |
Divide a string por delimitador e retorna a parte solicitada da divisão (indexada a partir de 1). |
startswith(str, prefix) |
Devolve um booleano. |
substr(str, pos[, len]) |
Devolve a substring de 'str' que começa em pos e tem comprimento len, ou a fatia do array de bytes que começa em pos e tem comprimento len. |
substring(str, pos, len) |
A substring começa em pos e tem comprimento len quando str é do tipo String ou devolve o pedaço do array de bytes que começa em pos e tem comprimento len quando str é do tipo Binário. |
substring_index(str, delim, count) |
Devolve a substring da string str antes de contar ocorrências do delimitador delim. |
to_binary(col[, format]) |
Converte a coluna de entrada para um valor binário com base no formato fornecido. |
to_char(col, format) |
Converte o col para uma string com base no formato. |
to_number(col, format) |
Converta a string 'col' para um valor numérico com base no formato da string 'format'. |
to_varchar(col, format) |
Converte o col para uma string com base no formato. |
translate(srcCol, matching, replace) |
Traduz qualquer carácter do srcCol por um carácter em correspondência. |
trim(col[, trim]) |
Remova os espaços de ambas as extremidades da coluna de texto especificada. |
try_to_binary(col[, format]) |
Tente realizar a to_binary operação, mas devolve um valor NULL em vez de gerar um erro se a conversão não puder ser realizada. |
try_to_number(col, format) |
Converta a cadeia col para um número com base no formato da cadeia format. |
try_validate_utf8(str) |
Devolve o valor de entrada se corresponder a uma cadeia UTF-8 válida, ou NULL caso contrário. |
ucase(str) |
Devolve uma string com todos os caracteres convertidos para maiúsculas. |
unbase64(col) |
Descodifica uma coluna de strings codificada em BASE64 e devolve-a como uma coluna binária. |
upper(col) |
Converte uma expressão de texto para maiúsculas. |
validate_utf8(str) |
Devolve o valor de entrada se corresponder a uma cadeia UTF-8 válida, ou emite um erro caso contrário. |
Funções bit a bit
| Função | Description |
|---|---|
bit_count(col) |
Devolve o número de bits definidos no argumento expr como um inteiro não assinado de 64 bits, ou NULL se o argumento for NULL. |
bit_get(col, pos) |
Devolve o valor do bit (0 ou 1) na posição especificada. |
bitwise_not(col) |
Calcula bit a bit não. |
getbit(col, pos) |
Devolve o valor do bit (0 ou 1) na posição especificada. |
shiftleft(col, numBits) |
Desloca o valor dado "numBits" para a esquerda. |
shiftright(col, numBits) |
(Assinado) desloca o valor dado numBits para a direita. |
shiftrightunsigned(col, numBits) |
Deslocamento sem sinal do valor dado numBits para a direita. |
Funções de data/hora
| Função | Description |
|---|---|
add_months(start, months) |
Devolve a data que é meses meses após o início. |
convert_timezone(sourceTz, targetTz, sourceTs) |
Converte o carimbo temporal sem o sourceTs do fuso horário sourceTz para targetTz. |
curdate() |
Devolve a atual data no início da avaliação da consulta como uma coluna DateType. |
current_date() |
Devolve a atual data no início da avaliação da consulta como uma coluna DateType. |
current_timestamp() |
Retorna o timestamp atual no início da avaliação da consulta como uma coluna do tipo TimestampType. |
current_timezone() |
Retorna o fuso horário local da sessão atual. |
date_add(start, days) |
Devolve a data que é X dias após a data de início. |
date_diff(end, start) |
Devolve o número de dias do início ao fim. |
date_format(date, format) |
Converte uma data/carimbo temporal/string num valor de string no formato especificado pelo formato de data dado pelo segundo argumento. |
date_from_unix_date(days) |
Criar a data a partir do número de dias desde 1970-01-01. |
date_part(field, source) |
Extrai uma parte da data/timestamp ou do intervalo de origem. |
date_sub(start, days) |
Devolve a data que é um determinado número de dias antes do início. |
date_trunc(format, timestamp) |
Devolve o carimbo temporal truncado para a unidade especificada pelo formato. |
dateadd(start, days) |
Devolve a data que é X dias após a data de início. |
datediff(end, start) |
Devolve o número de dias do início ao fim. |
datepart(field, source) |
Extrai uma parte da data/timestamp ou do intervalo de origem. |
day(col) |
Extrair o dia do mês de uma data/hora dada como inteiro. |
dayname(col) |
Devolve o nome do dia, abreviado em três letras, da data indicada. |
dayofmonth(col) |
Extrair o dia do mês de uma data/hora dada como inteiro. |
dayofweek(col) |
Extrair o dia da semana de uma data/hora dada como inteiro. |
dayofyear(col) |
Extraia o dia do ano de uma data/hora especificada como um número inteiro. |
extract(field, source) |
Extrai uma parte da data/timestamp ou do intervalo de origem. |
from_unixtime(timestamp[, format]) |
Converte o número de segundos do unix epoch (1970-01-01 00:00:00 UTC) para uma cadeia de caracteres que representa o carimbo temporal desse momento no fuso horário atual do sistema no formato especificado. |
from_utc_timestamp(timestamp, tz) |
Esta é uma função comum para bases de dados que suportam TIMESTAMP WITHOUT TIMEZONE. |
hour(col) |
Extrair as horas de um determinado timestamp como um inteiro. |
last_day(date) |
Devolve o último dia do mês a que pertence a data indicada. |
localtimestamp() |
Devolve o carimbo temporal atual sem fuso horário no início da avaliação da consulta como um carimbo temporal sem coluna de fuso horário. |
make_date(year, month, day) |
Devolve uma coluna com uma data construída a partir das colunas do ano, mês e dia. |
make_dt_interval([days, hours, mins, secs]) |
Faz com que a duração do DayTimeIntervalType seja de dias, horas, minutos e segundos. |
make_interval([years, months, weeks, days, ...]) |
Faz intervalos de anos, meses, semanas, dias, horas, minutos e segundos. |
make_timestamp(years, months, days, hours, ...) |
Cria carimbo temporal a partir de anos, meses, dias, horas, mins, segundos e campos de fuso horário. |
make_timestamp_ltz(years, months, days, ...) |
Crie o timestamp atual com o fuso horário local a partir dos campos de anos, meses, dias, horas, minutos, segundos e fuso horário. |
make_timestamp_ntz(years, months, days, ...) |
Crie datas-horas locais a partir de anos, meses, dias, horas, mins, segundos. |
make_ym_interval([years, months]) |
Faz um intervalo ano-mês de anos, meses. |
minute(col) |
Extrair os minutos de uma determinada marca temporal como um inteiro. |
month(col) |
Extrai o mês de uma data/hora como um inteiro. |
monthname(col) |
Devolve o nome do mês abreviado em três letras da data indicada. |
months_between(date1, date2[, roundOff]) |
Devolve o número de meses entre as datas data1 e data2. |
next_day(date, dayOfWeek) |
Devolve a primeira data, que é posterior ao valor da coluna da data, com base no argumento do segundo dia semanal. |
now() |
Retorna o timestamp atual no início da execução da consulta. |
quarter(col) |
Extrair o trimestre de uma data/hora dada como inteiro. |
second(col) |
Extrai os segundos de uma data dada como inteiros. |
session_window(timeColumn, gapDuration) |
Gera uma janela de sessão com base num carimbo temporal especificando uma coluna. |
timestamp_add(unit, quantity, ts) |
Obtém a diferença entre as marcas temporais nas unidades especificadas, desconsiderando a parte fracionária. |
timestamp_diff(unit, start, end) |
Obtém a diferença entre as marcas temporais nas unidades especificadas, desconsiderando a parte fracionária. |
timestamp_micros(col) |
Cria marca temporal a partir do número de microssegundos desde a época do UTC. |
timestamp_millis(col) |
Cria uma marca temporal a partir do número de milissegundos desde o início da era UTC. |
timestamp_seconds(col) |
Converte o número de segundos desde a época Unix (1970-01-01T00:00:00Z) para um timestamp. |
to_date(col[, format]) |
Converte uma coluna em pyspark.sql.types.DateType usando o formato opcionalmente especificado. |
to_timestamp(col[, format]) |
Converte uma coluna em pyspark.sql.types.TimestampType usando o formato opcionalmente especificado. |
to_timestamp_ltz(timestamp[, format]) |
Analisa o carimbo temporal com o formato para um carimbo temporal com o fuso horário. |
to_timestamp_ntz(timestamp[, format]) |
Converte o carimbo temporal com o formato especificado para um carimbo temporal sem fuso horário. |
to_unix_timestamp(timestamp[, format]) |
Retorna o timestamp UNIX do tempo dado. |
to_utc_timestamp(timestamp, tz) |
Esta é uma função comum para bases de dados que suportam TIMESTAMP WITHOUT TIMEZONE. |
trunc(date, format) |
Retorna a data truncada até a unidade especificada pelo formato. |
try_make_interval([years, months, weeks, ...]) |
Tente realizar a operação make_interval, mas devolver um valor NULL em vez de gerar um erro se o intervalo não puder ser criado. |
try_make_timestamp(years, months, days, ...) |
Tenta criar carimbos de hora a partir de anos, meses, dias, horas, minutos, segundos e campos de fuso horário. |
try_make_timestamp_ltz(years, months, days, ...) |
Tente criar o carimbo temporal atual com o fuso horário local a partir dos campos de anos, meses, dias, horas, minutos, segundos e fuso horário. |
try_make_timestamp_ntz(years, months, days, ...) |
Tente criar datas locais a partir de anos, meses, dias, horas, mins, segundos. |
try_to_timestamp(col[, format]) |
Converte a coluna com o formato para um timestamp. |
unix_date(col) |
Devolve o número de dias desde 1-01-1970. |
unix_micros(col) |
Retorna o número de microssegundos desde 1970-01-01 00:00:00 UTC. |
unix_millis(col) |
Devolve o número de milissegundos desde 1970-01-01 00:00:00 UTC. |
unix_seconds(col) |
Devolve o número de segundos desde 1970-01-01 00:00:00 UTC. |
unix_timestamp([timestamp, format]) |
Converter a cadeia temporal com o padrão dado ('yyy-MM-dd HH:mm:ss', por defeito) para carimbo de hora Unix (em segundos), usando o fuso horário e a localização predefinidos, devolve o valor nulo se falhar. |
weekday(col) |
Devolve o dia da semana para data/hora (0 = segunda-feira, 1 = terça-feira, ..., 6 = domingo). |
weekofyear(col) |
Extrair o número da semana de uma dada data como inteiro. |
window(timeColumn, windowDuration[, ...]) |
Agrupe as linhas em uma ou mais janelas temporais usando uma coluna que especifica um carimbo de data/hora. |
window_time(windowColumn) |
Calcula o tempo do evento a partir de uma coluna de janela. |
year(col) |
Extrair o ano de uma data/hora dada como um inteiro. |
Funções de hash
| Função | Description |
|---|---|
crc32(col) |
Calcula o valor de verificação de redundância cíclica (CRC32) de uma coluna binária e devolve o valor como um bigint. |
hash(*cols) |
Calcula o código hash das colunas dadas e devolve o resultado como uma coluna int. |
md5(col) |
Calcula o resumo MD5 e devolve o valor como uma cadeia hexadecimal de 32 caracteres. |
sha(col) |
Devolve um valor de hash sha1 como uma cadeia hexadecimal do col. |
sha1(col) |
Retorna o resultado da cadeia hexadecimal do SHA-1. |
sha2(col, numBits) |
Devolve o resultado da cadeia hexadecimal da família SHA-2 de funções hash (SHA-224, SHA-256, SHA-384 e SHA-512). |
xxhash64(*cols) |
Calcula o código hash das colunas dadas usando a variante de 64 bits do algoritmo xxHash, e devolve o resultado como uma coluna longa. |
Funções de recolha
| Função | Description |
|---|---|
aggregate(col, initialValue, merge[, finish]) |
Aplica um operador binário a um estado inicial e a todos os elementos do array, reduzindo-o a um único estado. |
array_sort(col[, comparator]) |
Ordena o array de entrada por ordem crescente. |
cardinality(col) |
Devolve o comprimento do array ou mapa armazenado na coluna. |
concat(*cols) |
Concatena várias colunas de entrada numa única coluna. |
element_at(col, extraction) |
Devolve o elemento do array no índice dado (baseado em 1). |
exists(col, f) |
Retorna se um predicado é válido para um ou mais elementos no array. |
filter(col, f) |
Devolve um array de elementos para os quais um predicado é válido num dado array. |
forall(col, f) |
Devolve se um predicado é válido para todos os elementos do array. |
map_filter(col, f) |
Devolve uma nova coluna de mapa cujos pares-chave-valor satisfazem uma função de predicado dada. |
map_zip_with(col1, col2, f) |
Funde dois mapas dados num único mapa aplicando uma função aos pares-chave-valor. |
reduce(col, initialValue, merge[, finish]) |
Aplica um operador binário a um estado inicial e a todos os elementos do array, reduzindo-o a um único estado. |
reverse(col) |
Devolve uma cadeia invertida ou um array com elementos em ordem inversa. |
size(col) |
Devolve o comprimento do array ou mapa armazenado na coluna. |
transform(col, f) |
Devolve um array de elementos após aplicar uma transformação a cada elemento no array de entrada. |
transform_keys(col, f) |
Aplica uma função a cada par chave-valor num mapa e devolve um mapa com os resultados dessas aplicações como as novas chaves para os pares. |
transform_values(col, f) |
Aplica uma função a cada par-chave-valor num mapa e devolve um mapa com os resultados dessas aplicações como os novos valores para os pares. |
try_element_at(col, extraction) |
Devolve um elemento do array num índice dado (baseado em 1). |
zip_with(left, right, f) |
Juntam-se dois arrays dados, elemento a elemento, num único array utilizando uma função. |
Funções de Array
| Função | Description |
|---|---|
array(*cols) |
Cria uma nova coluna de array a partir das colunas de entrada ou dos nomes dessas colunas. |
array_append(col, value) |
Retorna uma nova coluna de arrays ao adicionar um valor à coluna de array existente. |
array_compact(col) |
Remove valores nulos do array. |
array_contains(col, value) |
Devolve um booleano indicando se o array contém o valor dado: nulo se o array for nulo, true se o array contiver o valor dado, e falso caso contrário. |
array_distinct(col) |
Remove valores duplicados do array. |
array_except(col1, col2) |
Devolve um novo array contendo os elementos presentes em col1 mas não em col2, sem duplicados. |
array_insert(arr, pos, value) |
Insere um item em um array dado em um índice especificado do array. |
array_intersect(col1, col2) |
Devolve um novo array contendo a interseção dos elementos em col1 e col2, sem duplicados. |
array_join(col, delimiter[, null_replacement]) |
Retorna uma coluna de cadeia de caracteres, concatenando os elementos da coluna de array de entrada com um delimitador. |
array_max(col) |
Devolve o valor máximo do array. |
array_min(col) |
Devolve o valor mínimo do array. |
array_position(col, value) |
Localiza a posição da primeira ocorrência do valor dado no array dado. |
array_prepend(col, value) |
Devolve um array contendo o elemento dado como primeiro elemento e os restantes elementos do array original. |
array_remove(col, element) |
Remova todos os elementos iguais a elemento do array dado. |
array_repeat(col, count) |
Cria uma matriz contendo uma coluna repetida várias vezes. |
array_size(col) |
Devolve o número total de elementos no array. |
array_union(col1, col2) |
Devolve um novo array contendo a união dos elementos em col1 e col2, sem duplicados. |
arrays_overlap(a1, a2) |
Retorna uma coluna booleana indicando se os arrays de entrada têm elementos comuns não nulos, retornando true se existirem, null se os arrays não contêm elementos comuns mas não estão vazios e pelo menos um deles contém um elemento nulo, e false caso contrário. |
arrays_zip(*cols) |
Devolve um array fundido de structs em que o N-ésimo struct contém todos os N-ésimos valores dos arrays de entrada. |
flatten(col) |
Cria um único array a partir de um array de arrays. |
get(col, index) |
Devolve o elemento de um array no índice dado (baseado em 0). |
sequence(start, stop[, step]) |
Gerar uma sequência de inteiros do início ao fim, incrementando passo a passo. |
shuffle(col[, seed]) |
Gera uma permutação aleatória do array dado. |
slice(x, start, length) |
Devolve uma nova coluna de array ao fatiar a coluna de array de entrada desde um índice inicial até um comprimento específico. |
sort_array(col[, asc]) |
Ordena o array de entrada por ordem ascendente ou descendente de acordo com a ordenação natural dos elementos do array. |
Funções de estruturas (struct)
| Função | Description |
|---|---|
named_struct(*cols) |
Cria uma estrutura com os nomes e valores dos campos dados. |
struct(*cols) |
Cria uma nova coluna de estrutura. |
Funções de mapa
| Função | Description |
|---|---|
create_map(*cols) |
Cria uma nova coluna de mapa a partir de um número par de colunas de entrada ou referências de colunas. |
map_concat(*cols) |
Devolve a união de todos os mapas dados. |
map_contains_key(col, value) |
Retorna verdadeiro se o mapa contiver a chave. |
map_entries(col) |
Devolve um array não ordenado de todas as entradas no mapa dado. |
map_from_arrays(col1, col2) |
Cria um novo mapa a partir de dois arrays. |
map_from_entries(col) |
Transforma uma matriz de entradas de par-chave-valor (estruturas com dois campos) num mapa. |
map_keys(col) |
Devolve um array não ordenado contendo as chaves do mapa. |
map_values(col) |
Devolve um array não ordenado contendo os valores do mapa. |
str_to_map(text[, pairDelim, keyValueDelim]) |
Converte uma cadeia num mapa depois de dividir o texto em pares chave/valor usando delimitadores. |
Funções agregadas
| Função | Description |
|---|---|
any_value(col[, ignoreNulls]) |
Devolve algum valor de col para um grupo de linhas. |
approx_count_distinct(col[, rsd]) |
Devolve uma nova Coluna, que estima a contagem aproximada distinta de elementos numa coluna especificada ou num grupo de colunas. |
approx_percentile(col, percentage[, accuracy]) |
Devolve o percentil aproximado da coluna numérica col, que é o menor valor nos valores ordenados de col (ordenados do menor para o maior), de modo que não mais do que a percentagem dos valores de col seja inferior ao valor ou igual a esse valor. |
array_agg(col) |
Devolve uma lista de objetos com duplicados. |
avg(col) |
Devolve a média dos valores num grupo. |
bit_and(col) |
Devolve o valor resultante da operação AND bit a bit de todos os valores de entrada não nulos, ou nulo se não houver. |
bit_or(col) |
Devolve o OR bit a bit de todos os valores de entrada não nulos, ou nulo se não existirem. |
bit_xor(col) |
Devolve o XOR bit a bit de todos os valores de entrada não nulos, ou nulo se não houver nenhum. |
bitmap_construct_agg(col) |
Devolve um bitmap com as posições dos bits definidas a partir de todos os valores da coluna de entrada. |
bitmap_or_agg(col) |
Devolve um bitmap que é o OR bit a bit de todos os bitmaps da coluna de entrada. |
bool_and(col) |
Retorna verdadeiro se todos os valores de col forem verdadeiros. |
bool_or(col) |
Retorna verdadeiro se pelo menos um valor de col for verdadeiro. |
collect_list(col) |
Recolhe os valores de uma coluna numa lista, mantendo duplicados, e devolve esta lista de objetos. |
collect_set(col) |
Recolhe os valores de uma coluna num conjunto, eliminando duplicados, e devolve este conjunto de objetos. |
corr(col1, col2) |
Devolve uma nova Coluna para o Coeficiente de Correlação de Pearson para col1 e col2. |
count(col) |
Devolve o número de itens num grupo. |
count_distinct(col, *cols) |
Devolve uma nova Coluna para a contagem distinta de col ou cols. |
count_if(col) |
Devolve o número de valores TRUE para a coluna. |
count_min_sketch(col, eps, confidence[, seed]) |
Devolve um esboço de contagem-minuto de uma coluna com o esp, confiança e seed dados. |
covar_pop(col1, col2) |
Devolve uma nova Coluna para a covariância populacional de col1 e col2. |
covar_samp(col1, col2) |
Retorna uma nova coluna para a covariância amostral de col1 e col2. |
every(col) |
Retorna verdadeiro se todos os valores de col forem verdadeiros. |
first(col[, ignorenulls]) |
Devolve o primeiro valor de um grupo. |
first_value(col[, ignoreNulls]) |
Devolve o primeiro valor de col para um grupo de linhas. |
grouping(col) |
Indica se uma coluna especificada numa GROUP BY lista é agregada ou não, retorna 1 para agregado ou 0 para não agregado no conjunto de resultados. |
grouping_id(*cols) |
Devolve o nível de agrupamento, igual a |
histogram_numeric(col, nBins) |
Calcula um histograma no 'col' numérico usando bins nb. |
hll_sketch_agg(col[, lgConfigK]) |
Devolve a representação binária atualizável do HllSketch da Datasketches configurada com o argumento lgConfigK. |
hll_union_agg(col[, allowDifferentLgConfigK]) |
Devolve a representação binária atualizável do Datasketches HllSketch, gerada pela fusão de instâncias Datasketches HllSketches previamente criadas através de uma instância Datasketches Union. |
kurtosis(col) |
Devolve a kurtosis dos valores de um grupo. |
last(col[, ignorenulls]) |
Devolve o último valor de um grupo. |
last_value(col[, ignoreNulls]) |
Devolve o último valor de col para um grupo de linhas. |
listagg(col[, delimiter]) |
Devolve a concatenação dos valores de entrada não nulos, separados pelo delimitador. |
listagg_distinct(col[, delimiter]) |
Devolve a concatenação de valores de entrada distintos não nulos, separados pelo delimitador. |
max(col) |
Devolve o valor máximo da expressão num grupo. |
max_by(col, ord) |
Devolve o valor do parâmetro col associado ao valor máximo do parâmetro ord. |
mean(col) |
Devolve a média dos valores num grupo. |
median(col) |
Devolve a mediana dos valores num grupo. |
min(col) |
Devolve o valor mínimo da expressão num grupo. |
min_by(col, ord) |
Devolve o valor do parâmetro col associado ao valor mínimo do parâmetro ord. |
mode(col[, deterministic]) |
Devolve o valor mais frequente num grupo. |
percentile(col, percentage[, frequency]) |
Retorna os percentis exatos da coluna numérica expr nas percentagens dadas, com o intervalo de valores em [0.0, 1.0]. |
percentile_approx(col, percentage[, accuracy]) |
Devolve o percentil aproximado da coluna numérica col, que é o menor valor nos valores ordenados de col (ordenados do menor para o maior), de modo que não mais do que a percentagem dos valores de col seja inferior ao valor ou igual a esse valor. |
product(col) |
Devolve o produto dos valores num grupo. |
regr_avgx(y, x) |
Devolve a média da variável independente para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_avgy(y, x) |
Devolve a média da variável dependente para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_count(y, x) |
Devolve o número de pares de números não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_intercept(y, x) |
Devolve a interseção da linha de regressão linear univariada para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_r2(y, x) |
Devolve o coeficiente de determinação para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_slope(y, x) |
Devolve a inclinação da reta de regressão linear para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_sxx(y, x) |
Devolve REGR_COUNT(y, x) * VAR_POP(x) para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_sxy(y, x) |
Devolve REGR_COUNT(y, x) * COVAR_POP(y, x) para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
regr_syy(y, x) |
Devolve REGR_COUNT(y, x) * VAR_POP(y) para pares não nulos num grupo, onde y é a variável dependente e x é a variável independente. |
skewness(col) |
Devolve a assimetria dos valores num grupo. |
some(col) |
Retorna verdadeiro se pelo menos um valor de col for verdadeiro. |
std(col) |
Alias para stddev_samp. |
stddev(col) |
Alias para stddev_samp. |
stddev_pop(col) |
Devolve o desvio padrão populacional da expressão num grupo. |
stddev_samp(col) |
Calcula o desvio padrão amostral não enviesado da expressão matemática num conjunto. |
string_agg(col[, delimiter]) |
Devolve a concatenação dos valores de entrada não nulos, separados pelo delimitador. |
string_agg_distinct(col[, delimiter]) |
Devolve a concatenação de valores de entrada distintos não nulos, separados pelo delimitador. |
sum(col) |
Devolve a soma de todos os valores na expressão. |
sum_distinct(col) |
Devolve a soma dos valores distintos na expressão. |
try_avg(col) |
Devolve a média calculada a partir dos valores de um grupo e o resultado é nulo no overflow. |
try_sum(col) |
Devolve a soma calculada a partir dos valores de um grupo e o resultado é nulo no overflow. |
var_pop(col) |
Devolve a variância populacional dos valores num grupo. |
var_samp(col) |
Devolve a variância amostral não enviesada dos valores num grupo. |
variance(col) |
Pseudónimo para var_samp |
Funções do Windows
| Função | Description |
|---|---|
cume_dist() |
Devolve a distribuição cumulativa de valores dentro de uma partição de janelas, ou seja, a fração de linhas que estão abaixo da linha atual. |
dense_rank() |
Devolve a classificação das linhas dentro de uma partição de janela, sem quaisquer lacunas. |
lag(col[, offset, default]) |
Devolve o valor que está deslocado linhas antes da linha atual, e o padrão se houver menos de linhas deslocadas antes da linha atual. |
lead(col[, offset, default]) |
Devolve o valor que está deslocado nas linhas após a linha atual, e por defeito se houver menos do que linhas deslocadas depois da linha atual. |
nth_value(col, offset[, ignoreNulls]) |
Devolve o valor que é a linha de deslocamento da moldura da janela (contando a partir de 1), e nulo se o tamanho da moldura da janela for inferior às linhas deslocadas. |
ntile(n) |
Devolve o id do grupo ntile (de 1 para n inclusive) numa partição de janela ordenada. |
percent_rank() |
Devolve a classificação relativa (ou seja, |
rank() |
Devolve a classificação das linhas dentro de uma partição de janela. |
row_number() |
Devolve um número sequencial começando em 1 dentro de uma partição de janela. |
Funções do gerador
| Função | Description |
|---|---|
explode(col) |
Devolve uma nova linha para cada elemento no array ou mapa dado. |
explode_outer(col) |
Devolve uma nova linha para cada elemento no array ou mapa dado. |
inline(col) |
Transforma uma matriz de estruturas numa tabela. |
inline_outer(col) |
Transforma uma matriz de estruturas numa tabela. |
posexplode(col) |
Devolve uma nova linha para cada elemento com posição no array ou mapa dado. |
posexplode_outer(col) |
Devolve uma nova linha para cada elemento com posição no array ou mapa dado. |
stack(*cols) |
Separa col1, ..., colk em n linhas. |
Funções de transformação de partição
| Função | Description |
|---|---|
partitioning.years(col) |
Uma transformação de carimbos temporais e datas para segmentar os dados por ano. |
partitioning.months(col) |
Uma transformação de carimbos temporais e datas para particionar dados em meses. |
partitioning.days(col) |
Uma transformação para carimbos temporais e datas para particionar os dados em dias. |
partitioning.hours(col) |
Uma transformação de timestamps para particionar dados em horas. |
partitioning.bucket(numBuckets, col) |
Uma transformação para qualquer tipo que se particione com base num hash da coluna de entrada. |
Funções geoespaciais H3 (Databricks)
| Função | Description |
|---|---|
h3_boundaryasgeojson(col) |
Devolve a fronteira de uma célula H3 no formato GeoJSON |
h3_boundaryaswkb(col) |
Devolve a fronteira de uma célula H3 no formato WKB |
h3_boundaryaswkt(col) |
Devolve a fronteira de uma célula H3 no formato WKT |
h3_centerasgeojson(col) |
Devolve o centro de uma célula H3 no formato GeoJSON |
h3_centeraswkb(col) |
Devolve o centro de uma célula H3 no formato WKB |
h3_centeraswkt(col) |
Devolve o centro de uma célula H3 no formato WKT |
h3_compact(col) |
Compacta o conjunto de entrada dos IDs das células H3 o melhor possível |
h3_coverash3(col1,col2) |
Devolve um array de IDs de células representados como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada, que abrangem de forma mínima a geografia linear ou areal fornecida. |
h3_coverash3string(col1,col2) |
Devolve um array de IDs de célula representados como cadeias, correspondentes a hexágonos ou pentágonos da resolução especificada que cobrem minimamente a geografia linear ou areal de entrada |
h3_distance(col1,col2) |
Devolve a distância da grelha entre dois IDs de célula H3 |
h3_h3tostring(col) |
Converte um ID de célula H3 numa cadeia que representa o ID da célula como uma cadeia hexadecimal |
h3_hexring(col1,col2) |
Devolve um array de IDs de células H3 que formam um anel hexagonal oco, centrado na célula H3 de origem e que se encontram à distância de grelha k da célula H3 de origem. |
h3_ischildof(col1,col2) |
Retorna True se o primeiro ID de célula H3 for descendente do segundo ID de célula H3 |
h3_ispentagon(col) |
Retorna True se o ID da célula H3 de entrada representar um pentágono |
h3_isvalid(col) |
Retorna True se a entrada representar um ID válido de célula H3 |
h3_kring(col1,col2) |
Devolve os IDs das células H3 que estão dentro da distância (grelha) k do ID da célula de origem |
h3_kringdistances(col1,col2) |
Devolve todos os IDs das células H3 (representados como inteiros longos ou cadeias) dentro da distância da grelha k a partir do ID da célula H3 de origem, juntamente com a sua distância ao ID da célula H3 de origem |
h3_longlatash3(col1,col2,col3) |
Retorna o ID da célula H3 (como um BIGINT) correspondente à longitude e latitude fornecidas na resolução especificada |
h3_longlatash3string(col1,col2,col3) |
Devolve o ID da célula H3 (como uma cadeia) correspondente à longitude e latitude fornecidas à resolução especificada |
h3_maxchild(col1,col2) |
Devolve o filho do valor máximo da célula H3 de entrada na resolução especificada |
h3_minchild(col1,col2) |
Devolve o filho do valor mínimo da célula H3 de entrada na resolução especificada |
h3_pointash3(col1,col2) |
Devolve o ID da célula H3 (como um BIGINT) correspondente ao ponto fornecido na resolução especificada |
h3_pointash3string(col1,col2) |
Devolve o ID da célula H3 (como uma cadeia) correspondente ao ponto fornecido na resolução especificada |
h3_polyfillash3(col1,col2) |
Devolve um array de IDs de células representados como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidos na geografia da área fornecida. |
h3_polyfillash3string(col1,col2) |
Devolve um array de IDs de célula representados como cadeias, correspondentes a hexágonos ou pentágonos da resolução especificada contidos pela geografia da área de entrada |
h3_resolution(col) |
Devolve a resolução do ID da célula H3 |
h3_stringtoh3(col) |
Converte a representação da cadeia de caracteres do ID da célula H3 para a sua representação de inteiros grandes |
h3_tessellateaswkb(col1,col2) |
Devolve um array de structs que representa os chips que cobrem a geografia na resolução especificada. |
h3_tochildren(col1,col2) |
Devolve os IDs das células H3 filhas da célula de entrada H3 na resolução especificada |
h3_toparent(col1,col2) |
Devolve o ID da célula pai H3 do ID da célula H3 de entrada na resolução especificada |
h3_try_coverash3(col1,col2) |
Devolve um array de IDs de células representados como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada, que abrangem de forma mínima a geografia linear ou areal fornecida. |
h3_try_coverash3string(col1,col2) |
Devolve um array de IDs de célula representados como cadeias, correspondentes a hexágonos ou pentágonos da resolução especificada que cobrem minimamente a geografia linear ou areal de entrada |
h3_try_distance(col1,col2) |
Devolve a distância da grelha entre dois IDs de células H3 com a mesma resolução, ou None se a distância for indefinida |
h3_try_polyfillash3(col1,col2) |
Devolve um array de IDs de células representados como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidos na geografia da área fornecida. |
h3_try_polyfillash3string(col1,col2) |
Devolve um array de IDs de célula representados como cadeias, correspondentes a hexágonos ou pentágonos da resolução especificada contidos pela geografia da área de entrada |
h3_try_tessellateaswkb(col1,col2) |
Retorna um array de estruturas que representam os chips que cobrem a geografia na resolução especificada, ou null se a geometria for inválida |
h3_try_validate(col) |
Devolve o valor de entrada se for uma célula H3 válida ou Nenhuma caso contrário |
h3_uncompact(col1,col2) |
Descompacta o conjunto de entradas dos IDs das células H3 para a resolução especificada |
h3_validate(col) |
Devolve o valor de entrada se for uma célula H3 válida ou emite um erro caso contrário |
Funções geoespaciais ST (Databricks)
| Função | Description |
|---|---|
st_addpoint(col1,col2,col3) |
Adiciona um novo ponto à posição n-ésima na cadeia de linhas de entrada Geografia ou Geometria |
st_area(col) |
Devolve a área da geografia ou geometria de entrada |
st_asbinary(col1,col2) |
Devolve o valor de entrada Geografia ou Geometria no formato WKB |
st_asewkb(col1,col2) |
Devolve o valor Geometry de entrada no formato EWKB |
st_asewkt(col) |
Devolve o valor Geografia ou Geometria no formato EWKT |
st_asgeojson(col) |
Devolve o valor de entrada Geografia ou Geometria no formato GeoJSON |
st_astext(col) |
Devolve o valor de entrada Geografia ou Geometria no formato WKT |
st_aswkb(col1,col2) |
Devolve o valor de entrada Geografia ou Geometria no formato WKB |
st_aswkt(col) |
Devolve o valor de entrada Geografia ou Geometria no formato WKT |
st_buffer(col1,col2) |
Devolve o buffer da geometria de entrada usando o raio especificado |
st_centroid(col) |
Devolve o centroide da geometria de entrada como uma geometria pontual 2D |
st_concavehull(col1,col2,col3) |
Devolve o invólucro côncavo da geometria de entrada como uma geometria usando a razão de comprimento especificada |
st_contains(col1,col2) |
Retorna True se a primeira geometria contiver a segunda geometria |
st_convexhull(col) |
Devolve o invólucro convexo da geometria de entrada como uma geometria |
st_covers(col1,col2) |
Retorna True se a primeira geometria cobre a segunda geometria |
st_difference(col1,col2) |
Devolve o conjunto de pontos diferente das duas geometrias de entrada como uma geometria 2D |
st_dimension(col) |
Devolve a dimensão topológica da projeção 2D da geometria de entrada |
st_disjoint(col1,col2) |
Retorna True se as duas geometrias forem disjuntas |
st_distance(col1,col2) |
Devolve a distância cartesiana 2D entre as duas geometrias de entrada |
st_distancesphere(col1,col2) |
Devolve a distância esférica (em metros) entre duas geometrias pontuais, medida numa esfera cujo raio é o raio médio do elipsoide WGS84 |
st_distancespheroid(col1,col2) |
Devolve a distância geodésica (em metros) entre duas geometrias pontuais no elipsoide WGS84 |
st_dwithin(col1,col2,col3) |
Retorna True se a distância cartesiana 2D entre as duas geometrias de entrada for menor ou igual à distância de entrada. |
st_endpoint(col) |
Devolve o último ponto da linha de entrada, ou None se esta não existir |
st_envelope(col) |
Devolve a caixa delimitadora mínima (envelope) 2D cartasiana alinhada com eixos da geometria não vazia de entrada, como uma geometria |
st_envelope_agg(col) |
Retorna o envelope de todas as geometrias na coluna, ou None se a coluna não tiver nenhuma linha ou contiver somente valores None. |
st_equals(col1,col2) |
Retornos True se as duas geometrias forem geometricamente iguais |
st_exteriorring(col) |
Devolve o anel exterior (shell), como uma cadeia de linhas, do valor de entrada Geografia ou Geometria que representa um polígono |
st_flipcoordinates(col) |
Troca coordenadas X e Y da geometria de entrada |
st_geogfromgeojson(col) |
Analisa a descrição GeoJSON e devolve o valor correspondente de Geografia |
st_geogfromtext(col) |
Analisa a descrição do WKT e devolve o valor de Geografia correspondente |
st_geogfromwkb(col) |
Analisa a descrição WKB de entrada e retorna o valor correspondente de Geography |
st_geogfromwkt(col) |
Analisa a descrição do WKT e devolve o valor de Geografia correspondente |
st_geohash(col1,col2) |
Devolve o geohash da entrada Geometria |
st_geometryn(col1,col2) |
Devolve o elemento n-ésimo baseado em 1 da multigeometria de entrada, ou None se este não existir |
st_geometrytype(col) |
Devolve o tipo do valor de entrada Geografia ou Geometria como uma cadeia |
st_geomfromewkb(col) |
Analisa a descrição EWKB de entrada e devolve o valor de Geometria correspondente |
st_geomfromgeohash(col) |
Devolve a caixa de grelha de geohash correspondente ao valor de geohash de entrada como geometria poligonal 2D |
st_geomfromgeojson(col) |
Analisa a descrição GeoJSON e devolve o valor correspondente de Geometria |
st_geomfromtext(col1,col2) |
Analisa a descrição WKT e devolve o valor de Geometria correspondente |
st_geomfromwkb(col1,col2) |
Analisa a descrição WKB de entrada e devolve o valor de Geometria correspondente |
st_geomfromwkt(col1,col2) |
Analisa a descrição WKT e devolve o valor de Geometria correspondente |
st_intersection(col1,col2) |
Devolve a interseção do conjunto de pontos das duas geometrias de entrada como uma geometria 2D |
st_intersects(col1,col2) |
Retornos True se as duas geometrias se intersectarem |
st_isempty(col) |
Retorna True se o valor de entrada Geografia ou Geometria não contiver pontos não vazios |
st_isvalid(col) |
Retorna True se a geometria de entrada for uma geometria válida no sentido OGC |
st_length(col) |
Devolve o comprimento do valor geométrico ou geográfico de entrada |
st_m(col) |
Devolve a coordenada M da geometria do ponto de entrada, ou None se a geometria do ponto de entrada estiver vazia ou se não tiver uma coordenada M |
st_makeline(col) |
Devolve uma geometria de linha cujos pontos são os pontos não vazios das geometrias no array de entrada, que se espera serem pontos, linhas ou multipontos. |
st_makepolygon(col1,col2) |
Constrói um polígono a partir do limite exterior de entrada e um array opcional de limites internos, representados como cadeias de linhas fechadas |
st_multi(col) |
Devolve o valor de entrada Geografia ou Geometria como um valor geoespacial multi equivalente, mantendo o SRID original |
st_ndims(col) |
Devolve a dimensão coordenada do valor de entrada Geografia ou Geometria |
st_npoints(col) |
Devolve o número de pontos não vazios no valor de entrada Geografia ou Geometria |
st_numgeometries(col) |
Devolve o número de geometrias na geometria de entrada |
st_perimeter(col) |
Devolve o perímetro da geografia ou geometria de entrada |
st_point(col1,col2,col3) |
Retorna uma geometria 2D pontual com as coordenadas x e y dadas e o valor SRID |
st_pointfromgeohash(col) |
Devolve o centro da caixa da grelha de geohash correspondente ao valor de geohash de entrada como uma geometria de ponto 2D |
st_pointn(col1,col2) |
Devolve o n-ésimo ponto, com base em 1, da linha de entrada, ou None se não existir. |
st_removepoint(col1,col2) |
Remove o n-ésimo ponto da cadeia de linhas de entrada Geografia ou Geometria |
st_reverse(col) |
Inverte a ordem dos vértices no valor de entrada Geografia ou Geometria |
st_rotate(col1,col2) |
Roda a geometria de entrada em torno do eixo Z pelo ângulo de rotação especificado (em radianos) |
st_scale(col1,col2,col3,col4) |
Escala a geometria de entrada nas direções X, Y e Z (opcionais) usando os fatores dados |
st_setpoint(col1,col2,col3) |
Define o n-ésimo ponto na cadeia de linhas de entrada Geografia ou Geometria |
st_setsrid(col1,col2) |
Devolve um novo valor de Geometria cujo SRID é o valor especificado |
st_simplify(col1,col2) |
Simplifica a geometria de entrada usando o algoritmo Douglas-Peucker |
st_srid(col) |
Devolve o SRID do valor geoespacial de entrada |
st_startpoint(col) |
Devolve o primeiro ponto da linha de entrada, ou None se esta não existir |
st_touches(col1,col2) |
Retorna True se as duas geometrias se tocarem |
st_transform(col1,col2) |
Transforma as coordenadas X e Y da geometria de entrada para o sistema de referência de coordenadas (CRS) descrito pelo valor SRID fornecido |
st_translate(col1,col2,col3,col4) |
Traduz a geometria de entrada nas direções X, Y e Z (opcionais) usando os deslocamentos fornecidos |
st_union(col1,col2) |
Devolve a união do conjunto de pontos das duas geometrias de entrada como uma geometria 2D |
st_union_agg(col) |
Devolve a união ponto a ponto de todas as geometrias presentes na coluna, ou retorna None se a coluna tiver zero linhas, ou conter apenas valores None. |
st_within(col1,col2) |
Retorna True se a primeira geometria estiver dentro da segunda geometria |
st_x(col) |
Devolve a coordenada X da geometria do ponto de entrada, ou None se a geometria do ponto de entrada estiver vazia |
st_xmax(col) |
Devolve a coordenada máxima X da geometria de entrada, ou None se a geometria de entrada estiver vazia |
st_xmin(col) |
Devolve a coordenada X mínima da geometria de entrada, ou None se a geometria de entrada estiver vazia |
st_y(col) |
Devolve a coordenada Y da geometria do ponto de entrada, ou None se a geometria do ponto de entrada estiver vazia |
st_ymax(col) |
Devolve a coordenada máxima Y da geometria de entrada, ou None se a geometria de entrada estiver vazia |
st_ymin(col) |
Devolve a coordenada mínima Y da geometria de entrada, ou None se a geometria de entrada estiver vazia |
st_z(col) |
Devolve a coordenada Z da geometria do ponto de entrada, ou None se a geometria do ponto de entrada estiver vazia ou se não tiver uma coordenada Z |
st_zmax(col) |
Devolve a coordenada máxima Z da geometria de entrada, ou None se a geometria de entrada estiver vazia ou não contiver coordenadas Z |
st_zmin(col) |
Devolve a coordenada Z mínima da geometria de entrada, ou None se a geometria de entrada estiver vazia ou não contiver coordenadas Z |
to_geography(col) |
Analisa o valor BINARY ou string de entrada e devolve o valor correspondente de Geografia |
to_geometry(col) |
Analisa o valor BINARY ou string de entrada e devolve o valor de Geometria correspondente |
try_to_geography(col) |
Analisa o valor BINARY ou da cadeia de entrada e devolve o valor correspondente de Geografia , ou None se a entrada for inválida |
try_to_geometry(col) |
Analisa o valor BINARY ou string de entrada e retorna o valor de Geometria correspondente, ou None se o valor de entrada for inválido |
Funções CSV
| Função | Description |
|---|---|
from_csv(col, schema[, options]) |
Transforma uma coluna contendo uma string CSV numa linha com o esquema especificado. |
schema_of_csv(csv[, options]) |
Analisa uma cadeia CSV e infere o seu esquema em formato DDL. |
to_csv(col[, options]) |
Converte uma coluna contendo um StructType numa cadeia CSV. |
Funções JSON
| Função | Description |
|---|---|
from_json(col, schema[, options]) |
Analisa uma coluna contendo uma cadeia JSON num MapType com StringType como tipo de chaves, StructType ou ArrayType com o esquema especificado. |
get_json_object(col, path) |
Extrai o objeto json de uma cadeia json com base no caminho json especificado e devolve a cadeia json do objeto json extraído. |
json_array_length(col) |
Retorna o número de elementos na matriz JSON mais externa. |
json_object_keys(col) |
Retorna todas as chaves do objeto JSON exterior como array. |
json_tuple(col, *fields) |
Cria uma nova linha para uma coluna json de acordo com os nomes dos campos dados. |
schema_of_json(json[, options]) |
Analisa uma string JSON e infere o seu esquema em formato DDL. |
to_json(col[, options]) |
Converte uma coluna contendo um StructType, ArrayType ou MapType numa string JSON. |
Funções variantes
| Função | Description |
|---|---|
is_variant_null(v) |
Verifica se um valor variante é um variant null. |
parse_json(col) |
Analisa uma coluna contendo uma cadeia JSON num VariantType. |
schema_of_variant(v) |
Devolve o esquema no formato SQL de uma variante. |
schema_of_variant_agg(v) |
Devolve o esquema fundido no formato SQL de uma coluna variante. |
try_variant_get(v, path, targetType) |
Extrai uma subvariante de v de acordo com o caminho, e depois converte a subvariante para tipoDestino. |
variant_get(v, path, targetType) |
Extrai uma subvariante de v de acordo com o caminho, e depois converte a subvariante para tipoDestino. |
try_parse_json(col) |
Analisa uma coluna contendo uma cadeia JSON num VariantType. |
to_variant_object(col) |
Converte uma coluna que contém entradas aninhadas (array/map/struct) em variantes, onde os mapas e structs são convertidos em objetos variantes que não são ordenados, ao contrário dos structs SQL. |
Funções XML
| Função | Description |
|---|---|
from_xml(col, schema[, options]) |
Analisa uma coluna contendo uma string XML para uma linha conforme o esquema especificado. |
schema_of_xml(xml[, options]) |
Analisa uma cadeia XML e infere o seu esquema em formato DDL. |
to_xml(col[, options]) |
Converte uma coluna contendo um StructType numa cadeia XML. |
xpath(xml, path) |
Devolve um array de cadeias de valores dentro dos nós do xml que correspondem à expressão XPath. |
xpath_boolean(xml, path) |
Se a expressão XPath é avaliada como verdadeira ou se um nó correspondente for encontrado, retorna verdadeiro. |
xpath_double(xml, path) |
Devolve um valor duplo, o valor zero se não for encontrada correspondência, ou NaN se for encontrada correspondência mas o valor for não numérico. |
xpath_float(xml, path) |
Devolve um valor flutuante, o valor zero se não for encontrada correspondência, ou NaN se for encontrada correspondência mas o valor não for numérico. |
xpath_int(xml, path) |
Devolve um valor inteiro, ou o valor zero se não for encontrada correspondência, ou se for encontrada uma correspondência mas o valor for não numérico. |
xpath_long(xml, path) |
Devolve um valor inteiro longo, ou o valor zero se não for encontrada correspondência, ou se for encontrada uma correspondência mas o valor for não numérico. |
xpath_number(xml, path) |
Devolve um valor duplo, o valor zero se não for encontrada correspondência, ou NaN se for encontrada correspondência mas o valor for não numérico. |
xpath_short(xml, path) |
Devolve um valor inteiro curto, ou o valor zero se não for encontrada correspondência, ou se for encontrada uma correspondência mas o valor for não numérico. |
xpath_string(xml, path) |
Devolve o conteúdo de texto do primeiro nó xml que corresponde à expressão XPath. |
Funções URL
| Função | Description |
|---|---|
parse_url(url, partToExtract[, key]) |
Extrai uma parte especificada de uma URL. |
try_parse_url(url, partToExtract[, key]) |
Tente realizar a operação parse_url, mas devolva um valor NULL em vez de gerar um erro se a análise de sintaxe não puder ser realizada. |
url_decode(str) |
Descodifica uma cadeia codificada por URL no application/x-www-form-urlencoded formato para o seu formato original. |
url_encode(str) |
Codifica uma string em uma string codificada por URL no formato 'application/x-www-form-urlencoded'. |
try_url_decode(str) |
Tente realizar a url_decode operação, mas devolve um valor NULL em vez de gerar um erro se a decodificação não puder ser realizada. |
Funções diversas
| Função | Description |
|---|---|
aes_decrypt(input, key[, mode, padding, aad]) |
Devolve um valor desencriptado da entrada usando AES em modo com enchimento (padding). |
aes_encrypt(input, key[, mode, padding, iv, aad]) |
Devolve um valor encriptado de entrada usando AES no modo dado com o padding especificado. |
assert_true(col[, errMsg]) |
Retorna nulo se a coluna de entrada for verdadeira; lança uma exceção com a mensagem de erro fornecida, caso contrário. |
bitmap_bit_position(col) |
Retorna a posição do bit da coluna de entrada fornecida. |
bitmap_bucket_number(col) |
Devolve o número do bucket para a coluna de entrada dada. |
bitmap_count(col) |
Devolve o número de bits definidos no bitmap de entrada. |
current_catalog() |
Retorna o catálogo atual. |
current_database() |
Devolve a base de dados atual. |
current_schema() |
Retorna o esquema atual. |
current_user() |
Devolve o utilizador atual. |
hll_sketch_estimate(col) |
Devolve o número estimado de valores únicos dada a representação binária de um Datasketches HllSketch. |
hll_union(col1, col2[, allowDifferentLgConfigK]) |
Funde duas representações binárias dos objetos Datasketches HllSketches, usando um objeto Datasketches Union. |
input_file_block_length() |
Devolve o comprimento do bloco que está a ser lido, ou -1 se não estiver disponível. |
input_file_block_start() |
Devolve o deslocamento inicial do bloco que está a ser lido, ou -1 se não estiver disponível. |
input_file_name() |
Cria uma coluna string para o nome do ficheiro da tarefa Spark atual. |
java_method(*cols) |
Chama um método com reflexão. |
monotonically_increasing_id() |
Uma coluna que gera inteiros de 64 bits que aumentam monotonamente. |
raise_error(errMsg) |
Lança uma exceção com a mensagem de erro especificada. |
reflect(*cols) |
Chama um método com reflexão. |
session_user() |
Devolve o nome de utilizador do contexto de execução atual. |
spark_partition_id() |
Uma coluna para o ID da partição. |
try_aes_decrypt(input, key[, mode, padding, aad]) |
Tente realizar a aes_decrypt operação, mas devolve um valor NULL em vez de gerar um erro se a desencriptação não puder ser realizada. |
try_reflect(*cols) |
Tentar realizar uma reflect operação, mas devolva um valor NULL em vez de lançar um erro se o método de invocação lançar uma exceção. |
typeof(col) |
Devolve a cadeia de tipos formatada DDL para o tipo de dados da entrada. |
user() |
Devolve o utilizador atual. |
version() |
Retorna a versão do Spark. |
Funções UDF, UDTF, UDT
| Função | Description |
|---|---|
call_udf(udfName, *cols) |
Chame uma função definida pelo utilizador. |
pandas_udf([f, returnType, functionType]) |
Cria uma função definida pelo utilizador do pandas (também conhecida como |
udf([f, returnType, useArrow]) |
Cria uma função definida pelo utilizador (UDF). |
udtf([cls, returnType, useArrow]) |
Cria uma função de tabela definida pelo utilizador (UDTF). |
unwrap_udt(col) |
Desdobrar a coluna do tipo de dados UDT no seu tipo subjacente. |
Funções com valor de tabela
| Função | Description |
|---|---|
TableValuedFunction.collations() |
Obtenha todas as colações de strings SQL do Spark. |
TableValuedFunction.explode(collection) |
Devolve um DataFrame contendo uma nova linha para cada elemento no array ou mapa dado. |
TableValuedFunction.explode_outer(collection) |
Devolve um DataFrame contendo uma nova linha para cada elemento com posição no array ou mapa dado. |
TableValuedFunction.inline(input) |
Transforma uma matriz de estruturas numa tabela. |
TableValuedFunction.inline_outer(input) |
Transforma uma matriz de estruturas numa tabela. |
TableValuedFunction.json_tuple(input, *fields) |
Cria uma nova linha para uma coluna json de acordo com os nomes dos campos dados. |
TableValuedFunction.posexplode(collection) |
Devolve um DataFrame contendo uma nova linha para cada elemento com posição no array ou mapa dado. |
TableValuedFunction.posexplode_outer(collection) |
Devolve um DataFrame contendo uma nova linha para cada elemento com posição no array ou mapa dado. |
TableValuedFunction.range(start[, end, ...]) |
Crie um DataFrame com uma única coluna pyspark.sql.types.LongType chamada id, contendo elementos num intervalo do início ao fim (exclusivo) com o valor step step. |
TableValuedFunction.sql_keywords() |
Obtenha palavras-chave SQL do Spark. |
TableValuedFunction.stack(n, *fields) |
Separa col1, ..., colk em n linhas. |
TableValuedFunction.variant_explode(input) |
Separa um objeto/array variante em várias linhas contendo os seus campos/elementos. |
TableValuedFunction.variant_explode_outer(input) |
Separa um objeto/array variante em várias linhas contendo os seus campos/elementos. |