Partilhar via


Funções de tabela definidas pelo usuário Python (UDTFs)

Importante

Esse recurso está em Public Preview no Databricks Runtime 14.3 LTS e superior.

Uma função de tabela definida pelo usuário (UDTF) permite registrar funções que retornam tabelas em vez de valores escalares. Ao contrário das funções escalares que retornam um único valor de resultado de cada chamada, cada UDTF é invocado na cláusula de FROM uma instrução SQL e retorna uma tabela inteira como saída.

Cada chamada UDTF pode aceitar zero ou mais argumentos. Esses argumentos podem ser expressões escalares ou argumentos de tabela que representam tabelas de entrada inteiras.

As UDTF podem ser registadas de duas formas:

Sugestão

A Databricks recomenda registrar UDTFs no Unity Catalog para aproveitar a governança centralizada que facilita o compartilhamento e a reutilização de funções com segurança entre usuários e equipes.

Sintaxe UDTF básica

O Apache Spark implementa UDTFs em Python como classes Python, com um método eval obrigatório que utiliza yield para emitir linhas de saída.

Para usar sua classe como UDTF, você deve importar a função PySpark udtf. O Databricks recomenda usar essa função como decorador e especificar explicitamente nomes e tipos de campo usando a opção returnType (a menos que a classe defina um método analyze conforme descrito em uma seção posterior).

O UDTF a seguir cria uma tabela usando uma lista fixa de dois argumentos inteiros:

from pyspark.sql.functions import lit, udtf

@udtf(returnType="sum: int, diff: int")
class GetSumDiff:
    def eval(self, x: int, y: int):
        yield x + y, x - y

GetSumDiff(lit(1), lit(2)).show()
+----+-----+
| sum| diff|
+----+-----+
|   3|   -1|
+----+-----+

Registrar uma UDTF

Para registrar um UDTF com escopo de sessão para uso em consultas SQL, use spark.udtf.register(). Forneça um nome para a função SQL e a classe UDTF do Python.

spark.udtf.register("get_sum_diff", GetSumDiff)

Chamar um UDTF registrado

Uma vez registado, pode utilizar o UDTF em SQL recorrendo ao comando mágico %sql ou à função spark.sql().

spark.udtf.register("get_sum_diff", GetSumDiff)
spark.sql("SELECT * FROM get_sum_diff(1,2);").show()
%sql
SELECT * FROM get_sum_diff(1,2);

Atualizar um UDTF com escopo de sessão para o Unity Catalog

Importante

O registro de UDTFs Python no Unity Catalog está em Visualização Pública. Os UDTFs do Unity Catalog requerem o Databricks Runtime versão 17.1 ou superior. Consulte Requisitos.

Você pode atualizar um UDTF com escopo de sessão para o Unity Catalog para aproveitar a governança centralizada e facilitar o compartilhamento e a reutilização de funções com segurança entre usuários e equipes.

Para atualizar um UDTF com escopo de sessão para o Unity Catalog, use o SQL DDL com a CREATE OR REPLACE FUNCTION instrução. O exemplo a seguir mostra como converter o GetSumDiff UDTF de uma função com escopo de sessão para uma função Unity Catalog:

CREATE OR REPLACE FUNCTION get_sum_diff(x INT, y INT)
RETURNS TABLE (sum INT, diff INT)
LANGUAGE PYTHON
HANDLER 'GetSumDiff'
AS $$
class GetSumDiff:
    def eval(self, x: int, y: int):
        yield x + y, x - y
$$;

SELECT * FROM get_sum_diff(10, 3);
+-----+------+
| sum | diff |
+-----+------+
| 13  | 7    |
+-----+------+

Para obter mais informações sobre UDTFs do Unity Catalog, consulte Funções de tabela definidas pelo usuário (UDTFs) do Python no Unity Catalog.

Usar Apache Arrow

Se o seu UDTF recebe uma pequena quantidade de dados como entrada, mas produz uma tabela grande, o Databricks recomenda o uso da Seta Apache. Você pode habilitá-lo especificando o parâmetro useArrow ao declarar o UDTF:

@udtf(returnType="c1: int, c2: int", useArrow=True)

Listas de argumentos variáveis - *args e **kwargs

Você pode usar Python *args ou **kwargs sintaxe e implementar lógica para manipular um número não especificado de valores de entrada.

O exemplo a seguir retorna o mesmo resultado enquanto verifica explicitamente o comprimento e os tipos de entrada para os argumentos:

@udtf(returnType="sum: int, diff: int")
class GetSumDiff:
    def eval(self, *args):
        assert(len(args) == 2)
        assert(isinstance(arg, int) for arg in args)
        x = args[0]
        y = args[1]
        yield x + y, x - y

GetSumDiff(lit(1), lit(2)).show()

Aqui está o mesmo exemplo, mas usando argumentos de palavra-chave:

@udtf(returnType="sum: int, diff: int")
class GetSumDiff:
    def eval(self, **kwargs):
        x = kwargs["x"]
        y = kwargs["y"]
        yield x + y, x - y

GetSumDiff(x=lit(1), y=lit(2)).show()

Definir um esquema estático no momento do registro

O UDTF retorna linhas com um esquema de saída que compreende uma sequência ordenada de nomes e tipos de coluna. Se o esquema UDTF deve permanecer sempre o mesmo para todas as consultas, você pode especificar um esquema estático e fixo após o decorador de @udtf. Deve ser ou um StructType:

StructType().add("c1", StringType())

Ou uma cadeia de caracteres DDL que representa um tipo struct:

c1: string

Calcular um esquema dinâmico no momento da chamada da função

UDTFs também podem calcular o esquema de saída programaticamente para cada chamada, dependendo dos valores dos argumentos de entrada. Para fazer isso, defina um método estático chamado analyze que aceite zero ou mais parâmetros que correspondam aos argumentos fornecidos para a chamada UDTF específica.

Cada argumento do método analyze é uma instância da classe AnalyzeArgument que contém os seguintes campos:

AnalyzeArgument campo de classe Descrição
dataType O tipo do argumento de entrada como um DataType. Para argumentos de tabela de entrada, o StructType representa as colunas da tabela.
value O valor do argumento de entrada como um Optional[Any]. Isso é None para argumentos de tabela ou argumentos escalares literais que não são constantes.
isTable Se o argumento de entrada é uma tabela como BooleanType.
isConstantExpression Se o argumento de entrada é uma expressão sujeita a dobragem constante como um BooleanType.

O método analyze retorna uma instância da classe AnalyzeResult, que inclui o esquema da tabela de resultados como um StructType, além de alguns campos opcionais. Se o UDTF aceitar um argumento de tabela de entrada, o AnalyzeResult também poderá incluir uma maneira solicitada de particionar e ordenar as linhas da tabela de entrada em várias chamadas UDTF, conforme descrito mais adiante.

AnalyzeResult campo de classe Descrição
schema O esquema da tabela de resultados como um StructType.
withSinglePartition Se todas as linhas de entrada devem ser enviadas para a mesma instância de classe UDTF que um BooleanType.
partitionBy Se definido como não vazio, todas as linhas com cada combinação exclusiva de valores das expressões de particionamento são consumidas por uma instância separada da classe UDTF.
orderBy Se definido como não vazio, isso especifica uma ordem de linhas dentro de cada partição.
select Se definido como não vazio, esta é uma sequência de expressões que o UDTF está a especificar para que o Catalyst as avalie contra as colunas do argumento de entrada TABLE. O UDTF recebe um atributo de entrada para cada nome na lista na ordem em que são listados.

Este exemplo analyze retorna uma coluna de saída para cada palavra no argumento da cadeia de caracteres de entrada.

from pyspark.sql.functions import lit, udtf
from pyspark.sql.types import StructType, IntegerType
from pyspark.sql.udtf import AnalyzeArgument, AnalyzeResult


@udtf
class MyUDTF:
  @staticmethod
  def analyze(text: AnalyzeArgument) -> AnalyzeResult:
    schema = StructType()
    for index, word in enumerate(sorted(list(set(text.value.split(" "))))):
      schema = schema.add(f"word_{index}", IntegerType())
    return AnalyzeResult(schema=schema)

  def eval(self, text: str):
    counts = {}
    for word in text.split(" "):
      if word not in counts:
            counts[word] = 0
      counts[word] += 1
    result = []
    for word in sorted(list(set(text.split(" ")))):
      result.append(counts[word])
    yield result

MyUDTF(lit("hello world")).columns
['word_0', 'word_1']

Passar estado para futuras chamadas eval

O método analyze pode servir como um local conveniente para executar a inicialização e, em seguida, encaminhar os resultados para futuras invocações de método eval para a mesma chamada UDTF.

Para fazer isso, crie uma subclasse de AnalyzeResult e retorne uma instância da subclasse do método analyze. Em seguida, adicione um argumento adicional ao método __init__ para aceitar essa instância.

Este exemplo analyze retorna um esquema de saída constante, mas adiciona informações personalizadas nos metadados de resultado a serem consumidos por futuras chamadas de método __init__:

from pyspark.sql.functions import lit, udtf
from pyspark.sql.types import StructType, IntegerType
from pyspark.sql.udtf import AnalyzeArgument, AnalyzeResult

@dataclass
class AnalyzeResultWithBuffer(AnalyzeResult):
    buffer: str = ""

@udtf
class TestUDTF:
  def __init__(self, analyze_result=None):
    self._total = 0
    if analyze_result is not None:
      self._buffer = analyze_result.buffer
    else:
      self._buffer = ""

  @staticmethod
  def analyze(argument, _) -> AnalyzeResult:
    if (
      argument.value is None
      or argument.isTable
      or not isinstance(argument.value, str)
      or len(argument.value) == 0
    ):
      raise Exception("The first argument must be a non-empty string")
    assert argument.dataType == StringType()
    assert not argument.isTable
    return AnalyzeResultWithBuffer(
      schema=StructType()
        .add("total", IntegerType())
        .add("buffer", StringType()),
      withSinglePartition=True,
      buffer=argument.value,
    )

  def eval(self, argument, row: Row):
    self._total += 1

  def terminate(self):
    yield self._total, self._buffer

spark.udtf.register("test_udtf", TestUDTF)

spark.sql(
  """
  WITH t AS (
    SELECT id FROM range(1, 21)
  )
  SELECT total, buffer
  FROM test_udtf("abc", TABLE(t))
  """
).show()
+-------+-------+
| count | buffer|
+-------+-------+
|    20 |  "abc"|
+-------+-------+

Linhas de saída de rendimento

O método eval é executado uma vez para cada linha do argumento da tabela de entrada (ou apenas uma vez se nenhum argumento de tabela for fornecido), seguido por uma invocação do método terminate no final. Qualquer método produz zero ou mais linhas que se conformam com o esquema de resultado, resultando em tuplas, listas ou objetos pyspark.sql.Row.

Este exemplo retorna uma linha fornecendo uma tupla de três elementos:

def eval(self, x, y, z):
  yield (x, y, z)

Você também pode omitir os parênteses:

def eval(self, x, y, z):
  yield x, y, z

Adicione uma vírgula à direita para retornar uma linha com apenas uma coluna:

def eval(self, x, y, z):
  yield x,

Você também pode gerar um objeto pyspark.sql.Row.

def eval(self, x, y, z):
  from pyspark.sql.types import Row
  yield Row(x, y, z)

Este exemplo produz linhas de saída do método terminate usando uma lista Python. Você pode armazenar o estado dentro da classe das etapas anteriores na avaliação do UDTF para esta finalidade.

def terminate(self):
  yield [self.x, self.y, self.z]

Passar argumentos escalares para uma UDTF

Você pode passar argumentos escalares para um UDTF como expressões constantes que compreendem valores literais ou funções baseadas neles. Por exemplo:

SELECT * FROM get_sum_diff(1, y => 2)

Passar argumentos de tabela para um UDTF

UDTFs Python podem aceitar uma tabela de entrada como um argumento, além de argumentos de entrada escalares. Um único UDTF também pode aceitar um argumento de tabela e vários argumentos escalares.

Em seguida, qualquer consulta SQL pode fornecer uma tabela de entrada usando a palavra-chave TABLE seguida de parênteses em torno de um identificador de tabela apropriado, como TABLE(t). Como alternativa, você pode passar uma subconsulta de tabela, como TABLE(SELECT a, b, c FROM t) ou TABLE(SELECT t1.a, t2.b FROM t1 INNER JOIN t2 USING (key)).

O argumento da tabela de entrada é então representado como um argumento pyspark.sql.Row para o método eval, com uma chamada para o método eval para cada linha na tabela de entrada. Você pode usar anotações de campo de coluna padrão do PySpark para interagir com colunas em cada linha. O exemplo a seguir demonstra a importação explícita do tipo Row do PySpark e depois a filtragem da tabela passada no campo id.

from pyspark.sql.functions import udtf
from pyspark.sql.types import Row

@udtf(returnType="id: int")
class FilterUDTF:
    def eval(self, row: Row):
        if row["id"] > 5:
            yield row["id"],

spark.udtf.register("filter_udtf", FilterUDTF)

Para consultar a função, use a palavra-chave TABLE SQL:

SELECT * FROM filter_udtf(TABLE(SELECT * FROM range(10)));
+---+
| id|
+---+
|  6|
|  7|
|  8|
|  9|
+---+

Especificar um particionamento das linhas de entrada provenientes de chamadas de função

Ao chamar um UDTF com um argumento de tabela, qualquer consulta SQL pode particionar a tabela de entrada em várias chamadas UDTF com base nos valores de uma ou mais colunas da tabela de entrada.

Para especificar uma partição, use a cláusula PARTITION BY na chamada de função após o argumento TABLE. Isso garante que todas as linhas de entrada com cada combinação exclusiva de valores das colunas de particionamento serão consumidas por exatamente uma instância da classe UDTF.

Observe que, além de referências de coluna simples, a cláusula PARTITION BY também aceita expressões arbitrárias baseadas em colunas da tabela de entrada. Por exemplo, você pode especificar o LENGTH de uma cadeia de caracteres, extrair um mês de uma data ou concatenar dois valores.

Também é possível especificar WITH SINGLE PARTITION em vez de PARTITION BY solicitar apenas uma partição em que todas as linhas de entrada devem ser consumidas por exatamente uma instância da classe UDTF.

Dentro de cada partição, você pode, opcionalmente, especificar uma ordenação necessária das linhas de entrada à medida que eval o método UDTF as consome. Para tal, forneça uma cláusula ORDER BY após a cláusula PARTITION BY ou WITH SINGLE PARTITION acima descrita.

Por exemplo, considere o seguinte UDTF:

from pyspark.sql.functions import udtf
from pyspark.sql.types import Row

@udtf(returnType="a: string, b: int")
class FilterUDTF:
  def __init__(self):
    self.key = ""
    self.max = 0

  def eval(self, row: Row):
    self.key = row["a"]
    self.max = max(self.max, row["b"])

  def terminate(self):
    yield self.key, self.max

spark.udtf.register("filter_udtf", FilterUDTF)

Você pode especificar opções de particionamento ao chamar o UDTF na tabela de entrada de várias maneiras:

-- Create an input table with some example values.
DROP TABLE IF EXISTS values_table;
CREATE TABLE values_table (a STRING, b INT);
INSERT INTO values_table VALUES ('abc', 2), ('abc', 4), ('def', 6), ('def', 8);
SELECT * FROM values_table;
+-------+----+
|     a |  b |
+-------+----+
| "abc" | 2  |
| "abc" | 4  |
| "def" | 6  |
| "def" | 8  |
+-------+----+
-- Query the UDTF with the input table as an argument and a directive to partition the input
-- rows such that all rows with each unique value in the `a` column are processed by the same
-- instance of the UDTF class. Within each partition, the rows are ordered by the `b` column.
SELECT * FROM filter_udtf(TABLE(values_table) PARTITION BY a ORDER BY b) ORDER BY 1;
+-------+----+
|     a |  b |
+-------+----+
| "abc" | 4  |
| "def" | 8  |
+-------+----+

-- Query the UDTF with the input table as an argument and a directive to partition the input
-- rows such that all rows with each unique result of evaluating the "LENGTH(a)" expression are
-- processed by the same instance of the UDTF class. Within each partition, the rows are ordered
-- by the `b` column.
SELECT * FROM filter_udtf(TABLE(values_table) PARTITION BY LENGTH(a) ORDER BY b) ORDER BY 1;
+-------+---+
|     a | b |
+-------+---+
| "def" | 8 |
+-------+---+
-- Query the UDTF with the input table as an argument and a directive to consider all the input
-- rows in one single partition such that exactly one instance of the UDTF class consumes all of
-- the input rows. Within each partition, the rows are ordered by the `b` column.
SELECT * FROM filter_udtf(TABLE(values_table) WITH SINGLE PARTITION ORDER BY b) ORDER BY 1;
+-------+----+
|     a |  b |
+-------+----+
| "def" | 8 |
+-------+----+

Especificar um particionamento das linhas de entrada a partir do método analyze

Observe que para cada uma das maneiras acima de particionar a tabela de entrada ao chamar UDTFs em consultas SQL, há uma maneira correspondente para o método UDTF analyze especificar o mesmo método de particionamento automaticamente.

  • Em vez de chamar um UDTF como SELECT * FROM udtf(TABLE(t) PARTITION BY a), você pode atualizar o método analyze para definir o campo partitionBy=[PartitioningColumn("a")] e simplesmente chamar a função usando SELECT * FROM udtf(TABLE(t)).
  • Da mesma forma, em vez de especificar TABLE(t) WITH SINGLE PARTITION ORDER BY b na consulta SQL, você pode fazer analyze definir os campos withSinglePartition=true e orderBy=[OrderingColumn("b")] e, em seguida, apenas passar TABLE(t).
  • Em vez de passar TABLE(SELECT a FROM t) na consulta SQL, você pode fazer analyze definir select=[SelectedColumn("a")] e, em seguida, apenas passar TABLE(t).

No exemplo a seguir, analyze retorna um esquema de saída constante, seleciona um subconjunto de colunas da tabela de entrada e especifica que a tabela de entrada é particionada em várias chamadas UDTF com base nos valores da coluna date:

@staticmethod
def analyze(*args) -> AnalyzeResult:
  """
  The input table will be partitioned across several UDTF calls based on the monthly
  values of each `date` column. The rows within each partition will arrive ordered by the `date`
  column. The UDTF will only receive the `date` and `word` columns from the input table.
  """
  from pyspark.sql.functions import (
    AnalyzeResult,
    OrderingColumn,
    PartitioningColumn,
  )

  assert len(args) == 1, "This function accepts one argument only"
  assert args[0].isTable, "Only table arguments are supported"
  return AnalyzeResult(
    schema=StructType()
      .add("month", DateType())
      .add("longest_word", IntegerType()),
    partitionBy=[
      PartitioningColumn("extract(month from date)")],
    orderBy=[
      OrderingColumn("date")],
    select=[
      SelectedColumn("date"),
      SelectedColumn(
        name="length(word)",
        alias="length_word")])