Compartilhar via


Recursos dos Pacotes de Ativos do Databricks

Os Pacotes de Ativos do Databricks permitem especificar informações sobre os recursos do Azure Databricks usados pelo pacote no mapeamento de resources na configuração do pacote. Confira o mapeamento de recursos e a referência de chave de recursos.

Esta página fornece referência de configuração para todos os tipos de recursos com suporte para pacotes e fornece detalhes e um exemplo para cada tipo com suporte. Para obter exemplos adicionais, confira Exemplos de configuração de bundle.

O esquema JSON para pacotes usados para validar a configuração yaml está no repositório GitHub da CLI do Databricks.

Tip

Para gerar YAML para qualquer recurso existente, use o comando databricks bundle generate. Confira a geração do pacote do Databricks.

Recursos com suporte

A tabela a seguir lista os tipos de recursos com suporte para pacotes (YAML e Python, quando aplicável). Alguns recursos podem ser criados definindo-os em um pacote e implantando o pacote, e alguns recursos só podem ser criados fazendo referência a um ativo existente para incluir no pacote.

A configuração de recurso define um objeto Databricks que corresponde a um objeto da API REST do Databricks . Os campos de solicitação de criação com suporte do objeto da API REST, expressos como YAML, são as chaves com suporte do recurso. Os links para a documentação do objeto correspondente de cada recurso estão na tabela abaixo.

Tip

O comando databricks bundle validate retornará avisos se propriedades de recurso desconhecidas forem encontradas em arquivos de configuração de pacote.

Resource Suporte ao Python Objeto da API REST correspondente
alert Objeto de alerta
app Objeto de aplicativo
cluster objeto de cluster
dashboard Objeto de painel
database_catalog Objeto de catálogo de banco de dados
database_instance Objeto de instância de banco de dados
experiment Objeto de experimento
job Trabalhos Objeto de trabalho
modelo (herdado) Objeto de modelo (herdado)
model_serving_endpoint Objeto de Ponto de extremidade do Serviço de Modelo
pipeline Pipelines Objeto de pipeline
quality_monitor objeto monitor de qualidade
registered_model (Catálogo do Unity) objeto de modelo registrado
esquema (Catálogo do Unity) Schemas Objeto de esquema
secret_scope Objeto de escopo secreto
sql_warehouse Objeto sql warehouse
tabela_de_banco_de_dados_sincronizado Objeto de tabela de banco de dados sincronizado
volume (Catálogo do Unity) Volumes Objeto de volume

alerta

Type: Map

O recurso de alerta define um alerta SQL (v2).

alerts:
  <alert-name>:
    <alert-field-name>: <alert-field-value>
Key Tipo Description
custom_description String Optional. Descrição personalizada do alerta. Dá suporte ao modelo de bigode.
custom_summary String Optional. Resumo personalizado do alerta. Dá suporte ao template Mustache.
display_name String Obrigatório O nome de exibição do alerta, por exemplo, Example alert.
evaluation Map Obrigatório A configuração de avaliação do alerta. Consulte alert.evaluation.
parent_path String Optional. O caminho do espaço de trabalho da pasta que contém o alerta. Só pode ser definido na criação e não pode ser atualizado. Exemplo: /Users/someone@example.com.
permissions Sequence As permissões de alerta. Consulte permissões.
query_text String Obrigatório Texto da consulta a ser executada, por exemplo, SELECT 1.
run_as Map Optional. Especifica a identidade que será usada para executar o alerta. Esse campo permite configurar alertas para serem executados como um usuário específico ou como um principal de serviço. Veja run_as.
  • Para a identidade do usuário: defina user_name como o email de um usuário ativo do espaço de trabalho. Os usuários só podem definir isso como seu próprio email.
  • Para o service principal: defina service_principal_name como o ID do aplicativo. Requer a função servicePrincipal/user. Se não for especificado, o alerta será executado como o usuário de solicitação.
schedule Map Obrigatório A configuração de agendamento do alerta. Consulte alert.schedule.
warehouse_id String Obrigatório ID do sql warehouse anexado ao alerta, por exemplo, a7066a8ef796be84.

avaliação de alerta

Type: Map

A configuração de avaliação do alerta.

Key Tipo Description
comparison_operator String O operador usado para comparação na avaliação do alerta.
empty_result_state String O estado de alerta caso o resultado esteja vazio. Evite definir este campo como UNKNOWN, porque há planos para UNKNOWN estado ser descontinuado.
notification Map O usuário ou outro destino a ser notificado quando o alerta é disparado. Consulte alert.evaluation.notification.
source Map A coluna de origem do resultado que deve ser usada para avaliar o alerta. Consulte alert.evaluation.source.
threshold Map O limite a ser usado para avaliação de alerta. Isso pode ser uma coluna ou um valor. Consulte alert.evaluation.threshold.

alert.evaluation.notification

Type: Map

O usuário ou outro destino a ser notificado quando o alerta é ativado.

Key Tipo Description
notify_on_ok booleano Optional. Se você deve notificar os assinantes de alerta quando o alerta retornar ao normal.
retrigger_seconds Integer Optional. Número de segundos que um alerta aguarda após ser disparado antes que ele tenha permissão para enviar outra notificação. Se definido 0 como ou omitido, o alerta não enviará mais notificações após o primeiro gatilho. Definir esse valor para 1 permite que o alerta envie uma notificação a cada avaliação em que a condição seja atendida, tornando-se sempre reativado para fins de notificação.
subscriptions Sequence Optional. Lista não ordenada de assinaturas de notificação. Consulte alert.evaluation.notification.subscriptions.
alerta.avaliação.notificação.assinaturas

Type: Sequence

Uma lista não ordenada de assinaturas de notificação.

Cada item na lista é um AlertSubscription:

Key Tipo Description
destination_id String A ID do destino da notificação.
user_email String O endereço de email do usuário a ser notificado.

fonte.avaliação.alerta

Type: Map

Coluna de origem do resultado a ser usado para avaliar o alerta.

Key Tipo Description
aggregation String O método de agregação a ser aplicado à coluna de origem. Os valores válidos sãoSUM, , COUNT, COUNT_DISTINCT, AVG, MEDIAN, MIN, , , MAXSTDDEV
display String O nome de exibição da coluna de origem.
name String O nome da coluna de origem do resultado da consulta.

alerta.avaliação.limiar

Type: Map

O limite a ser usado para avaliação de alerta pode ser uma coluna ou um valor.

Key Tipo Description
column Map Referência de coluna a ser usada como limiar. Consulte alert.evaluation.source.
value Map Valor literal a ser usado como o limite. Consulte alert.evaluation.threshold.value.
valor do limiar de avaliação de alerta (alert.evaluation.threshold.value)

Type: Map

Valor literal a ser usado como o limite. Especifique um dos seguintes tipos de valor.

Key Tipo Description
bool_value booleano Optional. Valor booliano para o limite, por exemplo, true.
double_value Double Optional. Valor numérico para o limite, por exemplo, 1.25.
string_value String Optional. Valor da cadeia de caracteres para o limite, por exemplo, test.

alert.schedule

Type: Map

A configuração de agendamento do alerta.

Key Tipo Description
pause_status String Optional. Se este cronograma está pausado ou não. Valores válidos: UNPAUSED, PAUSED. Padrão: UNPAUSED.
quartz_cron_schedule String Obrigatório Uma expressão cron usando a sintaxe do Quartz que especifica o cronograma para esse pipeline. O formato Quartz é descrito no Quartz Scheduler Format.
timezone_id String Obrigatório Uma ID de fuso horário java. A agenda será resolvida usando esse fuso horário. Isso será combinado com a quartz_cron_schedule para determinar o cronograma. Veja SET TIME ZONE para obter detalhes.

Examples

A configuração de exemplo a seguir define um alerta com uma avaliação simples:

resources:
  alerts:
    my_alert:
      display_name: my_alert
      evaluation:
        comparison_operator: EQUAL
        source:
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: select 2
      schedule:
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: Europe/Amsterdam
      warehouse_id: 799f096837fzzzz4

A configuração de exemplo a seguir define um alerta com permissões que avaliam o uso da agregação e enviam notificações:

resources:
  alerts:
    my_alert:
      permissions:
        - level: CAN_MANAGE
          user_name: someone@example.com
      custom_summary: 'My alert'
      display_name: 'My alert'
      evaluation:
        comparison_operator: 'EQUAL'
        notification:
          notify_on_ok: false
          retrigger_seconds: 1
        source:
          aggregation: 'MAX'
          display: '1'
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: 'select 2'
      schedule:
        pause_status: 'UNPAUSED'
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: 'Europe/Amsterdam'
      warehouse_id: 799f096837fzzzz4

aplicativo

Type: Map

O recurso de aplicativo define um aplicativo Databricks. Para obter informações sobre os Aplicativos do Databricks, consulte Os Aplicativos do Databricks.

Para adicionar um aplicativo, especifique as configurações para definir o aplicativo, incluindo o necessário source_code_path.

Tip

Você pode inicializar um pacote com um aplicativo Streamlit Databricks usando o seguinte comando:

databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
apps:
  <app-name>:
    <app-field-name>: <app-field-value>
Key Tipo Description
budget_policy_id String A ID da política de orçamento para o aplicativo.
compute_size String A capacidade de computação do aplicativo. Valores válidos são MEDIUM ou LARGE dependem da configuração do workspace.
config Map Deprecated. Em vez disso, defina os comandos de configuração do aplicativo e as variáveis de ambiente no app.yaml arquivo. Consulte Configurar um aplicativo do Databricks.
description String A descrição do aplicativo.
lifecycle Map O comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String O nome do aplicativo. O nome deve conter apenas caracteres alfanuméricos minúsculos e hifens. Ele deve ser exclusivo dentro do espaço de trabalho.
permissions Sequence As permissões do aplicativo. Consulte permissões.
resources Sequence Os recursos de computação do aplicativo. Consulte app.resources.
source_code_path String O ./app caminho local do código-fonte do aplicativo Databricks.
user_api_scopes Sequence Os escopos da API do usuário.

recursos.doAplicativo

Type: Sequence

Uma lista de recursos de computação para o aplicativo.

Cada item na lista é um AppResource:

Key Tipo Description
description String A descrição do recurso do aplicativo.
database Map As configurações que identificam o banco de dados lakebase a ser usado. Consulte app.resources.database.
genie_space Map As configurações que identificam o espaço do Genie a ser usado. Veja app.resources.genie_space.
job Map As configurações que identificam o recurso de trabalho a ser usado. Consulte app.resources.job.
name String O nome do recurso do aplicativo.
secret Map As configurações que identificam o recurso secreto do Azure Databricks a ser usado. Consulte app.resources.secret.
serving_endpoint Map As configurações que identificam o modelo que serve o recurso de ponto de extremidade a ser usado. Veja app.resources.serving_endpoint.
sql_warehouse Map As configurações que identificam o recurso do SQL Warehouse a ser usado. Consulte app.resources.sql_warehouse.
uc_securable Map As configurações que identificam o volume do Catálogo do Unity a ser usado. Veja app.resources.uc_securable.

aplicativo.recursos.banco_de_dados

Type: Map

As configurações que identificam o banco de dados lakebase a ser usado.

Key Tipo Description
database_name String O nome do banco de dados.
instance_name String O nome da instância do banco de dados.
permission String O nível de permissão do banco de dados. Os valores válidos são CAN_CONNECT_AND_CREATE.

app.resources.genie_space

Type: Map

As configurações que identificam o espaço do Genie a ser usado.

Key Tipo Description
name String O nome do espaço do Genie.
permission String O nível de permissão para o espaço. Os valores válidos incluem CAN_VIEW, CAN_EDIT, , CAN_MANAGE. CAN_RUN
space_id String O ID do espaço do Genie, por exemplo 550e8400-e29b-41d4-a716-999955440000.

app.resources.job

Type: Map

As configurações que identificam o recurso de trabalho a ser usado.

Key Tipo Description
id String A ID do trabalho.
permission String O nível de permissão do trabalho. Os valores válidos incluem CAN_VIEW, CAN_MANAGE_RUN, , CAN_MANAGE. IS_OWNER

app.recursos.secreto

Type: Map

As configurações que identificam o recurso secreto do Azure Databricks a ser usado.

Key Tipo Description
key String A chave do segredo para conceder permissão.
permission String O nível de permissão para o segredo. Os valores válidos incluem READ, WRITE, MANAGE.
scope String O nome do escopo do segredo.

app.recursos.ponto_de_serviço

Type: Map

As configurações que identificam o modelo que serve o recurso de ponto de extremidade a ser usado.

Key Tipo Description
name String O nome do ponto de extremidade do serviço.
permission String O nível de permissão para o endpoint de atendimento. Os valores válidos incluem CAN_QUERY, CAN_MANAGE, CAN_VIEW.

app.resources.sql_warehouse

Type: Map

As configurações que identificam o SQL Warehouse a ser usado.

Key Tipo Description
id String O ID do SQL Warehouse.
permission String O nível de permissão do SQL Warehouse. Os valores válidos incluem CAN_USE, CAN_MANAGE, IS_OWNER.

app.resources.uc_securable

Type: Map

As configurações que identificam o volume do Catálogo do Unity a ser usado.

Key Tipo Description
permission String O nível de permissão para o Catálogo do Unity protegível. Os valores válidos são READ_VOLUME e WRITE_VOLUME.
securable_full_name String O nome completo do Unity Catalog segurável no formato catalog.schema.volume.
securable_type String O tipo dos elementos do Unity Catalog que são seguráveis. Os valores válidos são VOLUME.

Example

O exemplo a seguir cria um aplicativo chamado my_app que gerencia um trabalho criado pelo pacote:

resources:
  jobs:
    # Define a job in the bundle
    hello_world:
      name: hello_world
      tasks:
        - task_key: task
          spark_python_task:
            python_file: ../src/main.py
          environment_key: default

      environments:
        - environment_key: default
          spec:
            environment_version: '2'

  # Define an app that manages the job in the bundle
  apps:
    job_manager:
      name: 'job_manager_app'
      description: 'An app which manages a job created by this bundle'

      # The location of the source code for the app
      source_code_path: ../src/app

      # The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
      resources:
        - name: 'app-job'
          job:
            id: ${resources.jobs.hello_world.id}
            permission: 'CAN_MANAGE_RUN'

O correspondente app.yaml define a configuração para executar o aplicativo:

command:
  - flask
  - --app
  - app
  - run
  - --debug
env:
  - name: JOB_ID
    valueFrom: 'app-job'

Para obter o pacote de exemplo completo do aplicativo Databricks, confira o Repositório do GitHub de exemplos de pacote.

cluster

Type: Map

O recurso de cluster define um cluster.

clusters:
  <cluster-name>:
    <cluster-field-name>: <cluster-field-value>
Key Tipo Description
apply_policy_default_values booleano Quando definido como verdadeiro, valores fixos e padrão da política serão usados para campos que são omitidos. Quando definido como false, somente valores fixos da política serão aplicados.
autoscale Map Parâmetros necessários para escalar e reduzir automaticamente os clusters com base na carga. Consulte dimensionamento automático.
autotermination_minutes Integer Encerra automaticamente o cluster depois que ele fica inativo por esse tempo em minutos. Se não for definido, esse cluster não será encerrado automaticamente. Se especificado, o limite deve estar entre 10 e 10000 minutos. Os usuários também podem definir esse valor como 0 para desabilitar explicitamente a terminação automática.
aws_attributes Map Atributos relacionados a clusters em execução no Amazon Web Services. Se não for especificado na criação do cluster, um conjunto de valores padrão será usado. Veja aws_attributes.
azure_attributes Map Atributos relacionados a clusters em execução no Microsoft Azure. Se não for especificado na criação do cluster, um conjunto de valores padrão será usado. veja azure_attributes.
cluster_log_conf Map A configuração usada para fornecer logs do Spark para um destino de armazenamento de longo prazo. Veja cluster_log_conf.
cluster_name String Nome do cluster solicitado pelo usuário. Isso não precisa ser exclusivo. Se não for especificado na criação, o nome do cluster será uma cadeia de caracteres vazia.
custom_tags Map Tags adicionais para recursos de cluster. O Databricks marcará todos os recursos de cluster (por exemplo, instâncias da AWS e volumes de EBS) com essas marcas além de default_tags.
data_security_mode String O modelo de governança de dados a ser usado ao acessar dados de um cluster. Os valores válidos incluem NONE, SINGLE_USER, , USER_ISOLATION, LEGACY_SINGLE_USER, LEGACY_TABLE_ACL, LEGACY_PASSTHROUGH.
docker_image Map A imagem personalizada do Docker. Veja docker_image.
driver_instance_pool_id String A ID opcional do pool de instâncias ao qual o cluster pertence. O cluster de pools usará o pool de instâncias com id (instance_pool_id) caso o pool de driver não tenha sido atribuído.
driver_node_type_id String O tipo de nó do driver do Spark. Esse campo é opcional. Se ele não estiver definido, o tipo de nó de driver será definido com o mesmo valor que node_type_id definido acima. Esse campo, juntamente com node_type_id, não deverá ser definido se virtual_cluster_size estiver definido. Se driver_node_type_id, node_type_id e virtual_cluster_size forem especificados, driver_node_type_id e node_type_id terá precedência.
enable_elastic_disk booleano Dimensionamento automático do Armazenamento Local: quando habilitado, esse cluster adquirirá dinamicamente espaço em disco adicional quando seus trabalhos do Spark estiverem com pouco espaço em disco. Esse recurso requer permissões específicas do AWS para funcionar corretamente – consulte o Guia do Usuário para obter mais detalhes.
enable_local_disk_encryption booleano Se o LUKS deve ser habilitado nos discos locais das VMs de cluster
gcp_attributes Map Atributos relacionados a clusters em execução no Google Cloud Platform. Se não for especificado na criação do cluster, um conjunto de valores padrão será usado. Veja gcp_attributes.
init_scripts Sequence A configuração usada para armazenar scripts de inicialização. Qualquer número de destinos pode ser especificado. Os scripts são executados em sequência na ordem fornecida. Veja init_scripts.
instance_pool_id String A ID opcional do pool de instâncias ao qual o cluster pertence.
is_single_node booleano Esse campo só pode ser usado quando kind = CLASSIC_PREVIEW. Quando definido como verdadeiro, o Databricks configurará automaticamente funcionalidades relacionadas a um único nó custom_tags, spark_conf e num_workers
kind String O tipo de computação descrito por essa especificação de computação.
node_type_id String Esse campo codifica, por meio de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster. Por exemplo, os nós do Spark podem ser provisionados e otimizados para cargas de trabalho intensivas de computação e memória. Recupere uma lista de tipos de nós disponíveis usando a chamada à API :method:clusters/listNodeType.
num_workers Integer Número de nós de trabalho que esse cluster deve ter. Um cluster tem um Driver Spark e num_workers Executores para um total de num_workers + 1 nós Spark.
permissions Sequence As permissões do cluster. Consulte permissões.
policy_id String A ID da política de cluster usada para criar o cluster, se aplicável.
runtime_engine String Determina o mecanismo de tempo de execução do cluster, seja STANDARD ou PHOTON.
single_user_name String O nome de usuário único se data_security_mode for SINGLE_USER
spark_conf Map Um objeto que contém um conjunto opcional de pares chave-valor de configuração do Spark especificado pelo usuário. Os usuários também podem passar uma cadeia de caracteres com opções extras de JVM para o driver através de spark.driver.extraJavaOptions e para os executores através de spark.executor.extraJavaOptions, respectivamente.
spark_env_vars Map Um objeto que contém um conjunto opcional de pares chave-valor de variáveis de ambiente especificados pelo usuário.
spark_version String A versão do Spark do cluster, por exemplo, 3.3.x-scala2.11. Uma lista das versões disponíveis do Spark pode ser recuperada usando a chamada à API :method:clusters/sparkVersions.
ssh_public_keys Sequence Conteúdo da chave pública SSH que será adicionado a cada nó do Spark neste cluster. As chaves privadas correspondentes podem ser usadas para fazer logon com o nome ubuntu de usuário na porta 2200. Até 10 chaves podem ser especificadas.
use_ml_runtime booleano Esse campo só pode ser usado quando kind = CLASSIC_PREVIEW. effective_spark_version é determinado por spark_version (versão da DBR), esse campo use_ml_runtime e se node_type_id é nó gpu ou não.
workload_type Map Atributos de cluster mostrados para tipos de carga de trabalho de clusters. Consulte workload_type.

cluster.autoscale

Type: Map

Parâmetros para dimensionar automaticamente clusters para cima e para baixo com base na carga.

Key Tipo Description
min_workers Integer O número mínimo de trabalhos para os quais o cluster pode reduzir verticalmente quando subutilizado. É também o número inicial de trabalhos que o cluster terá após a criação.
max_workers Integer O número máximo de trabalhos para os quais o cluster pode escalar verticalmente quando sobrecarregado. max_workers deve ser estritamente maior que min_workers.

cluster.aws_attributes

Type: Map

Atributos relacionados a clusters em execução no Amazon Web Services.

Key Tipo Description
zone_id String Identificador da zona de disponibilidade/datacenter no qual o cluster reside. Esta sequência estará em uma forma como us-west-2a.
availability String Tipo de disponibilidade usado para todos os nós subsequentes após os first_on_demand anteriores. Os valores válidos sãoSPOT, , ON_DEMANDSPOT_WITH_FALLBACK.
spot_bid_price_percent Integer O preço máximo para instâncias spot do AWS, como uma porcentagem do preço sob demanda do tipo de instância correspondente.
instance_profile_arn String Nodes para esse cluster serão colocados apenas em instâncias da AWS com esse perfil de instância.
first_on_demand Integer Os primeiros first_on_demand nós do cluster serão colocados em instâncias on-demand. Esse valor deve ser maior do que 0, para garantir que o nó do driver de cluster seja colocado em uma instância sob demanda.
ebs_volume_type String O tipo de volumes EBS que serão lançados com esse cluster. Os valores válidos são GENERAL_PURPOSE_SSD ou THROUGHPUT_OPTIMIZED_HDD.
ebs_volume_count Integer O número de volumes lançados para cada instância.
ebs_volume_size Integer O tamanho de cada volume de EBS (em GiB) alocado por cada instância.
ebs_volume_iops Integer O número de IOPS por volume gp3 do EBS.
ebs_volume_throughput Integer A taxa de transferência por volume gp3 do EBS, em MiB por segundo.

cluster.azure_attributes

Type: Map

Atributos relacionados a clusters em execução no Microsoft Azure.

Key Tipo Description
first_on_demand Integer Os primeiros first_on_demand nós do cluster serão colocados em instâncias on-demand.
availability String Tipo de disponibilidade usado para todos os nós subsequentes após os first_on_demand anteriores. Os valores válidos sãoSPOT_AZURE, , ON_DEMAND_AZURESPOT_WITH_FALLBACK_AZURE.
spot_bid_max_price Número O preço máximo para instâncias spot do Azure. Use -1 para especificar o menor preço.

cluster.gcp_attributes

Type: Map

Atributos relacionados a clusters em execução no Google Cloud Platform.

Key Tipo Description
use_preemptible_executors booleano Se devemos usar executores preemptíveis. Executores preemptíveis são instâncias de GCE preemptíveis que podem ser recuperadas pela GCE a qualquer momento.
google_service_account String A conta de serviço do Google a ser utilizada pelas instâncias de máquina virtual do cluster do Databricks.
local_ssd_count Integer O número de SSDs locais que devem ser conectados a cada nó no cluster. O valor padrão é 0.
zone_id String Identificador da zona de disponibilidade/datacenter no qual o cluster reside.
availability String Tipo de disponibilidade usado para todos os nós. Os valores válidos sãoPREEMPTIBLE_GCP, , ON_DEMAND_GCPPREEMPTIBLE_WITH_FALLBACK_GCP.
boot_disk_size Integer O tamanho do disco de inicialização em GB. Os valores normalmente variam de 100 a 1000.

cluster.cluster_log_conf

A configuração para entregar logs do Spark a um destino de armazenamento de longo prazo.

Key Tipo Description
dbfs Map Local do DBFS para entrega de logs de cluster. Consulte dbfs.
s3 Map Localização S3 para entrega de log de cluster. Veja s3.
volumes Map Localização de volumes de armazenamento para entrega de log de cluster. Consulte volumes.

cluster.cluster_log_conf.dbfs

Type: Map

Local do DBFS para entrega de logs de cluster.

Key Tipo Description
destination String O caminho no DBFS para entrega de logs de cluster (por exemplo, dbfs:/cluster-logs).

cluster.cluster_log_conf.s3

Type: Map

Localização S3 para entrega de log de cluster.

Key Tipo Description
destination String O URI S3 para entrega de log de cluster (por exemplo, s3://my-bucket/cluster-logs).
region String A região AWS do bucket S3.
endpoint String A URL do ponto de extremidade S3 (opcional).
enable_encryption booleano Se deseja habilitar a criptografia para logs de cluster.
encryption_type String O tipo de criptografia. Os valores válidos incluem SSE_S3. SSE_KMS
kms_key String A chave KMS ARN para criptografia (ao usar SSE_KMS).
canned_acl String A ACL pré-definida a ser aplicada aos logs do cluster.

cluster.cluster_log_conf.volumes

Type: Map

Localização de volumes de armazenamento para entrega de log de cluster.

Key Tipo Description
destination String O caminho do volume para a entrega do log do cluster (por exemplo, /Volumes/catalog/schema/volume/cluster_log).

cluster.docker_image

Type: Map

A configuração de imagem personalizada do Docker.

Key Tipo Description
url String URL da imagem do Docker.
basic_auth Map Autenticação básica para o repositório do Docker. Veja basic_auth.

cluster.docker_image.basic_auth

Type: Map

Autenticação básica para o repositório do Docker.

Key Tipo Description
username String O nome de usuário para autenticação no registro do Docker.
password String A senha da autenticação do Registro do Docker.

cluster.init_scripts

Type: Map

A configuração usada para armazenar scripts de inicialização. Pelo menos um tipo de local deve ser especificado.

Key Tipo Description
dbfs Map Local do DBFS do script de inicialização. Consulte dbfs.
workspace Map Localização do workspace do script de inicialização. Consulte workspace.
s3 Map Endereço S3 do script de inicialização. Veja s3.
abfss Map Localização do script de inicialização do ABFSS. Veja abfss.
gcs Map Localização no GCS do script de inicialização. Consulte gcs.
volumes Map Localização dos volumes UC do script de inicialização. Consulte volumes.

cluster.init_scripts.dbfs

Type: Map

Local do DBFS do script de inicialização.

Key Tipo Description
destination String O caminho DBFS do script de inicialização.

cluster.init_scripts.workspace

Type: Map

Localização do workspace do script de inicialização.

Key Tipo Description
destination String O caminho do espaço de trabalho do script de inicialização.

cluster.init_scripts.s3

Type: Map

Endereço S3 do script de inicialização.

Key Tipo Description
destination String O URI S3 do script de inicialização.
region String A região AWS do bucket S3.
endpoint String A URL do ponto de extremidade S3 (opcional).

cluster.init_scripts.abfss

Type: Map

Localização do script de inicialização do ABFSS.

Key Tipo Description
destination String O caminho do ABFSS do script de inicialização.

cluster.init_scripts.gcs

Type: Map

Localização no GCS do script de inicialização.

Key Tipo Description
destination String O caminho GCS do script de inicialização.

cluster.init_scripts.volumes

Type: Map

Localização dos volumes do script de inicialização.

Key Tipo Description
destination String O caminho dos Volumes UC do script de inicialização.

cluster.workload_type

Type: Map

Atributos de cluster mostrando tipos de cargas de trabalho.

Key Tipo Description
clients Map Define que tipo de clientes podem usar o cluster. Consulte clientes.

cluster.tipo_de_carga.clientes

Type: Map

O tipo de clientes para essa carga de trabalho de computação.

Key Tipo Description
jobs booleano Se o cluster pode executar trabalhos.
notebooks booleano Se o cluster pode executar notebooks.

Examples

O exemplo a seguir cria um cluster dedicado (de usuário único) para o usuário atual com o Databricks Runtime 15.4 LTS e uma política de cluster:

resources:
  clusters:
    my_cluster:
      num_workers: 0
      node_type_id: 'i3.xlarge'
      driver_node_type_id: 'i3.xlarge'
      spark_version: '15.4.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'
      autotermination_minutes: 60
      enable_elastic_disk: true
      single_user_name: ${workspace.current_user.userName}
      policy_id: '000128DB309672CA'
      enable_local_disk_encryption: false
      data_security_mode: SINGLE_USER
      runtime_engine": STANDARD

Este exemplo cria um cluster my_cluster simples e define isso como o cluster a ser usado para executar o notebook em my_job:

bundle:
  name: clusters

resources:
  clusters:
    my_cluster:
      num_workers: 2
      node_type_id: 'i3.xlarge'
      autoscale:
        min_workers: 2
        max_workers: 7
      spark_version: '13.3.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'

  jobs:
    my_job:
      tasks:
        - task_key: test_task
          notebook_task:
            notebook_path: './src/my_notebook.py'
          existing_cluster_id: ${resources.clusters.my_cluster.id}

painel

Type: Map

O recurso de painel permite que você gerencie painéis de IA/BI em um pacote. Para obter informações sobre dashboards de IA/BI, consulte Dashboards.

Se você implantou um pacote que contém um painel do seu ambiente local e, em seguida, usa a interface do usuário para modificar esse painel, as modificações feitas por meio da interface do usuário não são aplicadas ao arquivo JSON do painel no pacote local, a menos que você o atualize explicitamente usando bundle generate. Você pode usar a opção --watch para sondar e recuperar continuamente as alterações no painel. Confira a geração do pacote do Databricks.

Além disso, se você tentar implantar um pacote do ambiente local que contém um arquivo JSON do painel diferente daquele no workspace remoto, ocorrerá um erro. Para forçar a implantação e substituir o painel no espaço de trabalho remoto pelo local, use a opção --force. Consulte a implantação do pacote do Databricks.

Note

Ao usar os Pacotes de Ativos do Databricks com suporte de Git para painéis, evite que painéis duplicados sejam gerados adicionando o mapeamento de sincronização para excluir os painéis da sincronização como arquivos:

sync:
  exclude:
    - src/*.lvdash.json
dashboards:
  <dashboard-name>:
    <dashboard-field-name>: <dashboard-field-value>
Key Tipo Description
display_name String O nome de exibição do painel.
embed_credentials booleano Se as credenciais de identidade de implantação do pacote são usadas para executar consultas para todos os visualizadores de painel. Se estiver definido como false, as credenciais de um visualizador serão usadas. O valor padrão é false.
etag String O etag para o painel. Opcionalmente, pode ser fornecido em atualizações para garantir que o painel não tenha sido modificado desde a última leitura.
file_path String O caminho local do ativo do painel, incluindo o nome do arquivo. Os painéis exportados sempre têm a extensão de arquivo .lvdash.json.
permissions Sequence As permissões do painel de controle. Consulte permissões.
serialized_dashboard Any O conteúdo do painel no formato de cadeia de caracteres serializada.
warehouse_id String A ID do armazém usado para executar o painel.

Example

O exemplo a seguir inclui e implanta o painel de amostra Análise de Viagem de Táxi em Nova York no workspace do Databricks.

resources:
  dashboards:
    nyc_taxi_trip_analysis:
      display_name: 'NYC Taxi Trip Analysis'
      file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
      warehouse_id: ${var.warehouse_id}

catálogo_de_banco_de_dados

Type: Map

O recurso de catálogo de banco de dados permite definir catálogos de banco de dados que correspondem a instâncias de banco de dados em um pacote. Um catálogo de banco de dados é um banco de dados lakebase registrado como um catálogo do Catálogo do Unity.

Para obter informações sobre catálogos de banco de dados, consulte Criar um catálogo.

database_catalogs:
  <database_catalog-name>:
    <database_catalog-field-name>: <database_catalog-field-value>
Key Tipo Description
create_database_if_not_exists booleano Se será necessário criar o banco de dados se ele não existir.
database_instance_name String O nome da instância que abriga o banco de dados.
database_name String O nome do banco de dados (em uma instância) associado ao catálogo.
lifecycle Map Contém as configurações de ciclo de vida de um recurso, incluindo o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String O nome do catálogo no Catálogo do Unity.

Example

O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

instância_de_banco_de_dados

Type: Map

O recurso de instância de banco de dados permite que você defina instâncias de banco de dados em um pacote. Uma instância de banco de dados do Lakebase gerencia recursos de armazenamento e computação e fornece os pontos de extremidade aos quais os usuários se conectam.

Importante

Quando você implanta um pacote com uma instância de banco de dados, a instância começa a ser executada imediatamente e está sujeita a preços. Veja os preços do Lakebase.

Para obter informações sobre instâncias de banco de dados, consulte o que é uma instância de banco de dados?.

database_instances:
  <database_instance-name>:
    <database_instance-field-name>: <database_instance-field-value>
Key Tipo Description
capacity String O sku da instância. Os valores válidos sãoCU_1, , CU_2, CU_4. CU_8
custom_tags Sequence Uma lista de pares de chave e valor que especificam tags associadas à instância.
enable_pg_native_login booleano Se a instância tem o logon nativo de PG habilitado. Usa true como padrão.
enable_readable_secondaries booleano Se deseja habilitar secundários para atender ao tráfego somente leitura. Usa false como padrão.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String O nome da instância. Esse é o identificador exclusivo da instância.
node_count Integer O número de nós na instância, composto por 1 primário e 0 ou mais secundários. O padrão é 1 primário e 0 secundários.
parent_instance_ref Map A referência da instância pai. Isso só estará disponível se a instância for uma instância filho. Consulte a instância pai.
permissions Sequence As permissões da instância do banco de dados. Consulte permissões.
retention_window_in_days Integer A janela de retenção da instância. Essa é a janela de tempo em dias para a qual os dados históricos são mantidos. O valor padrão é 7 dias. Os valores válidos são de 2 a 35 dias.
stopped booleano Se a instância foi interrompida.
usage_policy_id String A política de utilização desejada para ser associada à instância.

instância_banco_dados.parent_instance_ref

Type: Map

A referência da instância pai. Isso só estará disponível se a instância for uma instância filho.

Key Tipo Description
branch_time String Tempo de ramificação da instância do banco de dados ref. Para uma instância de referência pai, este é o momento na instância pai a partir do qual a nova instância foi gerada. Para uma instância de referência filho, este é o ponto no tempo na instância a partir da qual a instância filho foi criada.
lsn String LSN WAL especificado pelo usuário da instância do banco de dados de referência.
name String Nome da instância do banco de dados de referência.

Example

O exemplo a seguir define uma instância de banco de dados com um catálogo de banco de dados correspondente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

Para obter um pacote de exemplo que demonstra como definir uma instância de banco de dados e um catálogo de banco de dados correspondente, consulte o repositório GitHub de exemplos de pacote.

experimento

Type: Map

O recurso de experimento permite que você defina experimentos do MLflow em um pacote. Para obter informações sobre experimentos do MLflow, consulte Organizar execuções de treinamento com experimentos do MLflow.

experiments:
  <experiment-name>:
    <experiment-field-name>: <experiment-field-value>
Key Tipo Description
artifact_location String O local onde os artefatos do experimento são armazenados.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String O nome amigável que identifica o experimento. Um nome de experimento deve ser um caminho absoluto no workspace do Databricks, por exemplo /Workspace/Users/someone@example.com/my_experiment.
permissions Sequence As permissões do experimento. Consulte permissões.
tags Sequence Pares chave-valor de metadados adicionais. Consulte rótulos.

Example

O exemplo a seguir define um experimento que todos os usuários podem exibir:

resources:
  experiments:
    experiment:
      name: /Workspace/Users/someone@example.com/my_experiment
      permissions:
        - level: CAN_READ
          group_name: users
      description: MLflow experiment used to track runs

trabalho

Type: Map

Há suporte para tarefas no Python para Databricks Asset Bundles. Veja databricks.bundles.jobs.

O recurso de trabalho permite definir trabalhos e suas respectivas tarefas no pacote.

Para obter informações sobre trabalhos, consulte Lakeflow Jobs. Para obter um tutorial que usa um modelo de Pacotes de Ativos do Databricks para criar um trabalho, consulte Desenvolver um trabalho com pacotes de ativos do Databricks.

jobs:
  <job-name>:
    <job-field-name>: <job-field-value>
Key Tipo Description
budget_policy_id String A ID da política de orçamento especificada pelo usuário a ser usada para este trabalho. Se não for especificado, uma política de orçamento padrão poderá ser aplicada ao criar ou modificar o trabalho. Consulte effective_budget_policy_id para a política de orçamento usada por esta carga de trabalho.
continuous Map Uma propriedade contínua opcional para este trabalho. A propriedade contínua garantirá que sempre haja um processo em execução. Somente um deles schedule e continuous pode ser usado. Consultex contínuo.
deployment Map Informações de implantação para trabalhos gerenciados por fontes externas. Consulte distribuição.
description String Uma descrição opcional para a vaga. O comprimento máximo é de 27700 caracteres na codificação UTF-8.
edit_mode String O modo de edição do trabalho, seja UI_LOCKED ou EDITABLE.
email_notifications Map Um conjunto opcional de endereços de email que serão notificados quando as execuções desse trabalho forem iniciadas ou concluídas e quando esse trabalho for excluído. Consulte email_notifications.
environments Sequence Uma lista de especificações de ambiente de execução de tarefa que podem ser referenciadas por tarefas sem servidor deste trabalho. É necessário que um ambiente esteja presente para tarefas sem servidor. Para tarefas de notebook sem servidor, o ambiente é acessível no painel de ambiente do notebook. Para outras tarefas sem servidor, o ambiente de tarefa deve ser especificado usando environment_key nas configurações da tarefa. Consulte ambientes.
format String Deprecated. O formato do trabalho.
git_source Map Uma especificação opcional para um repositório Git remoto que contém o código-fonte usado pelas tarefas. Veja job.git_source.
Importante: os campos git_source e de tarefa source definidos como GIT não são recomendados para bundles, pois os caminhos relativos locais podem não apontar para o mesmo conteúdo no repositório Git, e espera-se que os bundles tenham o mesmo conteúdo da cópia local de onde foram implantados.
Em vez disso, clone o repositório localmente e configure seu projeto de pacote nesse repositório, para que a origem das tarefas seja o espaço de trabalho.
health Map Um conjunto opcional de regras de integridade que pode ser definido para este trabalho. Veja saúde.
job_clusters Sequence Uma lista de especificações de cluster de trabalho que podem ser compartilhadas e reutilizados por tarefas deste trabalho. Veja job_clusters.
max_concurrent_runs Integer Um número máximo opcional permitido de vezes que o trabalho pode ser executado simultaneamente. Defina esse valor se você quiser ser capaz de fazer várias execuções do mesmo trabalho simultaneamente.
name String Um nome opcional para o trabalho. O comprimento máximo é de 4.096 bytes na codificação UTF-8.
notification_settings Map Configurações de notificação opcionais que são usadas ao enviar notificações para cada um dos email_notifications e webhook_notifications para esse trabalho. Veja configurações_de_notificação.
parameters Sequence Definições de parâmetros no nível de tarefas.
performance_target String Define como deve ser o desempenho ou a eficiência de custo na execução em ambiente sem servidor.
permissions Sequence As permissões do trabalho. Consulte permissões.
queue Map As configurações de fila do trabalho. Consulte fila.
run_as Map Configuração apenas gravação. Especifica o usuário ou a entidade de serviço em que o trabalho é executado. Se não for especificado, o trabalho será executado como o usuário que criou o trabalho. user_name Ou service_principal_name deve ser indicado. Caso contrário, ocorrerá um erro. Veja run_as.
schedule Map Um agendamento periódico opcional para esse trabalho. O comportamento padrão é que o trabalho só é executado quando disparado clicando em "Executar Agora" na interface do usuário de Trabalhos ou enviando uma solicitação de API para runNow. Veja a agenda.
tags Map Um mapa de etiquetas associadas ao trabalho específico. Essas tags são encaminhadas para o cluster como rótulos de clusters de trabalho e estão sujeitas às mesmas limitações que os rótulos de cluster. No máximo 25 etiquetas podem ser adicionadas à tarefa.
tasks Sequence Uma lista de especificações de tarefa a serem executadas por este trabalho. Adicionar tarefas a trabalhos em Pacotes de Ativos do Databricks.
timeout_seconds Integer Um tempo limite opcional aplicado a cada execução dessa tarefa. Um valor de 0 significa sem limite de tempo.
trigger Map Uma configuração para disparar uma execução quando determinadas condições são atendidas. Consulte gatilho.
webhook_notifications Map Uma coleção de IDs de notificação do sistema para notificar quando as execuções deste trabalho começam ou são concluídas. Veja notificações_de_webhook.

(c0 />trabalho.contínuo

Type: Map

Configuração para execução contínua do trabalho.

Key Tipo Description
pause_status String Se o trabalho contínuo está pausado ou não. Valores válidos: PAUSED, UNPAUSED.
task_retry_mode String Indique como o trabalho contínuo está aplicando novas tentativas de nível de tarefa. Os valores válidos são NEVER e ON_FAILURE. Usa NEVER como padrão.

tarefa.implantação

Type: Map

Informações de implantação para trabalhos gerenciados por fontes externas.

Key Tipo Description
kind String O tipo de implantação. Por exemplo, BUNDLE.
metadata_file_path String O caminho para o arquivo de metadados da implantação.

trabalho.notificações_de_email

Type: Map

Configurações de notificação por e-mail para execuções de tarefas.

Key Tipo Description
on_start Sequence Uma lista de endereços de email a serem notificados quando uma execução for iniciada.
on_success Sequence Uma lista de endereços de email a serem notificados quando uma execução for bem-sucedida.
on_failure Sequence Uma lista de endereços de email a serem notificados quando uma execução falhar.
on_duration_warning_threshold_exceeded Sequence Uma lista de endereços de email a serem notificados quando uma duração de execução exceder o limite de aviso.
no_alert_for_skipped_runs booleano Se deve ignorar o envio de alertas para execuções puladas.

ambientes_de_trabalho

Type: Sequence

Uma lista de especificações de ambiente de execução de tarefa que podem ser referenciadas por tarefas sem servidor de um trabalho.

Cada item na lista é um JobEnvironment:

Key Tipo Description
environment_key String A chave de um ambiente. Ele tem que ser exclusivo dentro de um trabalho.
spec Map A entidade que representa um ambiente sem servidor. Consulte job.environments.spec.

job.environments.spec

Type: Map

A entidade que representa um ambiente sem servidor.

Key Tipo Description
client String Deprecated. A versão do cliente.
dependencies Sequence Lista de dependências pip, conforme suportado pela versão do pip nesse ambiente.
environment_version String Obrigatório Versão do ambiente usada pelo ambiente. Cada versão vem com uma versão específica do Python e um conjunto de pacotes do Python. A versão é uma cadeia de caracteres, que consiste em um inteiro.

job.git_source

Type: Map

Configuração do repositório Git para código-fonte do trabalho.

Key Tipo Description
git_branch String O nome do branch a ser verificado e utilizado por esta tarefa. Esse campo não pode ser especificado em conjunto com git_tag ou git_commit.
git_commit String Confirme-se para ser verificado e usado por este trabalho. Esse campo não pode ser especificado em conjunto com git_branch ou git_tag.
git_provider String Identificador exclusivo do serviço usado para hospedar o repositório Git. O valor não diferencia maiúsculas de minúsculas. Os valores válidos sãogitHub, bitbucketCloud, , gitLab, azureDevOpsServices, gitHubEnterprise, bitbucketServer, . gitLabEnterpriseEdition
git_snapshot Map Estado de somente leitura do repositório remoto no momento em que o trabalho foi executado. Esse campo só está incluído em execuções de processos. Veja git_snapshot.
git_tag String Nome da marca a ser verificada e usada por este trabalho. Esse campo não pode ser especificado em conjunto com git_branch ou git_commit.
git_url String URL do repositório a ser clonado por esse trabalho.

job.git_source.git_snapshot

Type: Map

Instantâneo de informações de confirmação somente leitura.

Key Tipo Description
used_commit String Confirmar que foi usado para executar a execução. Se git_branch for especificado, isso apontará para o HEAD do branch no momento da execução; se git_tag for especificado, isso apontará para o commit para o qual a marca aponta.

saúde.do.trabalho

Type: Map

Configuração de monitoramento de saúde para a tarefa.

Key Tipo Description
rules Sequence Uma lista de regras de integridade do trabalho. Cada regra contém um metric e op (operador) e value. Consulte job.health.rules.

job.health.rules

Type: Sequence

Uma lista de regras de integridade do trabalho.

Cada item na lista é um JobHealthRule:

Key Tipo Description
metric String Especifica a métrica de saúde que está sendo avaliada para uma regra de saúde.
  • RUN_DURATION_SECONDS: tempo total esperado para uma única execução em segundos.
  • STREAMING_BACKLOG_BYTES: uma estimativa dos bytes máximos de dados que estão aguardando para serem consumidos em todos os fluxos. Essa métrica está em Visualização Pública.
  • STREAMING_BACKLOG_RECORDS: uma estimativa do atraso máximo de deslocamento em todos os fluxos. Essa métrica está em Visualização Pública.
  • STREAMING_BACKLOG_SECONDS: uma estimativa do atraso máximo do consumidor em todos os fluxos. Essa métrica está em Visualização Pública.
  • STREAMING_BACKLOG_FILES: uma estimativa do número máximo de arquivos pendentes em todos os fluxos. Essa métrica está em Visualização Pública.
op String Especifica o operador usado para comparar o valor da métrica de integridade com o limite especificado.
value Integer Especifica o valor limite que a métrica de integridade deve obedecer para atender à regra de integridade.

clusters_de_trabalho<|vq_9190|>

Type: Sequence

Uma lista de especificações de cluster de trabalho que podem ser compartilhadas e reutilizados por tarefas deste trabalho. Bibliotecas não podem ser declaradas em um cluster de trabalho compartilhado. Você deve declarar bibliotecas dependentes nas configurações de tarefa.

Cada item na lista é um JobCluster:

Key Tipo Description
job_cluster_key String Um nome exclusivo para o cluster de trabalho. Esse campo é necessário e deve ser exclusivo dentro do trabalho. JobTaskSettings pode se referir a esse campo para determinar qual cluster será iniciado para a execução da tarefa.
new_cluster Map Se new_cluster, uma descrição de um cluster criado para cada tarefa. Confira cluster.

tarefa.configuracoes_de_notificacao

Type: Map

Configurações de notificação que se aplicam a todas as notificações para o trabalho.

Key Tipo Description
no_alert_for_skipped_runs booleano Se deve ignorar o envio de alertas para execuções puladas.
no_alert_for_canceled_runs booleano Se deve ignorar o envio de alertas para execuções canceladas.

fila de tarefas

Type: Map

Configurações de fila para a tarefa.

Key Tipo Description
enabled booleano Se deve habilitar o enfileiramento para a tarefa.

tarefa.agendamento

Type: Map

Configuração de agendamento para execução periódica de tarefas.

Key Tipo Description
quartz_cron_expression String Uma expressão Cron usando a sintaxe de Quartzo que especifica quando o trabalho é executado. Por exemplo, 0 0 9 * * ? executa o trabalho todos os dias às 9h UTC.
timezone_id String O fuso horário da agenda. Por exemplo, America/Los_Angeles ou UTC.
pause_status String Se a agenda está pausada ou não. Valores válidos: PAUSED, UNPAUSED.

tarefa.gatilho

Type: Map

Configuração de gatilho para execução de trabalho controlada por eventos.

Key Tipo Description
file_arrival Map Gatilho baseado na chegada de um arquivo. Consulte file_arrival.
table Map Gatilho com base em uma tabela. Consulte a tabela.
table_update Map Disparador baseado em atualizações em tabela. Veja table_update.
periodic Map Gatilho periódico. Consulte periodicamente.

job.disparar.chegada_do_arquivo

Type: Map

Configuração de gatilho baseada na chegada do arquivo.

Key Tipo Description
url String O caminho do arquivo a ser monitorado para novos arquivos.
min_time_between_triggers_seconds Integer Tempo mínimo em segundos entre eventos de gatilho.
wait_after_last_change_seconds Integer Tempo de espera em segundos após a última alteração de arquivo antes de disparar.

job.trigger.table

Type: Map

Configuração de gatilho com base em uma tabela.

Key Tipo Description
table_names Sequence Uma lista de nomes de tabela a serem monitorados.
condition String A condição SQL que deve ser atendida para executar a tarefa.

trabalho.gatilho.atualização_tabela

Type: Map

Configuração de gatilho baseada em atualizações de tabela.

Key Tipo Description
table_names Sequence Uma lista de nomes de tabela a serem monitorados para atualizações.
condition String A condição SQL que deve ser atendida para executar a tarefa.
wait_after_last_change_seconds Integer Tempo de espera em segundos após a última atualização da tabela antes de disparar.

job.trigger.periódico

Type: Map

Configuração de gatilho periódico.

Key Tipo Description
interval Integer O valor do intervalo do gatilho periódico.
unit String A unidade de tempo para o intervalo. Valores válidos: SECONDS, , MINUTES, HOURS, DAYS, WEEKS.

job.webhook_notifications

Type: Map

Configurações de notificação de webhook para execuções de tarefas.

Key Tipo Description
on_start Sequence Uma lista de IDs de notificação de webhook a serem notificadas quando uma execução for iniciada.
on_success Sequence Uma lista de IDs de notificação do webhook a serem notificadas quando uma execução for bem-sucedida.
on_failure Sequence Uma lista de IDs de notificação do webhook que devem ser usados para enviar notificações quando uma execução falhar.
on_duration_warning_threshold_exceeded Sequence Uma lista de IDs de notificação de webhook a serem notificadas quando uma duração de execução exceder o limite de aviso.

Examples

O exemplo a seguir define um trabalho com a chave de recurso hello-job com uma tarefa de notebook:

resources:
  jobs:
    hello-job:
      name: hello-job
      tasks:
        - task_key: hello-task
          notebook_task:
            notebook_path: ./hello.py

O exemplo a seguir define um trabalho com um notebook SQL:

resources:
  jobs:
    job_with_sql_notebook:
      name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
      tasks:
        - task_key: notebook
          notebook_task:
            notebook_path: ./select.sql
            warehouse_id: 799f096837fzzzz4

Para obter exemplos de configuração de trabalho adicionais, consulte a configuração do trabalho.

Para obter informações sobre como definir tarefas de trabalho e substituir configurações de trabalho, consulte:

modelo (herdado)

Type: Map

O recurso de modelo permite definir modelos herdados em pacotes. O Databricks recomenda que, em vez disso, você use o Catálogo do Unity com os modelos registrados.

ponto_de_serviço_do_modelo

Type: Map

O recurso model_serving_endpoint permite que você defina um modelo que atende pontos de extremidade. ConsulteGerenciar pontos de extremidade do Serviço de Modelo.

model_serving_endpoints:
  <model_serving_endpoint-name>:
    <model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
Key Tipo Description
ai_gateway Map A configuração do Gateway de IA para o ponto de extremidade do serviço. OBSERVAÇÃO: atualmente, há suporte apenas para pontos de extremidade de modelo externo e taxa de transferência provisionada. Veja ai_gateway.
config Map A configuração principal do ponto de extremidade do serviço. Consulte config.
name String O nome do ponto de extremidade do serviço. Esse campo é necessário e deve ser exclusivo em um workspace do Databricks. Um nome de ponto de extremidade pode consistir em caracteres alfanuméricos, traços e sublinhados.
permissions Sequence O modelo que serve as permissões do ponto de extremidade. Consulte permissões.
rate_limits Sequence Deprecated. Limites de taxa a serem aplicados ao ponto de extremidade de serviço. Use o Gateway de IA para gerenciar limites de taxa.
route_optimized booleano Habilitar a otimização de rota em um ponto de extremidade de serviço de modelo.
tags Sequence Etiquetas a serem anexadas ao ponto de extremidade do serviço e propagadas automaticamente para os logs de cobrança.

ponto_de_extremidade_para_serviços_de_modelos.ai_gateway

Type: Map

Configuração do Gateway de IA para o endpoint de atendimento.

Key Tipo Description
guardrails Map Configuração do Guardrail. Veja guardrails.
inference_table_config Map Configuração para registro de logs de inferência em tabelas do Catálogo do Unity. Veja inference_table_config.
rate_limits Sequence Configurações de limite de taxa.
usage_tracking_config Map Configuração para acompanhar o uso. Veja usage_tracking_config.

ponto_de_serviço_do_modelo.ai_gateway.guardrails

Type: Map

A configuração dos trilhos de segurança do gateway de IA.

Key Tipo Description
input Map Configuração de guardrails de entrada com campos como safety, pii.
output Map Configuração de guardrails de saída com campos como safety, pii.
invalid_keywords Sequence Uma lista de palavras-chave a serem bloqueadas.

model_serving_endpoint.ai_gateway.inference_table_config

Type: Map

Configuração para registro de logs de inferência em tabelas do Catálogo do Unity.

Key Tipo Description
catalog_name String O nome do catálogo no Catálogo do Unity.
schema_name String O nome do esquema no Catálogo do Unity.
table_name_prefix String O prefixo para nomes de tabela de inferência.
enabled booleano Se o registro em log da tabela de inferência está habilitado.

ponto_de_serviço_do_modelo.porta_de_entrada_ai.configuração_de_rastreamento_de_uso

Type: Map

A configuração do gateway de IA para monitorar o uso.

Key Tipo Description
enabled booleano Se o controle de uso está habilitado.

model_serving_endpoint.config

Type: Map

A configuração principal do endpoint de serviço.

Key Tipo Description
served_entities Sequence Uma lista de entidades que o ponto de extremidade pode atender. Cada entidade servida contém campos como entity_name, , entity_version, workload_size, scale_to_zero_enabled, , workload_type, environment_vars.
served_models Sequence (Obsoleto: use served_entities em vez disso) Uma lista de modelos atendidos para o ponto de extremidade.
traffic_config Map A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser roteadas. Veja traffic_config.
auto_capture_config Map Configuração para tabelas de inferência que registram automaticamente solicitações e respostas no Catálogo do Unity. Consulte auto_capture_config.

endpoint_de_serviço_de_modelo.configuração.configuração_de_tráfego

Type: Map

A configuração de tráfego que define como as invocações para o endpoint de serviço devem ser roteadas.

Key Tipo Description
routes Sequence Uma lista de rotas para distribuição de tráfego. Cada rota contém served_model_name e traffic_percentage.

model_serving_endpoint.config.auto_capture_config

Type: Map

Configuração para tabelas de inferência que registram automaticamente solicitações e respostas no Catálogo do Unity.

Key Tipo Description
catalog_name String O nome do catálogo no Catálogo do Unity.
schema_name String O nome do esquema no Catálogo do Unity.
table_name_prefix String O prefixo para nomes de tabela de inferência.
enabled booleano Se o registro em log da tabela de inferência está habilitado.

Example

O exemplo a seguir define um modelo do Catálogo do Unity que serve o ponto de extremidade:

resources:
  model_serving_endpoints:
    uc_model_serving_endpoint:
      name: 'uc-model-endpoint'
      config:
        served_entities:
          - entity_name: 'myCatalog.mySchema.my-ads-model'
            entity_version: '10'
            workload_size: 'Small'
            scale_to_zero_enabled: 'true'
        traffic_config:
          routes:
            - served_model_name: 'my-ads-model-10'
              traffic_percentage: '100'
      tags:
        - key: 'team'
          value: 'data science'

linha de produção

Type: Map

Pipelines têm suporte no Python para Pacotes de Ativos do Databricks. Consulte databricks.bundles.pipelines.

O recurso de pipeline permite que você crie pipelines. Para obter informações sobre pipelines, consulte Pipelines Declarativos do Lakeflow Spark. Para um tutorial que usa o modelo de Pacotes de Ativos do Databricks para criar um pipeline, consulte Desenvolver Pipelines Declarativos Spark Lakeflow com Pacotes de Ativos do Databricks.

pipelines:
  <pipeline-name>:
    <pipeline-field-name>: <pipeline-field-value>
Key Tipo Description
allow_duplicate_names booleano Se for false, a implantação falhará se o nome entrar em conflito com o de outro pipeline.
budget_policy_id String Política de orçamento deste pipeline.
catalog String Um catálogo no Catálogo do Unity para o qual publicar dados desse pipeline. Se target estiver especificado, as tabelas neste pipeline serão publicadas em um esquema target dentro de catalog (por exemplo, catalog.target.table). Se target não for especificado, nenhum dado será publicado no Catálogo do Unity.
channel String O Canal de Distribuição do Lakeflow Spark Declarative Pipelines que determina qual versão usar.
clusters Sequence As configurações de cluster para essa implantação de pipeline. Confira cluster.
configuration Map A configuração dessa execução de pipeline.
continuous booleano Se o pipeline é contínuo ou disparado. Isso substitui trigger.
deployment Map Tipo de implantação desse pipeline. Consulte distribuição.
development booleano Se o pipeline está ou não no modo de desenvolvimento. O padrão é false.
dry_run booleano Se o pipeline é um pipeline de execução seca.
edition String A edição do produto pipeline.
environment Map A especificação do ambiente para este pipeline é usada para instalar as dependências na computação sem servidor. Consulte o ambiente. Essa chave só tem suporte na CLI do Databricks versão 0.258 e superior.
event_log Map A configuração do log de eventos para este pipeline. Veja event_log.
filters Map Os filtros que determinam quais pacotes de pipeline incluir no grafo implantado. Veja os filtros.
id String O identificador exclusivo para este pipeline.
ingestion_definition Map A configuração de um pipeline de ingestão gerenciada. Essas configurações não podem ser usadas com as configurações libraries, schema, target ou catalog. Veja ingestion_definition.
libraries Sequence Uma lista de bibliotecas ou código necessários para essa implantação. Consulte pipeline.libraryes.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String Um nome amigável para esse pipeline.
notifications Sequence As configurações de notificação para este pipeline.
permissions Sequence As permissões do pipeline. Consulte permissões.
photon booleano Se a aceleração do Photon está habilitada para esse pipeline.
root_path String O caminho raiz para esse pipeline. Isso é usado como o diretório raiz ao editar o pipeline na interface do usuário do Databricks e é adicionado ao sys.path ao executar fontes do Python durante a execução do pipeline.
run_as Map A identidade sob a qual o pipeline é executado. Se não for especificado, o pipeline será executado pelo usuário que o criou. Somente user_name ou service_principal_name pode ser especificado. Se ambos forem especificados, um erro será gerado. Veja run_as.
schema String O esquema padrão (banco de dados) no qual as tabelas são lidas ou publicadas.
serverless booleano Se a computação sem servidor está habilitada para este pipeline.
storage String O diretório raiz do DBFS para armazenar pontos de verificação e tabelas.
tags Map Um mapa de marcas associadas ao pipeline. Eles são encaminhados para o cluster como tags do cluster e, portanto, estão sujeitos às mesmas limitações. Um máximo de 25 tags pode ser adicionado ao pipeline.
target String Esquema de destino (banco de dados) ao qual adicionar tabelas neste pipeline. Exatamente um dos schema ou target deve ser especificado. Para publicar no Catálogo do Unity, especifique também catalog. Esse campo herdado foi obsoleto para criação de pipeline em favor do campo schema.

pipeline.deployment

Type: Map

Configuração de tipo de implantação para o pipeline.

Key Tipo Description
kind String O tipo de implantação. Por exemplo, BUNDLE.
metadata_file_path String O caminho para o arquivo de metadados da implantação.

pipeline.ambiente

Type: Map

Especificação de ambiente para instalar dependências na computação sem servidor.

Key Tipo Description
dependencies Sequence Uma lista de dependências do pip, conforme compatível com a versão do pip neste ambiente. Cada dependência é uma linha de arquivo de requisito pip.

pipeline.registro_de_eventos

Type: Map

Configuração do log de eventos para o pipeline.

Key Tipo Description
catalog String O catálogo Unity Catalog onde o log de eventos é publicado.
name String O nome no qual o log de eventos é publicado no Catálogo do Unity.
schema String O esquema catálogo do Unity no qual o log de eventos é publicado.

pipeline.filters

Type: Map

Filtros que determinam quais pacotes de pipeline incluir no grafo implementado.

Key Tipo Description
include Sequence Uma lista de nomes de pacotes a serem incluídos.
exclude Sequence Uma lista de nomes de pacote a serem excluídos.

pipeline.ingestion_definition

Type: Map

Configuração para um pipeline de ingestão gerenciada. Essas configurações não podem ser usadas com as configurações libraries, schema, target ou catalog.

Key Tipo Description
connection_name String O nome da conexão a ser usada para o processo de ingestão.
ingestion_gateway_id String O ID do gateway de ingestão.
objects Sequence Obrigatório Configurações que especificam tabelas a serem replicadas e o destino das tabelas replicadas. Cada objeto pode ser um SchemaSpec, TableSpec ou ReportSpec.
source_configuration Map Parâmetros de configuração da fonte no nível do catálogo. Consulte source_configuration.
table_configuration Map Configuração das tabelas de ingestão. Veja table_configuration.

SchemaSpec

Type: Map

Especificação do objeto de esquema para ingerir todas as tabelas de um esquema.

Key Tipo Description
source_schema String O nome do esquema de origem a ser ingerido.
destination_catalog String O nome do catálogo de destino no Unity Catalog.
destination_schema String O nome do esquema de destino no Unity Catalog.
table_configuration Map Configuração a ser aplicada a todas as tabelas neste esquema. Consulte pipeline.ingestion_definition.table_configuration.

Especificação de Tabela

Type: Map

Especificação do objeto de tabela para importar uma tabela específica.

Key Tipo Description
source_schema String O nome do esquema de origem que contém a tabela.
source_table String O nome da tabela de origem para ingestão.
destination_catalog String O nome do catálogo de destino no Unity Catalog.
destination_schema String O nome do esquema de destino no Unity Catalog.
destination_table String O nome da tabela de destino no Unity Catalog.
table_configuration Map Configuração para esta tabela específica. Consulte pipeline.ingestion_definition.table_configuration.

Especificação de Relatório

Type: Map

Especificação de objeto de relatório para importar relatórios analíticos.

Key Tipo Description
source_url String A URL do relatório de origem.
source_report String O nome ou identificador do relatório de origem.
destination_catalog String O nome do catálogo de destino no Unity Catalog.
destination_schema String O nome do esquema de destino no Unity Catalog.
destination_table String O nome da tabela de destino dos dados do relatório.
table_configuration Map Configuração da tabela de relatório. Consulte pipeline.ingestion_definition.table_configuration.

pipeline.ingestion_definition.configuração_de_fonte

Type: Map

Configuração da origem.

Key Tipo Description
catalog Map Parâmetros de configuração da fonte no nível do catálogo. Consulte o catálogo.
pipeline.definição_de_ingestão.configuração_de_fonte.catálogo

Type: Map

Parâmetros de configuração de origem ao nível de catálogo

Key Tipo Description
postgres Map Parâmetros de configuração de nível de catálogo específicos do Postgres. Contém uma slot_config chave que é uma Map representando a configuração de slot do Postgres a ser usada para replicação lógica.
source_catalog String O nome do catálogo de origem.

pipeline.ingestion_definition.table_configuration

Type: Map

Opções de configuração para tabelas de ingestão.

Key Tipo Description
exclude_columns Sequence Uma lista de nomes de colunas a serem excluídos do processo de ingestão. Quando não especificado, include_columns controla totalmente quais colunas serão ingeridas. Quando isso for especificado, todas as outras colunas, incluindo as futuras, serão automaticamente incluídas para ingestão. Este campo é mutuamente exclusivo em relação a include_columns.
include_columns Sequence Uma lista de nomes de coluna a serem incluídos no processo de ingestão. Quando não especificado, todas as colunas, exceto as de exclude_columns, serão incluídas. As colunas futuras serão incluídas automaticamente. Quando especificado, todas as outras colunas futuras serão automaticamente excluídas do processo de ingestão. Este campo é mutuamente exclusivo em relação a exclude_columns.
primary_keys Sequence Uma lista de nomes de coluna a serem usados como chaves primárias para a tabela.
sequence_by Sequence Os nomes de coluna que especificam a ordem lógica dos eventos nos dados de origem. O Spark Declarative Pipelines usa esse sequenciamento para lidar com eventos de alteração que chegam fora de ordem.

pipeline.bibliotecas

Type: Sequence

Define a lista de bibliotecas ou código necessários para esse pipeline.

Cada item na lista é uma definição:

Key Tipo Description
file Map O caminho para um arquivo que define um pipeline e é armazenado no Databricks Repos. Consulte pipeline.libraryes.file.
glob Map O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de bloco de anotações, um caminho de arquivo ou um caminho de pasta que termina /**. Este campo não pode ser usado em conjunto com notebook ou file. Consulte pipeline.libraryes.glob.
notebook Map O caminho para um notebook que define um pipeline e é armazenado no espaço de trabalho do Databricks. Consulte pipeline.libraryes.notebook.
whl String Este campo foi preterido

pipeline.libraryes.file

Type: Map

O caminho para um arquivo que define um pipeline e é armazenado no Repositório do Databricks.

Key Tipo Description
path String O caminho absoluto do código-fonte.

pipeline.bibliotecas.glob

Type: Map

O campo unificado para incluir o código-fonte. Cada entrada pode ser um caminho de bloco de anotações, um caminho de arquivo ou um caminho de pasta que termina /**. Este campo não pode ser usado em conjunto com notebook ou file.

Key Tipo Description
include String O código-fonte a ser incluído para pipelines

pipeline.libraryes.notebook

Type: Map

O caminho para um notebook que define um pipeline e é armazenado no espaço de trabalho do Databricks.

Key Tipo Description
path String O caminho absoluto do código-fonte.

Example

O exemplo a seguir define um pipeline com a chave de recurso hello-pipeline:

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      clusters:
        - label: default
          num_workers: 1
      development: true
      continuous: false
      channel: CURRENT
      edition: CORE
      photon: false
      libraries:
        - notebook:
            path: ./pipeline.py

Para obter exemplos adicionais de configuração de Pipeline, consulte Configuração de Pipeline.

quality_monitor (Catálogo do Unity)

Type: Map

O recurso quality_monitor permite definir um monitor de tabela no Catálogo do Unity. Para obter informações sobre monitores, consulte perfil de dados.

quality_monitors:
  <quality_monitor-name>:
    <quality_monitor-field-name>: <quality_monitor-field-value>
Key Tipo Description
assets_dir String O diretório para armazenar ativos de monitoramento (por exemplo, painel, tabelas de métrica).
baseline_table_name String Nome da tabela de linha de base da qual as métricas de descompasso são computadas. As colunas na tabela monitorada também devem estar presentes na tabela de linha de base.
custom_metrics Sequence Métricas personalizadas para computação na tabela monitorada. Elas podem ser métricas de agregação, métricas derivadas (de métricas de agregação já computadas) ou métricas de descompasso (comparando métricas entre janelas de tempo). Veja custom_metrics.
inference_log Map Configuração para monitorar logs de inferência. Veja inference_log.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
notifications Map As configurações de notificação para o monitor. Confira as notificações.
output_schema_name String Esquema em que as tabelas de métricas de saída são criadas.
schedule Map O agendamento para atualizar e atualizar tabelas de métricas automaticamente. Veja a agenda.
skip_builtin_dashboard booleano Se deve ignorar a criação de um painel padrão que resume as métricas de qualidade dos dados.
slicing_exprs Sequence Lista de expressões de coluna para segmentar dados para análise direcionada. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos. Para colunas de alta cardinalidade, somente os 100 principais valores exclusivos em termos de frequência irão gerar fatias.
snapshot Map Configuração para monitoração de tabelas instantâneas. Veja instantâneo.
table_name String O nome completo da tabela.
time_series Map Configuração para monitorar tabelas de série temporal. Consulte time_series.
warehouse_id String Argumento opcional para especificar o armazém para criação do painel. Se não for especificado, o primeiro warehouse em execução será usado.

monitor_de_qualidade.métricas_personalizadas

Type: Sequence

Uma lista de definições de métrica personalizadas.

Cada item na lista é um CustomMetric:

Key Tipo Description
definition String Modelo jinja para uma expressão SQL que especifica como calcular a métrica. Consulte criar definição de métrica.
input_columns Sequence Uma lista de nomes de coluna na tabela de entrada para a qual a métrica deve ser computada. Pode usar :table para indicar que a métrica precisa de informações de várias colunas.
name String Nome da métrica nas tabelas de saída.
output_data_type String O tipo de saída da métrica personalizada.
type String Pode ser apenas um de CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVEDou CUSTOM_METRIC_TYPE_DRIFT. As métricas CUSTOM_METRIC_TYPE_AGGREGATE e CUSTOM_METRIC_TYPE_DERIVED são computadas em uma única tabela, enquanto as métricas comparativas CUSTOM_METRIC_TYPE_DRIFT comparam entre a linha de base e a tabela de entrada, ou entre as duas janelas de tempo consecutivas.
  • CUSTOM_METRIC_TYPE_AGGREGATE: depende apenas das colunas existentes em sua tabela
  • CUSTOM_METRIC_TYPE_DERIVED: basear-se em métricas agregadas previamente computadas
  • CUSTOM_METRIC_TYPE_DRIFT: basear-se em agregados computados anteriormente ou em métricas derivadas

monitor_de_qualidade.configuracao_de_classificacao_de_dados

Type: Map

Configuração para classificação de dados.

Key Tipo Description
enabled booleano Se a classificação de dados está habilitada.

quality_monitor.inference_log

Type: Map

Configuração para monitorar logs de inferência.

Key Tipo Description
granularities Sequence As granularidades de tempo para agregar logs de inferência (por exemplo, ["1 day"]).
model_id_col String O nome da coluna que contém a ID do modelo.
prediction_col String O nome da coluna que contém a previsão.
timestamp_col String O nome da coluna que contém o timestamp.
problem_type String O tipo de problema de aprendizado de máquina. Os valores válidos incluem PROBLEM_TYPE_CLASSIFICATION. PROBLEM_TYPE_REGRESSION
label_col String O nome da coluna que contém o rótulo (verdade básica).

monitor_de_qualidade.notificações

Type: Map

Configurações de notificação para o monitor.

Key Tipo Description
on_failure Map Configurações de notificação quando o monitor falha. Veja on_failure.
on_new_classification_tag_detected Map Configurações de notificação quando novas marcas de classificação são detectadas. Consulte on_new_classification_tag_detected.

quality_monitor.notifications.on_failure

Type: Map

Configurações de notificação quando o monitor falha.

Key Tipo Description
email_addresses Sequence Uma lista de endereços de email a serem notificados sobre a falha do monitor.

monitor_de_qualidade.notificações.no_novo_rótulo_de_classificação_detectado

Type: Map

Configurações de notificação quando novas marcas de classificação são detectadas.

Key Tipo Description
email_addresses Sequence Uma lista de endereços de email a serem notificados quando novas marcas de classificação forem detectadas.

monitor_de_qualidade.agenda

Type: Map

Agendar a atualização e renovação automática das tabelas de métricas.

Key Tipo Description
quartz_cron_expression String Uma expressão Cron usando a sintaxe de Quartzo. Por exemplo, 0 0 8 * * ? é executado todos os dias às 8h da manhã.
timezone_id String O fuso horário da agenda (por exemplo, UTC, America/Los_Angeles).
pause_status String Se o cronograma foi pausado. Valores válidos: PAUSED, UNPAUSED.

quality_monitor.snapshot

Type: Map

Configuração para monitoração de tabelas instantâneas.

monitor_de_qualidade.série_temporal

Configuração para monitorar tabelas de série temporal.

Key Tipo Description
granularities Sequence As granularidades temporais para agregar dados de séries temporais (por exemplo, ["30 minutes"]).
timestamp_col String O nome da coluna que contém o timestamp.

Examples

Para obter um pacote de exemplo completo que define um quality_monitor, consulte o pacote mlops_demo.

Os exemplos a seguir definem monitores de qualidade para tipos de perfil InferenceLog, TimeSeries e Snapshot .

# InferenceLog profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      inference_log:
        granularities: [1 day]
        model_id_col: model_id
        prediction_col: prediction
        label_col: price
        problem_type: PROBLEM_TYPE_REGRESSION
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC
# TimeSeries profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      time_series:
        granularities: [30 minutes]
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC
# Snapshot profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      snapshot: {}
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

registered_model (Catálogo do Unity)

Type: Map

O recurso de modelo registrado permite que você defina modelos no Catálogo do Unity. Para obter informações sobre modelos registrados do Catálogo do Unity, confira Gerenciar o ciclo de vida do modelo no Catálogo do Unity.

registered_models:
  <registered_model-name>:
    <registered_model-field-name>: <registered_model-field-value>
Key Tipo Description
aliases Sequence Lista de aliases associados ao modelo registrado. Consulte registered_model.aliases.
browse_only booleano Indica se o principal está restrito à recuperação de metadados para o objeto associado por meio do privilégio BROWSE quando include_browse está ativado na solicitação.
catalog_name String O nome do catálogo em que o esquema e o modelo registrado residem.
comment String O comentário anexado ao modelo registrado.
full_name String O nome totalmente qualificado em três níveis do modelo registrado
grants Sequence As concessões associadas ao modelo registrado. Confira a concessão.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String O nome do modelo registrado.
schema_name String O nome do esquema no qual o modelo registrado reside.
storage_location String O local de armazenamento na nuvem na qual os arquivos de dados de versão do modelo são armazenados.

registered_model.aliases

Type: Sequence

Uma lista de aliases associados ao modelo registrado.

Cada item na lista é um Alias:

Key Tipo Description
alias_name String Nome do alias, por exemplo, 'campeão' ou 'latest_stable'
catalog_name String O nome do catálogo que contém a versão do modelo
id String O identificador exclusivo do alias
model_name String O nome do modelo matriz registrado da versão do modelo, referente ao esquema matriz
schema_name String O nome do esquema que contém a versão do modelo, relativo ao catálogo principal
version_num Integer Número de versão inteiro da versão do modelo para a qual esse alias aponta.

Example

O exemplo a seguir define um modelo registrado no Catálogo do Unity:

resources:
  registered_models:
    model:
      name: my_model
      catalog_name: ${bundle.target}
      schema_name: mlops_schema
      comment: Registered model in Unity Catalog for ${bundle.target} deployment target
      grants:
        - privileges:
            - EXECUTE
          principal: account users

esquema (Catálogo do Unity)

Type: Map

Esquemas são suportados em Databricks Asset Bundles para Python. Consulte databricks.bundles.schemas.

O tipo de recurso de esquema permite que você defina esquemas do Catálogo do Unity para tabelas e outros ativos em seus fluxos de trabalho e pipelines criados como parte de um pacote. Um esquema, diferente de outros tipos de recursos, tem as seguintes limitações:

  • O proprietário de um recurso de esquema é sempre o usuário de implantação e não pode ser alterado. Se run_as for especificado no pacote, ele será ignorado por operações no esquema.
  • Somente os campos compatíveis com a API de criação do objeto de esquemas correspondente estão disponíveis para o recurso de esquema. Por exemplo, não há suporte para enable_predictive_optimization, pois ele só está disponível no da API de atualização.
schemas:
  <schema-name>:
    <schema-field-name>: <schema-field-value>
Key Tipo Description
catalog_name String O proprietário do catálogo pai.
comment String Uma descrição de texto de forma livre fornecida pelo usuário.
grants Sequence As concessões associadas ao esquema. Confira a concessão.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String O nome do esquema, em relação ao catálogo pai.
properties Map Um mapa de propriedades chave-valor anexadas ao esquema.
storage_root String A URL raiz de armazenamento para tabelas gerenciadas dentro do esquema.

Examples

O exemplo a seguir define um pipeline com a chave de recurso my_pipeline que cria um esquema do Catálogo do Unity com a chave my_schema como destino:

resources:
  pipelines:
    my_pipeline:
      name: test-pipeline-{{.unique_id}}
      libraries:
        - notebook:
            path: ../src/nb.ipynb
        - file:
            path: ../src/range.sql
      development: true
      catalog: ${resources.schemas.my_schema.catalog_name}
      target: ${resources.schemas.my_schema.id}

  schemas:
    my_schema:
      name: test-schema-{{.unique_id}}
      catalog_name: main
      comment: This schema was created by Databricks Asset Bundles.

Não há suporte para um mapeamento de permissões de nível superior nos Pacotes de Ativos do Databricks, portanto, se você quiser definir permissões para um esquema, defina-as dentro do mapeamento schemas. Para obter mais informações sobre concessões, confira Mostrar, conceder e revogar privilégios.

O exemplo a seguir define um esquema do Catálogo do Unity com concessões:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

escopo_secreto

Type: Map

O recurso secret_scope permite definir escopos secretos em um pacote. Para obter informações sobre escopos secretos, consulte Gerenciamento de segredo.

secret_scopes:
  <secret_scope-name>:
    <secret_scope-field-name>: <secret_scope-field-value>
Key Tipo Description
backend_type String O tipo de backend com o qual o escopo será criado. Se não for especificado, o padrão será DATABRICKS.
keyvault_metadata Map Os metadados para o escopo secreto se backend_type for AZURE_KEYVAULT. Veja keyvault_metadata.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String Nome de escopo solicitado pelo usuário. Nomes de escopo são exclusivos.
permissions Sequence As permissões a serem aplicadas ao escopo secreto. As permissões são gerenciadas por meio de ACLs de escopo secreto. Consulte permissões.

secret_scope.keyvault_metadata

Type: Map

Os metadados para escopos secretos com suporte do Azure Key Vault.

Key Tipo Description
resource_id String A ID do recurso do Azure do Key Vault.
dns_name String O nome DNS do Azure Key Vault.

Examples

O exemplo a seguir define um escopo secreto que usa um back-end do cofre de chaves:

resources:
  secret_scopes:
    secret_scope_azure:
      name: test-secrets-azure-backend
      backend_type: 'AZURE_KEYVAULT'
      keyvault_metadata:
        resource_id: my_azure_keyvault_id
        dns_name: my_azure_keyvault_dns_name

O exemplo a seguir define uma ACL personalizada usando escopos e permissões secretas:

resources:
  secret_scopes:
    my_secret_scope:
      name: my_secret_scope
      permissions:
        - user_name: admins
          level: WRITE
        - user_name: users
          level: READ

Para obter um pacote de exemplo que demonstra como definir um escopo secreto e um trabalho com uma tarefa que o lê em um pacote, consulte o repositório GitHub de exemplos de pacote.

sql_armazém_de_dados

Type: Map

O recurso do SQL Warehouse permite que você defina um SQL Warehouse em um pacote. Para obter informações sobre os sql warehouses, consulte Data warehousing no Azure Databricks.

sql_warehouses:
  <sql-warehouse-name>:
    <sql-warehouse-field-name>: <sql-warehouse-field-value>
Key Tipo Description
auto_stop_mins Integer O tempo em minutos que um SQL Warehouse deve estar ocioso (por exemplo, sem consultas em execução), antes de ser interrompido automaticamente. Os valores válidos são 0, o que indica nenhuma autoparada, ou maior ou igual a 10. O padrão é 120.
channel Map Os detalhes do canal. Ver canal
cluster_size String O tamanho dos clusters alocados para este data warehouse. Aumentar o tamanho de um cluster Spark permite que você execute consultas maiores nele. Se você quiser aumentar o número de consultas simultâneas, ajuste max_num_clusters. Para obter valores com suporte, consulte cluster_size.
creator_name String O nome do usuário que criou o warehouse.
enable_photon booleano Se o armazém deve usar clusters otimizados para Photon. O padrão é false.
enable_serverless_compute booleano Se o warehouse deve usar computação sem servidor.
instance_profile_arn String Deprecated. Perfil de instância usado para passar a função IAM para o cluster,
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
max_num_clusters Integer O número máximo de clusters que o dimensionador automático criará para lidar com consultas simultâneas. Os valores devem ser menores ou iguais a 30 e maiores ou iguais a min_num_clusters. O padrão é min_clusters se não estiver definido.
min_num_clusters Integer O número mínimo de clusters disponíveis que serão mantidos para esse SQL Warehouse. Aumentar isso garantirá que um maior número de clusters esteja sempre em execução e, portanto, poderá reduzir o tempo de inicialização a frio para novas consultas. Isso é semelhante aos núcleos reservados versus revogáveis em um gerenciador de recursos. Os valores devem ser maiores que 0 e menores ou iguais a min(max_num_clusters, 30). O valor padrão é 1.
name String O nome lógico do cluster. O nome deve ser exclusivo em uma organização e com menos de 100 caracteres.
permissions Sequence As permissões a serem aplicadas ao armazém. Consulte permissões.
spot_instance_policy String Se deve utilizar instâncias spot. Os valores válidos sãoPOLICY_UNSPECIFIED, , COST_OPTIMIZEDRELIABILITY_OPTIMIZED. O padrão é COST_OPTIMIZED.
tags Map Um conjunto de pares chave-valor que serão aplicados a todos os recursos (por exemplo, instâncias AWS e volumes EBS) associados a este SQL Warehouse. O número de tags deve ser inferior a quarenta e cinco.
warehouse_type String O tipo de armazém, PRO ou CLASSIC. Se você quiser usar a computação sem servidor, defina esse campo PRO como e também defina o campo enable_serverless_compute como true.

sql_warehouse.channel

Type: Map

Configuração do canal para o SQL Warehouse.

Key Tipo Description
name String O nome do canal. Os valores válidos incluem CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM.
dbsql_version String A versão DBSQL para canais personalizados.

Example

O exemplo a seguir define um SQL Warehouse:

resources:
  sql_warehouses:
    my_sql_warehouse:
      name: my_sql_warehouse
      cluster_size: X-Large
      enable_serverless_compute: true
      max_num_clusters: 3
      min_num_clusters: 1
      auto_stop_mins: 60
      warehouse_type: PRO

tabela_de_banco_de_dados_sincronizada

Type: Map

O recurso de tabela de banco de dados sincronizado permite definir tabelas de banco de dados do Lakebase em um pacote.

Para obter informações sobre tabelas de banco de dados sincronizadas, consulte o que é uma instância de banco de dados?.

synced_database_tables:
  <synced_database_table-name>:
    <synced_database_table-field-name>: <synced_database_table-field-value>
Key Tipo Description
database_instance_name String O nome da instância do banco de dados de destino. Isso é necessário ao criar tabelas de banco de dados sincronizadas em catálogos padrão. Isso é opcional ao criar tabelas de banco de dados sincronizadas em catálogos registrados.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
logical_database_name String O nome do objeto de banco de dados Postgres de destino (banco de dados lógico) para esta tabela.
name String O nome completo da tabela, no formulário catalog.schema.table.
spec Map A especificação da tabela de banco de dados. Consulte a especificação da tabela de banco de dados sincronizada.

synced_database_table.spec

Type: Map

A especificação da tabela de banco de dados.

Key Tipo Description
create_database_objects_if_missing booleano Se será necessário criar o banco de dados lógico e os recursos de esquema da tabela sincronizada se eles ainda não existirem.
existing_pipeline_id String O ID de um pipeline existente. Se isso for definido, a tabela sincronizada será compactada dentro do pipeline referenciado existente. Isso evita a criação de um novo pipeline e permite o compartilhamento de computação existente. Nesse caso, a tabela sincronizada scheduling_policy deve corresponder à política de programação do fluxo de trabalho existente. No máximo um dos existing_pipeline_id e new_pipeline_spec deve ser definido.
new_pipeline_spec Map A especificação de um novo pipeline. Veja new_pipeline_spec. No máximo um dos existing_pipeline_id e new_pipeline_spec deve ser definido.
primary_key_columns Sequence A lista dos nomes das colunas que constituem a chave primária.
scheduling_policy String A política de agendamento para sincronização. Os valores válidos incluem SNAPSHOT. CONTINUOUS
source_table_full_name String O nome completo da tabela de origem no formato catalog.schema.table.
timeseries_key String Chave de série temporal para desduplicar linhas com a mesma chave primária.

tabela_de_banco_de_dados_sincronizada.spec.nova_spec_do_pipeline

Type: Map

A especificação de uma nova pipeline utilizada na tabela sincronizada do banco de dados.

Key Tipo Description
budget_policy_id String A ID da política de orçamento a ser definida no pipeline recém-criado.
storage_catalog String O catálogo do pipeline para guardar arquivos intermediários, como pontos de controle e logs de eventos. Isso precisa ser um catálogo padrão em que o usuário tenha permissões para criar tabelas Delta.
storage_schema String O esquema do pipeline para armazenar arquivos intermediários, como pontos de verificação e logs de eventos. Isso precisa estar no catálogo padrão em que o usuário tem permissões para criar tabelas Delta.

Examples

O exemplo a seguir define uma tabela de banco de dados sincronizada em um catálogo de banco de dados correspondente:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: my-instance
      database_name: 'my_database'
      name: my_catalog
      create_database_if_not_exists: true
  synced_database_tables:
    my_synced_table:
      name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
      database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'my_source_table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

O exemplo a seguir define uma tabela de banco de dados sincronizada dentro de um catálogo padrão:

resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.public.synced_table'
      # database_instance_name is required for synced tables created in standard catalogs.
      database_instance_name: 'my-database-instance'
      # logical_database_name is required for synced tables created in standard catalogs:
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'source_catalog.schema.table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

Este exemplo cria uma tabela de banco de dados sincronizada e personaliza o agendamento do pipeline para ela. Ele pressupõe que você já tenha:

  • Uma instância de banco de dados chamada my-database-instance
  • Um catálogo padrão chamado my_standard_catalog
  • Um esquema no catálogo padrão chamado default
  • Uma tabela delta de origem nomeada source_delta.schema.customer com a chave primária c_custkey
resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.default.my_synced_table'
      database_instance_name: 'my-database-instance'
      logical_database_name: 'test_db'
      spec:
        source_table_full_name: 'source_delta.schema.customer'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - c_custkey
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'source_delta'
          storage_schema: 'schema'

  jobs:
    sync_pipeline_schedule_job:
      name: sync_pipeline_schedule_job
      description: 'Job to schedule synced database table pipeline.'
      tasks:
        - task_key: synced-table-pipeline
          pipeline_task:
            pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'

volume (Catálogo do Unity)

Type: Map

É oferecido suporte a volumes nos Pacotes de Recursos em Python para Databricks. Consulte databricks.bundles.volumes.

O tipo de recurso de volume permite que você defina e crie volumes do Unity Catalog como parte de um conjunto. Ao implantar um pacote com um volume definido, observe que:

  • Um volume não pode ser referenciado no artifact_path do conjunto até que ele exista no espaço de trabalho. Portanto, se você quiser usar os Pacotes de Ativos do Databricks para criar o volume, primeiro defina o volume no pacote, implante-o para criar o volume e, em seguida, referencie-o no artifact_path em implantações subsequentes.
  • Os volumes no pacote não são precedidos pelo prefixo dev_${workspace.current_user.short_name} quando o destino de implantação está configurado com mode: development. No entanto, você pode configurar manualmente esse prefixo. Confira Predefinições personalizadas.
volumes:
  <volume-name>:
    <volume-field-name>: <volume-field-value>
Key Tipo Description
catalog_name String O nome do catálogo do esquema e do volume.
comment String O comentário anexado ao volume.
grants Sequence As concessões associadas ao volume. Confira a concessão.
lifecycle Map Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído. Veja o ciclo de vida.
name String O nome do volume.
schema_name String O nome do esquema em que o volume está.
storage_location String O local de armazenamento na nuvem.
volume_type String O tipo de volume, que pode ser EXTERNAL ou MANAGED. Um volume externo está localizado no local externo especificado. Um volume gerenciado está localizado no local padrão especificado pelo esquema pai, pelo catálogo pai ou pelo metastore. Consulte Volumes gerenciados versus externos.

Example

O exemplo a seguir cria um volume do Catálogo do Unity com a chave my_volume_id:

resources:
  volumes:
    my_volume_id:
      catalog_name: main
      name: my_volume
      schema_name: my_schema

Para um pacote de exemplo que executa um trabalho que grava em um arquivo no volume do Catálogo do Unity, consulte o repositório GitHub de pacotes de exemplo.

Objetos comuns

subvenção

Type: Map

Defina o principal e os privilégios para conceder a esse principal. Para obter mais informações sobre concessões, confira Mostrar, conceder e revogar privilégios.

Key Tipo Description
principal String O nome do principal que receberá privilégios. Isso pode ser um usuário, grupo ou entidade de serviço.
privileges Sequence Os privilégios a serem concedidos à entidade especificada. Os valores válidos dependem do tipo de recurso (por exemplo, SELECT, MODIFY, CREATE, USAGE, READ_FILES, WRITE_FILES, EXECUTE, ALL_PRIVILEGES).

Example

O exemplo a seguir define um esquema do Catálogo do Unity com concessões:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

ciclo de vida

Type: Map

Contém as configurações de ciclo de vida de um recurso. Ele controla o comportamento do recurso quando ele é implantado ou destruído.

Key Tipo Description
prevent_destroy booleano Configuração do ciclo de vida para impedir que o recurso seja destruído.