Partilhar via


Gerir as dependências do Python para os pipelines

O Lakeflow Spark Declarative Pipelines suporta dependências externas em seus pipelines. O Databricks recomenda o uso de um dos dois padrões para instalar pacotes Python:

  1. Use as configurações de Ambiente para adicionar pacotes ao ambiente de pipeline para todos os arquivos de origem em um pipeline.
  2. Importe módulos ou bibliotecas do código-fonte armazenado em arquivos de espaço de trabalho. Consulte Importar módulos Python de pastas Git ou ficheiros de espaço de trabalho.

Os pipelines também oferecem suporte ao uso de scripts init globais e com escopo de cluster. No entanto, essas dependências externas, particularmente scripts de inicialização, aumentam o risco de problemas com atualizações durante a execução. Para reduzir esses riscos, minimize o uso de scripts init em seus pipelines. Se o seu processamento exigir scripts init, automatize os testes do seu pipeline para detetar problemas antecipadamente. Se você usar scripts init, o Databricks recomenda aumentar a frequência de teste.

Importante

Como as bibliotecas JVM não são suportadas em pipelines, não use um script de inicialização para instalar bibliotecas JVM. No entanto, você pode instalar outros tipos de biblioteca, como bibliotecas Python, com um script init.

bibliotecas Python

Para especificar bibliotecas Python externas, edite o ambiente para seu pipeline.

  1. No editor de pipeline, clique em Configurações.
  2. Em Ambiente de pipeline, selecione Ícone de lápis.Editar ambiente.
  3. Clique no ícone Mais.Adicionar dependência.
  4. Digite o nome da dependência. Databricks recomenda bloquear a versão da biblioteca. Por exemplo, para adicionar uma dependência na simplejson versão 3.19, digite simplejson==3.19.*.

Você também pode instalar um pacote de roda Python a partir de um volume do Catálogo Unity, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Posso usar bibliotecas Scala ou Java em pipelines?

Não, os pipelines suportam apenas SQL e Python. Não é possível usar bibliotecas JVM em um pipeline. A instalação de bibliotecas JVM causará um comportamento imprevisível e poderá apresentar incompatibilidade com futuras versões do Lakeflow Spark Declarative Pipelines. Se o pipeline usar um script init, você também deverá garantir que as bibliotecas JVM não sejam instaladas pelo script.