Compartilhar via


Visão geral da configuração de ingestão do SharePoint

Saiba mais sobre os métodos de autenticação com suporte para ingestão do SharePoint no Azure Databricks.

Importante

O conector gerenciado do SharePoint está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Dica

Esta página aborda o conector gerenciado do SharePoint para ingerir arquivos não estruturados (PDFs, DOCX e muito mais) para uso em aplicativos como o RAG.

Para criar pipelines personalizados com o conector do SharePoint, fornecendo controle total sobre análise, transformações e ingestão de arquivos estruturados (por exemplo, CSV e Excel) e arquivos não estruturados em tabelas Delta, consulte Ingestão de arquivos do SharePoint.

Escolha seu conector do SharePoint

O Lakeflow Connect oferece dois conectores complementares do SharePoint. Ambos acessam dados no SharePoint, mas dão suporte a metas distintas.

Consideração Conector gerenciado do SharePoint Conector padrão do SharePoint
Gerenciamento e personalização Um conector totalmente gerenciado.
Conectores simples e de baixa manutenção para aplicativos empresariais que ingerem dados em tabelas Delta e os mantêm sincronizados com a origem. Consulte Conectores gerenciados no Lakeflow Connect.
Crie pipelines de ingestão personalizados com SQL, PySpark, ou Pipelines Declarativos Lakeflow Spark usando APIs de lote e streaming, como read_files, spark.read, COPY INTO, e Auto Loader.
Oferece a flexibilidade de executar transformações complexas durante o processo de ingestão, enquanto atribui a você maior responsabilidade pelo gerenciamento e manutenção de seus pipelines.
Formato da saída Tabela de conteúdo binário uniforme. Ingere cada arquivo no formato binário (um arquivo por linha), juntamente com metadados de arquivo em
colunas adicionais
Tabelas Delta estruturadas. Ingere arquivos estruturados (como CSV e Excel) como tabelas Delta. Também pode ser usado para ingerir
arquivos não estruturados no formato binário.
Granularidade, filtragem e seleção Nenhuma subpasta ou seleção de nível de arquivo hoje. Nenhuma filtragem baseada em padrão.
Ingere todos os arquivos na biblioteca de documentos do SharePoint especificada.
Granular e personalizado.
Seleção baseada em URL a ser ingerida de bibliotecas de documentos, subpastas ou arquivos individuais. Também dá suporte à filtragem baseada em padrões usando a opção pathGlobFilter .

Quais métodos de autenticação têm suporte?

O conector do SharePoint dá suporte aos seguintes métodos de autenticação:

Qual método de autenticação devo escolher?

Na maioria dos cenários, o Databricks recomenda OAuth de máquina a máquina (M2M). Permissões do conector de escopos M2M para um site específico. No entanto, se você quiser definir o escopo de permissões para o que o usuário autenticado pode acessar, escolha OAuth usuário-para-máquina (U2M). Ambos os métodos oferecem atualização de token automatizada e segurança aumentada.

A autenticação manual de atualização de token é considerada um método herdado e não é recomendada.

U2M em comparação com M2M

A tabela a seguir compara U2M e M2M para autenticação com o SharePoint:

Característica OAuth U2M OAuth M2M
Tipo de autenticação Acesso delegado (baseado no usuário) Acesso exclusivo por aplicativo (entidade de serviço)
Interação do usuário necessária Sim – o usuário deve entrar Não – Totalmente automatizado
Mais adequado para Cenários de acesso específicos do usuário Pipelines de produção automatizados
Atualização de token Manipulado automaticamente pelo Azure Databricks Manipulado automaticamente pelo Azure Databricks
Permissões do SharePoint Permissões delegadas Permissões de aplicativo
Escopo de acesso Limitado às permissões do usuário Definido pelo registro do aplicativo