Partilhar via


Visão geral da configuração da ingestão do SharePoint

Saiba mais sobre os métodos de autenticação suportados para a ingestão do SharePoint no Azure Databricks.

Importante

O conector SharePoint gerido está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Sugestão

Esta página cobre o conector SharePoint controlado para o processamento de ficheiros não estruturados (PDFs, DOCX e mais) para utilização em aplicações, como o RAG.

Para construir pipelines personalizados com o conector SharePoint, proporcionando controlo total sobre a análise, transformações e ingestão tanto de ficheiros estruturados (por exemplo, CSV e Excel) como de ficheiros não estruturados em tabelas Delta, consulte Integrar ficheiros do SharePoint.

Escolha o seu conector SharePoint

O Lakeflow Connect oferece dois conectores SharePoint complementares. Ambos acedem a dados no SharePoint, mas apoiam objetivos distintos.

Consideração Conector SharePoint Gerido Conector SharePoint padrão
Gestão e personalização Um conector totalmente gerido.
Conectores simples e de baixa manutenção para aplicações empresariais que ingerem dados em tabelas Delta e os mantêm sincronizados com a fonte. Consulte Conectores gerenciados no Lakeflow Connect.
Construa pipelines de ingestão personalizados com SQL, PySpark ou Lakeflow Spark Declarative Pipelines usando APIs batch e de streaming como read_files, spark.read, COPY INTO, e Auto Loader.
Oferece flexibilidade para realizar transformações complexas durante a ingestão, ao mesmo tempo que lhe dá maior responsabilidade na gestão e manutenção dos seus oleodutos.
Formato de saída Tabela uniforme de conteúdo binário. Ingere cada ficheiro em formato binário (um ficheiro por linha), juntamente com os metadados do ficheiro em
colunas adicionais.
Tabelas Delta estruturadas. Ingere ficheiros estruturados (como CSV e Excel) como tabelas Delta. Também pode ser usado para ingerir
ficheiros não estruturados em formato binário.
Granularidade, filtragem e seleção Hoje não há seleção de subpasta ou nível de ficheiro. Sem filtragem baseada em padrões.
Ingere todos os ficheiros na biblioteca de documentos SharePoint especificada.
Granular e personalizado.
Seleção baseada em URL para ingerir a partir de bibliotecas de documentos, subpastas ou ficheiros individuais. Também suporta filtragem baseada em padrões usando a pathGlobFilter opção.

Que métodos de autenticação são suportados?

O conector SharePoint suporta os seguintes métodos de autenticação:

Qual método de autenticação devo escolher?

Na maioria dos cenários, o Databricks recomenda OAuth máquina-a-máquina (M2M). O M2M estende permissões de conectores para um local específico. No entanto, se quiseres definir permissões para o que o utilizador que está a autenticar-se pode aceder, escolhe utilizador-para-máquina (U2M) OAuth em vez disso. Ambos os métodos oferecem atualização automática de tokens e segurança reforçada.

A autenticação manual por atualização de token é considerada um método legado e não é recomendada.

U2M comparado com M2M

A tabela seguinte compara U2M e M2M para autenticação ao SharePoint:

Característica OAuth U2M OAuth M2M
Tipo de autenticação Acesso delegado (baseado no utilizador) Acesso apenas por aplicação (principal de serviço)
É necessária interação do utilizador Sim - O utilizador deve iniciar sessão Não - Totalmente automatizado
Melhor para Cenários de acesso específicos do utilizador Pipelines de produção automatizados
Atualização de token Tratado automaticamente pelo Azure Databricks Tratado automaticamente pelo Azure Databricks
Permissões do SharePoint Permissões delegadas Permissões de aplicações
Âmbito de acesso Limitado às permissões do utilizador Definido pelo registo da aplicação