Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Saiba mais sobre os métodos de autenticação com suporte para ingestão do SharePoint no Azure Databricks.
Importante
O conector gerenciado do SharePoint está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Dica
Esta página aborda o conector gerenciado do SharePoint para ingerir arquivos não estruturados (PDFs, DOCX e muito mais) para uso em aplicativos como o RAG.
Para criar pipelines personalizados com o conector do SharePoint, fornecendo controle total sobre análise, transformações e ingestão de arquivos estruturados (por exemplo, CSV e Excel) e arquivos não estruturados em tabelas Delta, consulte Ingestão de arquivos do SharePoint.
Escolha seu conector do SharePoint
O Lakeflow Connect oferece dois conectores complementares do SharePoint. Ambos acessam dados no SharePoint, mas dão suporte a metas distintas.
| Consideração | Conector gerenciado do SharePoint | Conector padrão do SharePoint |
|---|---|---|
| Gerenciamento e personalização | Um conector totalmente gerenciado. Conectores simples e de baixa manutenção para aplicativos empresariais que ingerem dados em tabelas Delta e os mantêm sincronizados com a origem. Consulte Conectores gerenciados no Lakeflow Connect. |
Crie pipelines de ingestão personalizados com SQL, PySpark, ou Pipelines Declarativos Lakeflow Spark usando APIs de lote e streaming, como read_files, spark.read, COPY INTO, e Auto Loader.Oferece a flexibilidade de executar transformações complexas durante o processo de ingestão, enquanto atribui a você maior responsabilidade pelo gerenciamento e manutenção de seus pipelines. |
| Formato da saída | Tabela de conteúdo binário uniforme. Ingere cada arquivo no formato binário (um arquivo por linha), juntamente com metadados de arquivo em colunas adicionais |
Tabelas Delta estruturadas. Ingere arquivos estruturados (como CSV e Excel) como tabelas Delta. Também pode ser usado para ingerir arquivos não estruturados no formato binário. |
| Granularidade, filtragem e seleção | Nenhuma subpasta ou seleção de nível de arquivo hoje. Nenhuma filtragem baseada em padrão. Ingere todos os arquivos na biblioteca de documentos do SharePoint especificada. |
Granular e personalizado. Seleção baseada em URL a ser ingerida de bibliotecas de documentos, subpastas ou arquivos individuais. Também dá suporte à filtragem baseada em padrões usando a opção pathGlobFilter . |
Quais métodos de autenticação têm suporte?
O conector do SharePoint dá suporte aos seguintes métodos de autenticação:
Qual método de autenticação devo escolher?
Na maioria dos cenários, o Databricks recomenda OAuth de máquina a máquina (M2M). Permissões do conector de escopos M2M para um site específico. No entanto, se você quiser definir o escopo de permissões para o que o usuário autenticado pode acessar, escolha OAuth usuário-para-máquina (U2M). Ambos os métodos oferecem atualização de token automatizada e segurança aumentada.
A autenticação manual de atualização de token é considerada um método herdado e não é recomendada.
U2M em comparação com M2M
A tabela a seguir compara U2M e M2M para autenticação com o SharePoint:
| Característica | OAuth U2M | OAuth M2M |
|---|---|---|
| Tipo de autenticação | Acesso delegado (baseado no usuário) | Acesso exclusivo por aplicativo (entidade de serviço) |
| Interação do usuário necessária | Sim – o usuário deve entrar | Não – Totalmente automatizado |
| Mais adequado para | Cenários de acesso específicos do usuário | Pipelines de produção automatizados |
| Atualização de token | Manipulado automaticamente pelo Azure Databricks | Manipulado automaticamente pelo Azure Databricks |
| Permissões do SharePoint | Permissões delegadas | Permissões de aplicativo |
| Escopo de acesso | Limitado às permissões do usuário | Definido pelo registro do aplicativo |