Compartir a través de


Selección de columnas para ingerir

Se aplica a: marcado como sí creación de canalizaciones basadas en API marcado como sí Conectores SaaS marcado como sí Conectores de base de datos

De forma predeterminada, los conectores administrados de Lakeflow Connect ingieren todas las columnas actuales y futuras de las tablas especificadas. Opcionalmente, use una de las siguientes propiedades de configuración de tabla en la definición de canalización para seleccionar o anular la selección de columnas específicas para la ingesta:

Propiedad Description
include_columns Opcionalmente, especifique una lista de columnas que se van a incluir para la ingesta. Si usa esta opción para incluir explícitamente columnas, la canalización excluye automáticamente las columnas que se agregan al origen en el futuro. Para ingerir las columnas futuras, debe agregarlas a la lista.
exclude_columns Opcionalmente, especifique una lista de columnas que se excluirán de la ingesta. Si usa esta opción para excluir explícitamente columnas, la canalización incluye de forma automática las columnas que se agregan al origen en el futuro.

Las definiciones de canalización de ejemplo de esta página muestran cómo seleccionar tres columnas específicas para la ingesta, en función de la interfaz de creación de canalizaciones. Para anular la selección de columnas específicas en su lugar, especifique exclude_columns en la configuración de la tabla.

Ejemplo: Google Analytics

Conjuntos de recursos de Databricks

resources:
  pipelines:
    pipeline_ga4:
      name: <pipeline>
      catalog: <target-catalog>
      schema: <target-schema>
      ingestion_definition:
        connection_name: <connection>
        objects:
          - table:
              source_url: <project-id>
              source_schema: <property-name>
              destination_catalog: <destination-catalog>
              destination_schema: <destination-schema>
              table_configuration:
                include_columns:
                  - <column_a>
                  - <column_b>
                  - <column_c>

Notebook de Databricks

pipeline_spec = """
{
  "name": "<pipeline>",
  "ingestion_definition": {
    "connection_name": "<connection>",
    "objects": [
      {
        "table": {
          "source_catalog": "<project-id>",
          "source_schema": "<property-name>",
          "source_table": "<source-table>",
          "destination_catalog": "<target-catalog>",
          "destination_schema": "<target-schema>",
          "table_configuration": {
            "include_columns": ["<column_a>", "<column_b>", "<column_c>"]
          }
        }
      }
    ]
  }
}
"""

CLI de Databricks

{
  "resources": {
    "pipelines": {
      "pipeline_ga4": {
        "name": "<pipeline>",
        "catalog": "<target-catalog>",
        "schema": "<target-schema>",
        "ingestion_definition": {
          "connection_name": "<connection>",
          "objects": [
            {
              "table": {
                "source_url": "<project-id>",
                "source_schema": "<property-name>",
                "destination_catalog": "<destination-catalog>",
                "destination_schema": "<destination-schema>",
                "table_configuration": {
                  "include_columns": ["<column_a>", "<column_b>", "<column_c>"]
                }
              }
            }
          ]
        }
      }
    }
  }
}

Ejemplo: Salesforce

Conjuntos de recursos de Databricks

resources:
  pipelines:
    pipeline_sfdc:
      name: <pipeline>
      catalog: <target-catalog>
      schema: <target-schema>
      ingestion_definition:
        connection_name: <connection>
        objects:
          - table:
              source_schema: <source-schema>
              source_table: <source-table>
              destination_catalog: <destination-catalog>
              destination_schema: <destination-schema>
              table_configuration:
                include_columns:
                  - <column_a>
                  - <column_b>
                  - <column_c>

Notebook de Databricks

pipeline_spec = """
{
  "name": "<pipeline>",
  "ingestion_definition": {
    "connection_name": "<connection>",
    "objects": [
      {
        "table": {
          "source_catalog": "<source-catalog>",
          "source_schema": "<source-schema>",
          "source_table": "<source-table>",
          "destination_catalog": "<target-catalog>",
          "destination_schema": "<target-schema>",
          "table_configuration": {
            "include_columns": ["<column_a>", "<column_b>", "<column_c>"]
          }
        }
      }
    ]
  }
}
"""

CLI de Databricks

{
  "resources": {
    "pipelines": {
      "pipeline_sfdc": {
        "name": "<pipeline>",
        "catalog": "<target-catalog>",
        "schema": "<target-schema>",
        "ingestion_definition": {
          "connection_name": "<connection>",
          "objects": [
            {
              "table": {
                "source_schema": "<source-schema>",
                "source_table": "<source-table>",
                "destination_catalog": "<destination-catalog>",
                "destination_schema": "<destination-schema>",
                "table_configuration": {
                  "include_columns": ["<column_a>", "<column_b>", "<column_c>"]
                }
              }
            }
          ]
        }
      }
    }
  }
}

Ejemplo: Workday

Conjuntos de recursos de Databricks

resources:
  pipelines:
    pipeline_workday:
      name: <pipeline>
      catalog: <target-catalog>
      schema: <target-schema>
      ingestion_definition:
        connection_name: <connection>
        objects:
          - report:
              source_url: <report-url>
              destination_catalog: <destination-catalog>
              destination_schema: <destination-schema>
              table_configuration:
                include_columns:
                  - <column_a>
                  - <column_b>
                  - <column_c>

Notebook de Databricks

pipeline_spec = """
{
  "name": "<pipeline>",
  "ingestion_definition": {
    "connection_name": "<connection>",
    "objects": [
      {
        "report": {
          "source_url": "<report-url>",
          "destination_catalog": "<target-catalog>",
          "destination_schema": "<target-schema>",
          "table_configuration": {
            "include_columns": ["<column_a>", "<column_b>", "<column_c>"]
          }
        }
      }
    ]
  }
}
"""

CLI de Databricks

{
  "resources": {
    "pipelines": {
      "pipeline_workday": {
        "name": "<pipeline>",
        "catalog": "<target-catalog>",
        "schema": "<target-schema>",
        "ingestion_definition": {
          "connection_name": "<connection>",
          "objects": [
            {
              "report": {
                "source_url": "<report-url>",
                "destination_catalog": "<destination-catalog>",
                "destination_schema": "<destination-schema>",
                "table_configuration": {
                  "include_columns": ["<column_a>", "<column_b>", "<column_c>"]
                }
              }
            }
          ]
        }
      }
    }
  }
}