Partilhar via


Propriedades de configuração do Apache Spark > Apache Hadoop (HDFS)

Aplica-se a:SQL Server 2019 (15.x)

Important

Os Clusters de Big Data do Microsoft SQL Server 2019 foram desativados. O suporte para clusters de Big Data do SQL Server 2019 terminou em 28 de fevereiro de 2025. Para obter mais informações, consulte a postagem no blog de anúncios e as opções de Big Data na plataforma microsoft SQL Server.

Os Clusters de Big Data dão suporte ao tempo de implantação e à configuração de tempo pós-implantação dos componentes apache Spark e Hadoop nos escopos de serviço e recurso. Os Clusters de Big Data usam os mesmos valores de configuração padrão que o respectivo projeto de software livre para a maioria das configurações. As configurações que alteramos são listadas abaixo, juntamente com uma descrição e seu valor padrão. Além do recurso de gateway, não há diferença entre as configurações que são configuráveis no escopo do serviço e no escopo do recurso.

Você pode encontrar todas as configurações possíveis e os padrões para cada um no site de documentação do Apache associado:

As configurações que não damos suporte à configuração também estão listadas abaixo.

Note

Para incluir o Spark no pool de armazenamento, defina o valor includeSpark booliano no bdc.json arquivo de configuração em spec.resources.storage-0.spec.settings.spark. Consulte Configurar o Apache Spark e o Apache Hadoop em Clusters de Big Data para obter instruções.

Configurações do Spark padrão específicas de Clusters de Big Data

As configurações do Spark abaixo são aquelas que têm padrões específicos do BDC, mas são configuráveis pelo usuário. As configurações gerenciadas pelo sistema não estão incluídas.

Setting Name Description Tipo Default Value
capacity-scheduler.yarn.scheduler.capacity.maximum-applications Número máximo de aplicativos no sistema que podem ser ativos simultaneamente em execução e pendentes. int 10000
capacity-scheduler.yarn.scheduler.capacity.resource-calculator A implementação do ResourceCalculator a ser usada para comparar recursos no agendador. cadeia org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
capacity-scheduler.yarn.scheduler.capacity.root.queues O agendador de capacidade com fila predefinida chamada raiz. cadeia padrão
capacity-scheduler.yarn.scheduler.capacity.root.default.capacity Capacidade da fila em porcentagem (%) como capacidade mínima da fila de recursos absoluta para fila raiz. int 100
spark-defaults-conf.spark.driver.cores Número de núcleos a serem usados para o processo de driver, somente no modo de cluster. int 1
spark-defaults-conf.spark.driver.memoryOverhead A quantidade de memória fora do heap a ser alocada por driver no modo de cluster. int 384
spark-defaults-conf.spark.executor.instances O número de executores para alocação estática. int 1
spark-defaults-conf.spark.executor.cores O número de núcleos a serem usados em cada executor. int 1
spark-defaults-conf.spark.driver.memory Quantidade de memória a ser usada para o processo de driver. cadeia 1g
spark-defaults-conf.spark.executor.memory Quantidade de memória a ser usada por processo de executor. cadeia 1g
spark-defaults-conf.spark.executor.memoryOverhead A quantidade de memória fora do heap a ser alocada por executor. int 384
yarn-site.yarn.nodemanager.resource.memory-mb Quantidade de memória física, em MB, que pode ser alocada para contêineres. int 8192
yarn-site.yarn.scheduler.maximum-allocation-mb A alocação máxima para cada solicitação de contêiner no gerenciador de recursos. int 8192
yarn-site.yarn.nodemanager.resource.cpu-vcores Número de núcleos de CPU que podem ser alocados para contêineres. int 32
yarn-site.yarn.scheduler.maximum-allocation-vcores A alocação máxima para cada solicitação de contêiner no gerenciador de recursos, em termos de núcleos de CPU virtual. int 8
yarn-site.yarn.nodemanager.linux-container-executor.secure-mode.pool-user-count O número de usuários do pool para o executor de contêiner linux no modo seguro. int 6
yarn-site.yarn.scheduler.capacity.maximum-am-resource-percent Percentual máximo de recursos no cluster que podem ser usados para executar mestres de aplicativos. derivar 0.1
yarn-site.yarn.nodemanager.container-executor.class Executores de contêiner para um sistema operacional específico. cadeia org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor
capacity-scheduler.yarn.scheduler.capacity.root.default.user-limit-factor O múltiplo da capacidade da fila que pode ser configurado para permitir que um único usuário adquira mais recursos. int 1
capacity-scheduler.yarn.scheduler.capacity.root.default.maximum-capacity Capacidade máxima da fila em porcentagem (%) como um OR flutuante como capacidade máxima de fila de recursos absoluta. Definir esse valor como -1 define a capacidade máxima como 100%. int 100
capacity-scheduler.yarn.scheduler.capacity.root.default.state O estado da fila pode ser um de Execução ou Parado. cadeia RUNNING
capacity-scheduler.yarn.scheduler.capacity.root.default.maximum-application-lifetime Tempo máximo de vida de um aplicativo que é enviado para uma fila em segundos. Qualquer valor menor ou igual a zero será considerado como desabilitado. int -1
capacity-scheduler.yarn.scheduler.capacity.root.default.default-application-lifetime Tempo de vida padrão de um aplicativo que é enviado para uma fila em segundos. Qualquer valor menor ou igual a zero será considerado como desabilitado. int -1
capacity-scheduler.yarn.scheduler.capacity.node-locality-delay Número de oportunidades de agendamento perdidas após as quais o CapacityScheduler tenta agendar contêineres locais de rack. int 40
capacity-scheduler.yarn.scheduler.capacity.rack-locality-additional-delay Número de oportunidades adicionais de agendamento perdidas em relação às de atraso de localidade de nó, após as quais o CapacityScheduler tenta agendar contêineres desativados. int -1
hadoop-env.HADOOP_HEAPSIZE_MAX Tamanho máximo de heap padrão de todos os processos de JVM do Hadoop. int 2048
yarn-env.YARN_RESOURCEMANAGER_HEAPSIZE Tamanho do heap do Yarn ResourceManager. int 2048
yarn-env.YARN_NODEMANAGER_HEAPSIZE Tamanho do heap de Yarn NodeManager. int 2048
mapred-env.HADOOP_JOB_HISTORYSERVER_HEAPSIZE Tamanho do heap do Hadoop Job HistoryServer. int 2048
hive-env.HADOOP_HEAPSIZE Tamanho do heap do Hadoop para Hive. int 2048
livy-conf.livy.server.session.timeout-check Verifique se há tempo limite da sessão do servidor Livy. bool true
livy-conf.livy.server.session.timeout-check.skip-busy Ignorar ocupado para verificar o tempo limite da sessão do servidor Livy. bool true
livy-conf.livy.server.session.timeout Tempo limite para a sessão do servidor livy em (ms/s/m | min/h/d/y). cadeia 2h
livy-conf.livy.server.yarn.poll-interval Intervalo de sondagem para yarn no servidor Livy em (ms/s/m | min/h/d/y). cadeia 500ms
livy-conf.livy.rsc.jars Jars livy RSC. cadeia local:/opt/livy/rsc-jars/livy-api.jar,local:/opt/livy/rsc-jars/livy-rsc.jar,local:/opt/livy/rsc-jars/netty-all.jar
livy-conf.livy.repl.jars Jars de repl livy. cadeia local:/opt/livy/repl_2.11-jars/livy-core.jar,local:/opt/livy/repl_2.11-jars/livy-repl.jar,local:/opt/livy/repl_2.11-jars/commons-codec.jar
livy-conf.livy.rsc.sparkr.package Pacote Livy RSC SparkR. cadeia hdfs:///system/livy/sparkr.zip
livy-env.LIVY_SERVER_JAVA_OPTS Opções java do Livy Server. cadeia -Xmx2g
spark-defaults-conf.spark.r.backendConnectionTimeout Tempo limite de conexão definido pelo processo R em sua conexão com RBackend em segundos. int 86400
spark-defaults-conf.spark.pyspark.python Opção python para Spark. cadeia /opt/bin/python3
spark-defaults-conf.spark.yarn.jars Yarn jars. cadeia local:/opt/spark/jars/*
spark-history-server-conf.spark.history.fs.cleaner.maxAge Idade máxima dos arquivos de histórico de trabalho antes de serem excluídos pelo limpador de histórico do sistema de arquivos (ms/s/m | min/h/d/y). cadeia 7d
spark-history-server-conf.spark.history.fs.cleaner.interval Intervalo de limpeza para histórico de spark em (ms/s/m | min/h/d/y). cadeia 12h
hadoop-env.HADOOP_CLASSPATH Define o classpath do Hadoop adicional. cadeia
spark-env.SPARK_DAEMON_MEMORY Memória do Spark Daemon. cadeia 2g
yarn-site.yarn.log-aggregation.retain-seconds Quando a agregação de log está habilitada, essa propriedade determina o número de segundos para reter logs. int 604800
yarn-site.yarn.nodemanager.log-aggregation.compression-type Tipo de compactação para agregação de log para Yarn NodeManager. cadeia gz
yarn-site.yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds Segundos de intervalo para o Monitoramento de Roll na Agregação de Log nodeManager. int 3600
yarn-site.yarn.scheduler.minimum-allocation-mb A alocação mínima para cada solicitação de contêiner no Gerenciador de Recursos, em MBs. int 512
yarn-site.yarn.scheduler.minimum-allocation-vcores A alocação mínima para cada solicitação de contêiner no Gerenciador de Recursos em termos de núcleos de CPU virtuais. int 1
yarn-site.yarn.nm.liveness-monitor.expiry-interval-ms Quanto tempo esperar até que um gerente de nó seja considerado morto. int 180000
yarn-site.yarn.resourcemanager.zk-timeout-ms Tempo limite da sessão 'ZooKeeper' em milissegundos. int 40000
capacity-scheduler.yarn.scheduler.capacity.root.default.acl_application_max_priority A ACL de quem pode enviar aplicativos com prioridade configurada. Por exemplo, [user={name} group={name} max_priority={priority} default_priority={priority}]. cadeia *
includeSpark Booliano para configurar se os trabalhos do Spark podem ou não ser executados no pool de armazenamento. bool true
enableSparkOnK8s Booliano para configurar se habilita ou não o Spark em K8s, que adiciona contêineres para K8s na cabeça do Spark. bool false
sparkVersion A versão do Spark cadeia 2.4
spark-env.PYSPARK_ARCHIVES_PATH Caminho para os jars de arquivo de pyspark usados em trabalhos do Spark. cadeia local:/opt/spark/python/lib/pyspark.zip,local:/opt/spark/python/lib/py4j-0.10.7-src.zip

As seções a seguir listam as configurações sem suporte.

Configurações de HDFS padrão específicas de Clusters de Big Data

As configurações do HDFS abaixo são aquelas que têm padrões específicos do BDC, mas são configuráveis pelo usuário. As configurações gerenciadas pelo sistema não estão incluídas.

Setting Name Description Tipo Default Value
hdfs-site.dfs.replication Replicação de bloco padrão. int 2
hdfs-site.dfs.namenode.provided.enabled Permite que o nó de nome manipule os armazenamentos fornecidos. bool true
hdfs.site.dfs.namenode.mount.acls.enabled Definido como true para herdar ACLs (Listas de Controle de Acesso) de repositórios remotos durante a montagem. bool false
hdfs-site.dfs.datanode.provided.enabled Permite que o nó de dados manipule os armazenamentos fornecidos. bool true
hdfs-site.dfs.datanode.provided.volume.lazy.load Habilite a carga lenta no nó de dados para armazenamentos fornecidos. bool true
hdfs-site.dfs.provided.aliasmap.inmemory.enabled Habilite o mapa de alias na memória para armazenamentos fornecidos. bool true
hdfs-site.dfs.provided.aliasmap.class A classe usada para especificar o formato de entrada dos blocos nos armazenamentos fornecidos. cadeia org.apache.hadoop.hdfs.server.common.blockaliasmap.impl.InMemoryLevelDBAliasMapClient
hdfs-site.dfs.namenode.provided.aliasmap.class A classe usada para especificar o formato de entrada dos blocos em armazenamentos fornecidos para namenode. cadeia org.apache.hadoop.hdfs.server.common.blockaliasmap.impl.NamenodeInMemoryAliasMapClient
hdfs-site.dfs.provided.aliasmap.load.retries Número de repetições no datanode para carregar o aliasmap fornecido. int 0
hdfs-site.dfs.provided.aliasmap.inmemory.batch-size O tamanho do lote ao iterar sobre o banco de dados que faz backup do aliasmap. int 500
hdfs-site.dfs.datanode.provided.volume.readthrough Habilite o readthrough para armazenamentos fornecidos no datanode. bool true
hdfs-site.dfs.provided.cache.capacity.mount Habilite a montagem da capacidade de cache para armazenamentos fornecidos. bool true
hdfs-site.dfs.provided.overreplication.factor Fator de substituição excessiva para armazenamentos fornecidos. Número de blocos de cache no BDC criado por bloco HDFS remoto. derivar 1
hdfs-site.dfs.provided.cache.capacity.fraction Fração de capacidade de cache para armazenamento fornecido. A fração da capacidade total no cluster que pode ser usada para armazenar em cache dados de repositórios fornecidos. derivar 0.01
hdfs-site.dfs.provided.cache.capacity.bytes Capacidade do cluster a ser usada como espaço de cache para blocos fornecidos, em bytes. int -1
hdfs-site.dfs.ls.limit Limite o número de arquivos impressos por ls. int 500
hdfs-env.HDFS_NAMENODE_OPTS Opções de Namenode do HDFS. cadeia -Dhadoop.security.logger=INFO,RFAS -Xmx2g
hdfs-env.HDFS_DATANODE_OPTS Opções de Datanode do HDFS. cadeia -Dhadoop.security.logger=ERROR,RFAS -Xmx2g
hdfs-env.HDFS_ZKFC_OPTS Opções ZKFC do HDFS. cadeia -Xmx1g
hdfs-env.HDFS_JOURNALNODE_OPTS Opções de JournalNode do HDFS. cadeia -Xmx2g
hdfs-env.HDFS_AUDIT_LOGGER Opções do agente de auditoria do HDFS. cadeia INFO,RFAAUDIT
core-site.hadoop.security.group.mapping.ldap.search.group.hierarchy.levels Níveis de hierarquia para o grupo de pesquisa LDAP do Hadoop do site principal. int 10
core-site.fs.permissions.umask-mode Modo umask de permissão. cadeia 077
core-site.hadoop.security.kms.client.failover.max.retries Tentativas máximas para failover do cliente. int 20
zoo-cfg.tickTime Hora do escala para a configuração 'ZooKeeper'. int 2000
zoo-cfg.initLimit Hora de inicialização para a configuração 'ZooKeeper'. int 10
zoo-cfg.syncLimit Tempo de sincronização para a configuração 'ZooKeeper'. int 5
zoo-cfg.maxClientCnxns Max Client connections for 'ZooKeeper' config. int 60
zoo-cfg.minSessionTimeout Tempo limite mínimo da sessão para a configuração 'ZooKeeper'. int 4000
zoo-cfg.maxSessionTimeout Tempo limite máximo da sessão para a configuração 'ZooKeeper'. int 40000
zoo-cfg.autopurge.snapRetainCount Ajustar a contagem de retenção para a configuração 'ZooKeeper' de redefinição automática. int 3
zoo-cfg.autopurge.purgeInterval Intervalo de limpeza para a configuração 'ZooKeeper' de redefinição automática. int 0
zookeeper-java-env.JVMFLAGS Sinalizadores JVM para ambiente Java no 'ZooKeeper'. cadeia -Xmx1G -Xms1G
zookeeper-log4j-properties.zookeeper.console.threshold Limite para o console log4j em 'ZooKeeper'. cadeia INFO
zoo-cfg.zookeeper.request.timeout Controla o tempo limite da solicitação 'ZooKeeper' em milissegundos. int 40000
kms-site.hadoop.security.kms.encrypted.key.cache.size Tamanho do cache para chave criptografada em kms hadoop. int 500

Configurações de Gateway padrão específicas de Clusters de Big Data

As configurações do Gateway abaixo são aquelas que têm padrões específicos do BDC, mas são configuráveis pelo usuário. As configurações gerenciadas pelo sistema não estão incluídas. As configurações de gateway só podem ser configuradas no escopo do recurso .

Setting Name Description Tipo Default Value
gateway-site.gateway.httpclient.socketTimeout Tempo limite do soquete para cliente HTTP no gateway no (ms/s/m). cadeia 90s
gateway-site.sun.security.krb5.debug Depuração para Segurança Kerberos. bool true
knox-env.KNOX_GATEWAY_MEM_OPTS Opções de Memória do Gateway knox. cadeia -Xmx2g

Configurações sem suporte do Spark

spark As configurações a seguir não têm suporte e não podem ser alteradas no contexto do Cluster de Big Data.

Category Sub-Category File Unsupported Configurations
yarn-site yarn-site.xml yarn.log-aggregation-enable
yarn.log.server.url
yarn.nodemanager.pmem-check-enabled
yarn.nodemanager.vmem-check-enabled
yarn.nodemanager.aux-services
yarn.resourcemanager.address
yarn.nodemanager.address
yarn.client.failover-no-ha-proxy-provider
yarn.client.failover-proxy-provider
yarn.http.policy
yarn.nodemanager.linux-container-executor.secure-mode.use-pool-user
yarn.nodemanager.linux-container-executor.secure-mode.pool-user-prefix
yarn.nodemanager.linux-container-executor.nonsecure-mode.local-user
yarn.acl.enable
yarn.admin.acl
yarn.resourcemanager.hostname
yarn.resourcemanager.principal
yarn.resourcemanager.keytab
yarn.resourcemanager.webapp.spnego-keytab-file
yarn.resourcemanager.webapp.spnego-principal
yarn.nodemanager.principal
yarn.nodemanager.keytab
yarn.nodemanager.webapp.spnego-keytab-file
yarn.nodemanager.webapp.spnego-principal
yarn.resourcemanager.ha.enabled
yarn.resourcemanager.cluster-id
yarn.resourcemanager.zk-address
yarn.resourcemanager.ha.rm-ids
yarn.resourcemanager.hostname.*
capacity-scheduler capacity-scheduler.xml yarn.scheduler.capacity.root.acl_submit_applications
yarn.scheduler.capacity.root.acl_administer_queue
yarn.scheduler.capacity.root.default.acl_application_max_priority
yarn-env yarn-env.sh
spark-defaults-conf spark-defaults.conf spark.yarn.archive
spark.yarn.historyServer.address
spark.eventLog.enabled
spark.eventLog.dir
spark.sql.warehouse.dir
spark.sql.hive.metastore.version
spark.sql.hive.metastore.jars
spark.extraListeners
spark.metrics.conf
spark.ssl.enabled
spark.authenticate
spark.network.crypto.enabled
spark.ssl.keyStore
spark.ssl.keyStorePassword
spark.ui.enabled
spark-env spark-env.sh SPARK_NO_DAEMONIZE
SPARK_DIST_CLASSPATH
spark-history-server-conf spark-history-server.conf spark.history.fs.logDirectory
spark.ui.proxyBase
spark.history.fs.cleaner.enabled
spark.ssl.enabled
spark.authenticate
spark.network.crypto.enabled
spark.ssl.keyStore
spark.ssl.keyStorePassword
spark.history.kerberos.enabled
spark.history.kerberos.principal
spark.history.kerberos.keytab
spark.ui.filters
spark.acls.enable
spark.history.ui.acls.enable
spark.history.ui.admin.acls
spark.history.ui.admin.acls.groups
livy-conf livy.conf livy.keystore
livy.keystore.password
livy.spark.master
livy.spark.deploy-mode
livy.rsc.jars
livy.repl.jars
livy.rsc.pyspark.archives
livy.rsc.sparkr.package
livy.repl.enable-hive-context
livy.superusers
livy.server.auth.type
livy.server.launch.kerberos.keytab
livy.server.launch.kerberos.principal
livy.server.auth.kerberos.principal
livy.server.auth.kerberos.keytab
livy.impersonation.enabled
livy.server.access-control.enabled
livy.server.access-control.*
livy-env livy-env.sh
hive-site hive-site.xml javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionDriverName
javax.jdo.option.ConnectionUserName
javax.jdo.option.ConnectionPassword
hive.metastore.uris
hive.metastore.pre.event.listeners
hive.security.authorization.enabled
hive.security.metastore.authenticator.manager
hive.security.metastore.authorization.manager
hive.metastore.use.SSL
hive.metastore.keystore.path
hive.metastore.keystore.password
hive.metastore.truststore.path
hive.metastore.truststore.password
hive.metastore.kerberos.keytab.file
hive.metastore.kerberos.principal
hive.metastore.sasl.enabled
hive.metastore.execute.setugi
hive.cluster.delegation.token.store.class
hive-env hive-env.sh

Configurações de HDFS sem suporte

hdfs As configurações a seguir não têm suporte e não podem ser alteradas no contexto do Cluster de Big Data.

Category Sub-Category File Unsupported Configurations
core-site core-site.xml fs.defaultFS
ha.zookeeper.quorum
hadoop.tmp.dir
hadoop.rpc.protection
hadoop.security.auth_to_local
hadoop.security.authentication
hadoop.security.authorization
hadoop.http.authentication.simple.anonymous.allowed
hadoop.http.authentication.type
hadoop.http.authentication.kerberos.principal
hadoop.http.authentication.kerberos.keytab
hadoop.http.filter.initializers
hadoop.security.group.mapping.*
hadoop.security.key.provider.path
mapred-env mapred-env.sh
hdfs-site hdfs-site.xml dfs.namenode.name.dir
dfs.datanode.data.dir
dfs.namenode.acls.enabled
dfs.namenode.datanode.registration.ip-hostname-check
dfs.client.retry.policy.enabled
dfs.permissions.enabled
dfs.nameservices
dfs.ha.namenodes.nmnode-0
dfs.namenode.rpc-address.nmnode-0.*
dfs.namenode.shared.edits.dir
dfs.ha.automatic-failover.enabled
dfs.ha.fencing.methods
dfs.journalnode.edits.dir
dfs.client.failover.proxy.provider.nmnode-0
dfs.namenode.http-address
dfs.namenode.httpS-address
dfs.http.policy
dfs.encrypt.data.transfer
dfs.block.access.token.enable
dfs.data.transfer.protection
dfs.encrypt.data.transfer.cipher.suites
dfs.https.port
dfs.namenode.keytab.file
dfs.namenode.kerberos.principal
dfs.namenode.kerberos.internal.spnego.principal
dfs.datanode.data.dir.perm
dfs.datanode.address
dfs.datanode.http.address
dfs.datanode.ipc.address
dfs.datanode.https.address
dfs.datanode.keytab.file
dfs.datanode.kerberos.principal
dfs.journalnode.keytab.file
dfs.journalnode.kerberos.principal
dfs.journalnode.kerberos.internal.spnego.principal
dfs.web.authentication.kerberos.keytab
dfs.web.authentication.kerberos.principal
dfs.webhdfs.enabled
dfs.permissions.superusergroup
hdfs-env hdfs-env.sh HADOOP_HEAPSIZE_MAX
zoo-cfg zoo.cfg secureClientPort
clientPort
dataDir
dataLogDir
4lw.commands.whitelist
zookeeper-java-env java.env ZK_LOG_DIR
SERVER_JVMFLAGS
zookeeper-log4j-properties log4j.properties (zookeeper) log4j.rootLogger
log4j.appender.CONSOLE.*

Note

Este artigo contém o termo whitelist, um termo que a Microsoft considera insensível neste contexto. O termo aparece neste artigo porque ele atualmente aparece no software. Quando o termo for removido do software, também o removeremos do artigo.

Configurações sem suporte gateway

gateway As configurações a seguir não têm suporte e não podem ser alteradas no contexto do Cluster de Big Data.

Category Sub-Category File Unsupported Configurations
gateway-site gateway-site.xml gateway.port
gateway.path
gateway.gateway.conf.dir
gateway.hadoop.kerberos.secured
java.security.krb5.conf
java.security.auth.login.config
gateway.websocket.feature.enabled
gateway.scope.cookies.feature.enabled
ssl.exclude.protocols
ssl.include.ciphers

Next steps

Configurar clusters de Big Data do SQL Server