Plataformas de dados suportadas na Máquina Virtual de Ciência de Dados

Com uma máquina virtual de ciência de dados (DSVM), você pode criar seus recursos de análise em relação a uma ampla variedade de plataformas de dados. Além de interfaces para plataformas de dados remotas, a DSVM fornece uma instância local para desenvolvimento rápido e prototipagem.

A DSVM suporta estas ferramentas de plataforma de dados:

SQL Server Developer Edition

Categoria	Value
O que é?	Uma instância de banco de dados relacional local
Edições DSVM suportadas	Windows 2019, Linux (SQL Server 2019)
Utilizações típicas	Desenvolvimento local rápido, com um conjunto de dados mais pequeno Executar no banco de dados R
Links para exemplos	Uma pequena amostra de um conjunto de dados da cidade de Nova York é carregada no banco de dados SQL: `nyctaxi` Encontre um exemplo do Jupyter que mostre o Microsoft Machine Learning Server e a análise no banco de dados em: `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
Ferramentas relacionadas na DSVM	SQL Server Management Studio Drivers ODBC/JDBC pyodbc, RODBC

Nota

O SQL Server Developer Edition só pode ser usado para fins de desenvolvimento e teste. Você precisa de uma licença ou uma das VMs do SQL Server para executá-lo em produção.

Nota

O suporte para Machine Learning Server Standalone terminou em 1º de julho de 2021. Vamos removê-lo das imagens DSVM após 30 de junho. As implantações existentes continuarão a ter acesso ao software, mas devido à data de término do suporte atingida, o suporte para ele terminou após 1º de julho de 2021.

Nota

Removeremos o SQL Server Developer Edition das imagens DSVM até o final de novembro de 2021. As implantações existentes continuarão a ter o SQL Server Developer Edition instalado. Em novos deployemnts, se você quiser ter acesso ao SQL Server Developer Edition, poderá instalar e usar o SQL Server Developer Edition por meio do suporte ao Docker. Visite Guia de início rápido: executar imagens de contêiner do SQL Server com o Docker para obter mais informações.

Windows

Configurar

O servidor de banco de dados já está pré-configurado e os serviços do Windows relacionados ao SQL Server (por exemplo, SQL Server (MSSQLSERVER)) estão definidos para serem executados automaticamente. A única etapa manual envolve habilitar a análise no banco de dados por meio do uso do Microsoft Machine Learning Server. Execute o seguinte comando para habilitar a análise como uma ação única no SQL Server Management Studio (SSMS). Execute este comando depois de efetuar login como administrador da máquina, abra uma nova consulta no SSMS e selecione o master banco de dados:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(Substitua %COMPUTERNAME% pelo nome da VM.)

Para executar o SQL Server Management Studio, você pode pesquisar "SQL Server Management Studio" na lista de programas ou usar o Windows Search para localizá-lo e executá-lo. Quando as credenciais forem solicitadas, selecione Autenticação do Windows e use o nome da máquina ou localhost no campo Nome do SQL Server.

Como usá-lo e executá-lo

Por padrão, o servidor de banco de dados com a instância de banco de dados padrão é executado automaticamente. Você pode usar ferramentas como o SQL Server Management Studio na VM para acessar o banco de dados do SQL Server localmente. As contas de administrador local têm acesso de administrador no banco de dados.

Além disso, a DSVM vem com drivers ODBC e JDBC para conversar

SQL Server
Bancos de dados SQL do Azure
Recursos do Azure Synapse Analytics de aplicativos escritos em várias linguagens, incluindo Python e Servidor de Aprendizado de Máquina.

Como ele é configurado e instalado na DSVM?

O SQL Server é instalado da maneira padrão. Você pode encontrá-lo em C:\Program Files\Microsoft SQL Server. Você pode encontrar a instância do Servidor de Aprendizado de Máquina no banco de dados em C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. A DSVM também tem uma instância autônoma separada do Servidor de Aprendizado de Máquina, instalada em C:\Program Files\Microsoft\R Server\R_SERVER. Essas duas instâncias do Servidor de Aprendizado de Máquina não compartilham bibliotecas.

Ubuntu

Você deve primeiro instalar o SQL Server Developer Edition em uma DSVM do Ubuntu antes de usá-lo. Visite Guia de início rápido: instale o SQL Server e crie um banco de dados no Ubuntu para obter mais informações.

Apache Spark 2.x (Autônomo)

Categoria	Value
O que é?	Uma instância autônoma (nó único em processo) da popular plataforma Apache Spark; um sistema para processamento de dados rápido e em grande escala e aprendizagem automática
Edições DSVM suportadas	Linux
Utilizações típicas	Desenvolvimento rápido de aplicativos Spark/PySpark localmente com um conjunto de dados menor e implantação posterior em clusters Spark grandes, como o Azure HDInsight Testar o contexto do Microsoft Machine Learning Server Spark Use o SparkML ou a biblioteca MMLSpark de código aberto da Microsoft para criar aplicativos de ML
Links para exemplos	Amostra de Jupyter: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Servidor Microsoft Machine Learning (contexto Spark): /dsvm/samples/MRS/MRSSparkContextSample.R
Ferramentas relacionadas na DSVM	PySpark, Scala Jupyter (Kernel Spark/PySpark) Servidor Microsoft Machine Learning, SparkR, Sparklyr Apache Drill

Como utilizá-lo

Você pode executar o spark-submit comando ou pyspark para enviar trabalhos do Spark na linha de comando. Você também pode criar um novo bloco de anotações com o kernel do Spark para criar um bloco de anotações Jupyter.

Para usar o Spark a partir de R, use bibliotecas como SparkR, Sparklyr e Microsoft Machine Learning Server, que estão disponíveis na DSVM. Consulte os links para exemplos na tabela anterior.

Configurar

Antes de executar em um contexto Spark no Microsoft Machine Learning Server no Ubuntu Linux DSVM edition, você deve concluir uma etapa de configuração única para habilitar uma instância Hadoop HDFS e Yarn de nó único local. Por padrão, os serviços Hadoop são instalados, mas desabilitados na DSVM. Para habilitá-los, execute estes comandos como root pela primeira vez:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Para interromper os serviços relacionados ao Hadoop quando você não precisar mais deles, execute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Um exemplo que demonstra como desenvolver e testar o MRS em um contexto remoto do Spark (a instância autônoma do Spark na DSVM) é fornecido e está disponível no /dsvm/samples/MRS diretório.

Como ele é configurado e instalado na DSVM?

Plataforma	Local de instalação ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

As bibliotecas para acessar dados do armazenamento de Blob do Azure ou do Armazenamento do Azure Data Lake, usando as bibliotecas de aprendizado de máquina do Microsoft MMLSpark, são pré-instaladas no $SPARK_HOME/jars. Esses JARs são carregados automaticamente quando o Spark é iniciado. Por padrão, o Spark usa dados localizados no disco local.

A instância do Spark na DSVM pode acessar dados armazenados no armazenamento de Blob ou no Armazenamento do Azure Data Lake. Você deve primeiro criar e configurar o core-site.xml arquivo, com base no modelo encontrado em $SPARK_HOME/conf/core-site.xml.template. Você também deve ter as credenciais apropriadas para acessar o armazenamento de Blob e o Armazenamento do Azure Data Lake. Os arquivos de modelo usam espaços reservados para armazenamento de Blob e configurações de Armazenamento do Azure Data Lake.

Para obter mais informações sobre a criação de credenciais de serviço do Armazenamento do Azure Data Lake, visite Autenticação com o Azure Data Lake Storage Gen1. Depois de inserir as credenciais para armazenamento de Blob ou Armazenamento Azure Data Lake no arquivo core-site.xml, você pode fazer referência aos dados armazenados nessas fontes por meio do prefixo URI de wasb:// ou adl://.

Feedback

Esta página foi útil?

Last updated on 2024-09-01

Partilhar via

Plataformas de dados suportadas na Máquina Virtual de Ciência de Dados

SQL Server Developer Edition

Windows

Configurar

Como usá-lo e executá-lo

Como ele é configurado e instalado na DSVM?

Ubuntu

Apache Spark 2.x (Autônomo)

Como utilizá-lo

Configurar

Como ele é configurado e instalado na DSVM?

Feedback

Recursos adicionais