Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Com uma máquina virtual de ciência de dados (DSVM), você pode criar seus recursos de análise em relação a uma ampla variedade de plataformas de dados. Além de interfaces para plataformas de dados remotas, a DSVM fornece uma instância local para desenvolvimento rápido e prototipagem.
A DSVM suporta estas ferramentas de plataforma de dados:
SQL Server Developer Edition
| Categoria | Value |
|---|---|
| O que é? | Uma instância de banco de dados relacional local |
| Edições DSVM suportadas | Windows 2019, Linux (SQL Server 2019) |
| Utilizações típicas |
|
| Links para exemplos |
|
| Ferramentas relacionadas na DSVM |
|
Nota
O SQL Server Developer Edition só pode ser usado para fins de desenvolvimento e teste. Você precisa de uma licença ou uma das VMs do SQL Server para executá-lo em produção.
Nota
O suporte para Machine Learning Server Standalone terminou em 1º de julho de 2021. Vamos removê-lo das imagens DSVM após 30 de junho. As implantações existentes continuarão a ter acesso ao software, mas devido à data de término do suporte atingida, o suporte para ele terminou após 1º de julho de 2021.
Nota
Removeremos o SQL Server Developer Edition das imagens DSVM até o final de novembro de 2021. As implantações existentes continuarão a ter o SQL Server Developer Edition instalado. Em novos deployemnts, se você quiser ter acesso ao SQL Server Developer Edition, poderá instalar e usar o SQL Server Developer Edition por meio do suporte ao Docker. Visite Guia de início rápido: executar imagens de contêiner do SQL Server com o Docker para obter mais informações.
Windows
Configurar
O servidor de banco de dados já está pré-configurado e os serviços do Windows relacionados ao SQL Server (por exemplo, SQL Server (MSSQLSERVER)) estão definidos para serem executados automaticamente. A única etapa manual envolve habilitar a análise no banco de dados por meio do uso do Microsoft Machine Learning Server. Execute o seguinte comando para habilitar a análise como uma ação única no SQL Server Management Studio (SSMS). Execute este comando depois de efetuar login como administrador da máquina, abra uma nova consulta no SSMS e selecione o master banco de dados:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Substitua %COMPUTERNAME% pelo nome da VM.)
Para executar o SQL Server Management Studio, você pode pesquisar "SQL Server Management Studio" na lista de programas ou usar o Windows Search para localizá-lo e executá-lo. Quando as credenciais forem solicitadas, selecione Autenticação do Windows e use o nome da máquina ou localhost no campo Nome do SQL Server.
Como usá-lo e executá-lo
Por padrão, o servidor de banco de dados com a instância de banco de dados padrão é executado automaticamente. Você pode usar ferramentas como o SQL Server Management Studio na VM para acessar o banco de dados do SQL Server localmente. As contas de administrador local têm acesso de administrador no banco de dados.
Além disso, a DSVM vem com drivers ODBC e JDBC para conversar
- SQL Server
- Bancos de dados SQL do Azure
- Recursos do Azure Synapse Analytics de aplicativos escritos em várias linguagens, incluindo Python e Servidor de Aprendizado de Máquina.
Como ele é configurado e instalado na DSVM?
O SQL Server é instalado da maneira padrão. Você pode encontrá-lo em C:\Program Files\Microsoft SQL Server. Você pode encontrar a instância do Servidor de Aprendizado de Máquina no banco de dados em C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. A DSVM também tem uma instância autônoma separada do Servidor de Aprendizado de Máquina, instalada em C:\Program Files\Microsoft\R Server\R_SERVER. Essas duas instâncias do Servidor de Aprendizado de Máquina não compartilham bibliotecas.
Ubuntu
Você deve primeiro instalar o SQL Server Developer Edition em uma DSVM do Ubuntu antes de usá-lo. Visite Guia de início rápido: instale o SQL Server e crie um banco de dados no Ubuntu para obter mais informações.
Apache Spark 2.x (Autônomo)
| Categoria | Value |
|---|---|
| O que é? | Uma instância autônoma (nó único em processo) da popular plataforma Apache Spark; um sistema para processamento de dados rápido e em grande escala e aprendizagem automática |
| Edições DSVM suportadas | Linux |
| Utilizações típicas |
|
| Links para exemplos | Amostra de Jupyter:
Servidor Microsoft Machine Learning (contexto Spark): /dsvm/samples/MRS/MRSSparkContextSample.R |
| Ferramentas relacionadas na DSVM |
|
Como utilizá-lo
Você pode executar o spark-submit comando ou pyspark para enviar trabalhos do Spark na linha de comando. Você também pode criar um novo bloco de anotações com o kernel do Spark para criar um bloco de anotações Jupyter.
Para usar o Spark a partir de R, use bibliotecas como SparkR, Sparklyr e Microsoft Machine Learning Server, que estão disponíveis na DSVM. Consulte os links para exemplos na tabela anterior.
Configurar
Antes de executar em um contexto Spark no Microsoft Machine Learning Server no Ubuntu Linux DSVM edition, você deve concluir uma etapa de configuração única para habilitar uma instância Hadoop HDFS e Yarn de nó único local. Por padrão, os serviços Hadoop são instalados, mas desabilitados na DSVM. Para habilitá-los, execute estes comandos como root pela primeira vez:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Para interromper os serviços relacionados ao Hadoop quando você não precisar mais deles, execute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.
Um exemplo que demonstra como desenvolver e testar o MRS em um contexto remoto do Spark (a instância autônoma do Spark na DSVM) é fornecido e está disponível no /dsvm/samples/MRS diretório.
Como ele é configurado e instalado na DSVM?
| Plataforma | Local de instalação ($SPARK_HOME) |
|---|---|
| Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
As bibliotecas para acessar dados do armazenamento de Blob do Azure ou do Armazenamento do Azure Data Lake, usando as bibliotecas de aprendizado de máquina do Microsoft MMLSpark, são pré-instaladas no $SPARK_HOME/jars. Esses JARs são carregados automaticamente quando o Spark é iniciado. Por padrão, o Spark usa dados localizados no disco local.
A instância do Spark na DSVM pode acessar dados armazenados no armazenamento de Blob ou no Armazenamento do Azure Data Lake. Você deve primeiro criar e configurar o core-site.xml arquivo, com base no modelo encontrado em $SPARK_HOME/conf/core-site.xml.template. Você também deve ter as credenciais apropriadas para acessar o armazenamento de Blob e o Armazenamento do Azure Data Lake. Os arquivos de modelo usam espaços reservados para armazenamento de Blob e configurações de Armazenamento do Azure Data Lake.
Para obter mais informações sobre a criação de credenciais de serviço do Armazenamento do Azure Data Lake, visite Autenticação com o Azure Data Lake Storage Gen1. Depois de inserir as credenciais para armazenamento de Blob ou Armazenamento Azure Data Lake no arquivo core-site.xml, você pode fazer referência aos dados armazenados nessas fontes por meio do prefixo URI de wasb:// ou adl://.