Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique à : SQL Server 2019 (15.x)
Important
Les clusters Big Data Microsoft SQL Server 2019 sont mis hors service. La prise en charge des clusters Big Data SQL Server 2019 a pris fin le 28 février 2025. Pour plus d’informations, consultez le billet de blog d’annonce et les options Big Data sur la plateforme Microsoft SQL Server.
Cet article explique comment utiliser Spark pour Machine Learning sur les Clusters Big Data SQL Server.
Spark Machine Learning dans les Clusters Big Data SQL Server
Les Clusters Big Data SQL Server permettent des scénarios et des solutions de machine learning qui utilisent différentes piles technologiques : SQL Server Machine Learning Services et Apache Spark ML.
Pour savoir quand utiliser chaque pile technologique, consultez le Guide du machine learning pour les Clusters Big Data SQL Server. Ce guide aborde Apache Spark ML.
Pour les scénarios de machine learning basés sur le Big Data, l’utilisation de HDFS pour l’hébergement du Big Data et des capacités d’Apache Spark ML est une approche plus rentable, scalable et puissante. Toutefois, la liste des possibilités offertes par Spark Machine Learning est loin d’être exhaustive. Pour obtenir la liste complète des fonctionnalités, consultez Spark MLlib.
La section suivante fournit une liste organisée de scénarios et de références pour Spark dans les Clusters Big Data SQL Server.
Composants de Spark Machine Learning sur les Clusters Big Data SQL Server
| Learn | Contents | Link |
|---|---|---|
| Runtime des Clusters Big Data SQL Server pour Apache Spark | Indique ce qui est inclus dans chaque version | Guide du runtime des Clusters Big Data SQL Server pour Apache Spark |
| Pool de stockage | Comment stocker et utiliser HDFS + Spark ensemble afin de déverrouiller les données pour le machine learning | Présentation du pool de stockage dans les Clusters Big Data SQL Server |
| Utiliser des expériences basées sur les notebooks en plus des outils de votre choix | Connecter un point de terminaison Spark-Livy à l’aide des outils de votre choix |
Envoyer des travaux Spark sur les Clusters Big Data SQL Server dans Azure Data Studio Envoyer des travaux Spark sur un cluster Big Data SQL Server dans Visual Studio Code Utiliser sparklyr dans un cluster Big Data SQL Server |
| Comment installer des packages supplémentaires | Si un package n’est pas fourni prêt à l’emploi, l’installer | Gestion de la bibliothèque Spark |
| Procédure de résolution des problèmes | En cas d’interruption |
Résoudre les problèmes d’un notebook pysparkDéboguer et diagnostiquer des applications Spark sur les Clusters Big Data SQL Server dans le serveur d’historique Spark |
| Comment envoyer des programmes de traitement par lots de machine learning | Lancer l’exécution de l’entraînement ML et du scoring par lots avec la ligne de commande | Soumettre des travaux Spark à l’aide d’outils de ligne de commande |
| Comment déplacer rapidement des données entre SQL Server et Spark | Définissez SQL Server comme source et/ou destination de vos scénarios Spark ML. L’utilisation de HDFS n’est pas obligatoire | Utiliser le connecteur Apache Spark pour SQL Server et Azure SQL |
| Opérationnalisation du modèle Spark | Après l’entraînement, effectuer l’opérationnalisation à l’aide de MLeap | Créer, exporter et scorer des modèles de machine learning Spark sur les Clusters Big Data SQL Server |
| Data wrangling | En plus des fonctionnalités de data wrangling puissantes de Spark, nous fournissons PROSE | Data wrangling avec l’accélérateur de code PROSE |
Next steps
Pour plus d’informations, consultez Présentation des Clusters Big Data SQL Server.