Partager via


Utiliser l’exemple de jeu de données TPC-DS pour évaluer les performances du système

Azure Databricks permet d’accéder au jeu de données de benchmark TPC-DS, un benchmark largement utilisé pour tester les performances des systèmes conçus pour l’entreposage et l’analytique des données. Le jeu de données est disponible en deux tailles par défaut dans chaque espace de travail avec catalogue Unity. Ces jeux de données sont idéaux pour tester les performances d’Azure Databricks sur un benchmark standardisé qui simule des scénarios commerciaux de vente au détail et de commerce électronique réalistes. Pour en savoir plus sur ce jeu de données, consultez la documentation TPC-DS benchmark .

Éléments inclus

Les jeux de données TPC-DS sont disponibles dans le samples catalogue avec les schémas suivants :

  • tpcds_sf1 — Jeu de données à petite échelle (environ 1 Go)
  • tpcds_sf1000 — Jeu de données à grande échelle (environ 1 To)

Les deux jeux de données partagent les qualités suivantes :

  • Sont en lecture seule et interrogeables par tous les utilisateurs de l’espace de travail
  • Sont compatibles avec les entrepôts SQL et les clusters à usage unique
  • Suivez la spécification TPC-DS pour l’évaluation standardisée

Prerequisites

Vous devez avoir accès à un entrepôt SQL ou à un cluster à usage général.

Afficher un aperçu des données

Pour explorer les données dans l’interface utilisateur de l’Explorateur de catalogues :

  1. Cliquez sur l’icône Données.Catalogue dans la barre latérale.
  2. Entrez des tpcds dans la barre de recherche. Les deux schémas se trouvent dans le samples catalogue. Cliquez sur le nom du schéma que vous souhaitez afficher.
  3. L’onglet Vue d’ensemble répertorie toutes les tables du schéma. Cliquez sur un nom de table pour ouvrir une vue d’ensemble des colonnes et des types de données de cette table.
  4. Utilisez la navigation supérieure pour afficher les exemples de données ou de détails de la table.

Interroger les données

Les requêtes suivantes utilisent le jeu de données à plus petite échelle. tpcds_sf1 Pour utiliser le jeu de données à grande échelle, remplacez le nom tpcds_sf1000du schéma par . Cliquez sur l’Éditeur SQL de l’éditeur SQL dans la barre latérale pour ouvrir l’éditeur SQL. Ensuite, utilisez les requêtes suivantes pour commencer à explorer les données.

Aperçu des tables

SHOW TABLES IN samples.tpcds_sf1;

Explorer une table

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Exemple de jointure et d’agrégation

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Meilleures pratiques

  • Utilisez l’historique des requêtes et le profil de requête pour comprendre les caractéristiques de performances et identifier les opportunités d’optimisation.
  • Commencez par le jeu de données plus petit tpcds_sf1 pour les tests initiaux, puis effectuez un scale-up pour tpcds_sf1000 une évaluation complète des performances.
  • Comparez les performances des requêtes entre différentes tailles d’entrepôt SQL pour déterminer les configurations optimales pour vos charges de travail.
  • Utilisez ces jeux de données standardisés pour établir des bases de référence de performances et suivre les améliorations au fil du temps.