Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article vous montre comment utiliser spark-tensorflow-connector pour enregistrer des DataFrames Apache Spark dans des fichiers TFRecord et charger TFRecord avec TensorFlow.
Le format de fichier TFRecord est un format binaire orienté enregistrement simple pour des données de formation ML. La classe tf.data.TFRecordDataset vous permet de diffuser en continu le contenu d’un ou plusieurs fichiers TFRecord dans le cadre d’un pipeline d’entrée.
Utiliser la bibliothèque spark-tensorflow-connector
Vous pouvez utiliser spark-tensorflow-connector pour enregistrer des DataFrames Apache Spark dans des fichiers TFRecord.
spark-tensorflow-connector est une bibliothèque au sein de l’écosystème TensorFlow qui permet la conversion entre des DataFrames Spark et des TFRecords (un format populaire de stockage de données pour TensorFlow). Avec spark-tensorflow-connector, vous pouvez utiliser des API DataFrames Spark pour lire des fichiers TFRecords dans des DataFrames et écrire des DataFrames sous des TFRecords.
Notes
La bibliothèque spark-tensorflow-connector est comprise dans Databricks Runtime pour Machine Learning. Pour utiliser spark-tensorflow-connector sur les Notes de publication sur les versions et la compatibilité de Databricks Runtime, vous devez installer la bibliothèque à partir de Maven. Pour plus d’informations, consultez le package Maven ou Spark.
Exemple : Charger des données à partir de fichiers TFRecord avec TensorFlow
L'exemple de bloc-notes montre comment enregistrer les données d'Apache Spark DataFrames dans des fichiers TFRecord et charger des fichiers TFRecord pour la formation ML.
Vous pouvez charger les fichiers TFRecord à l’aide de la classe tf.data.TFRecordDataset. Pour plus d’informations, consultez Lecture d’un fichier TFRecord à partir de TensorFlow.