Compartir a través de


Entrenamiento de modelos de Machine Learning

Apache Spark, parte de Microsoft Fabric, permite el aprendizaje automático a escala. Úselo para obtener información de grandes volúmenes de datos estructurados, no estructurados y de streaming. Entrene modelos en Microsoft Fabric con bibliotecas de código abierto como Apache Spark MLlib, SynapseML y otros.

Apache SparkML y MLlib

Apache Spark, parte de Microsoft Fabric, es un marco unificado de procesamiento de datos paralelo de código abierto y de código abierto. Usa el procesamiento en memoria para acelerar el análisis de macrodatos. Spark se ha creado para acelerar, facilitar el uso y el análisis avanzado. El cálculo distribuido en memoria de Spark se adapta al aprendizaje automático iterativo y a los algoritmos de grafos.

Las bibliotecas escalables de aprendizaje automático MLlib y SparkML ofrecen funcionalidades de modelado algorítmico a este entorno distribuido. MLlib proporciona la API basada en RDD original. SparkML es un paquete más reciente que proporciona una API basada en DataFrame de nivel superior para compilar canalizaciones de ML. Proporciona una API de nivel más alto que se basa en DataFrames para construir canalizaciones ML. SparkML aún no admite todas las características de MLlib, pero reemplaza MLlib como la biblioteca de aprendizaje automático de Spark estándar.

Nota:

Obtenga más información en Entrenamiento de modelos con Apache Spark MLlib.

El entorno de ejecución de Microsoft Fabric para Apache Spark incluye varios paquetes de código abierto populares para entrenar modelos de aprendizaje automático. Estas bibliotecas proporcionan código reutilizable para los proyectos. El entorno de ejecución incluye estas bibliotecas de aprendizaje automático:

  • Scikit-learn : una conocida biblioteca de un solo nodo para algoritmos clásicos de aprendizaje automático. Admite la mayoría de los algoritmos supervisados y no supervisados y controla la minería de datos y el análisis de datos.

  • XGBoost : una biblioteca popular con algoritmos optimizados para entrenar árboles de decisión y bosques aleatorios.

  • PyTorch y Tensorflow son eficaces bibliotecas de aprendizaje profundo de Python. Puedes usar estas bibliotecas para compilar modelos de máquina única estableciendo el número de ejecutores del grupo en cero. Aunque esa configuración no admite Apache Spark, es una manera sencilla y rentable de crear modelos de máquina única.

SynapseML

La biblioteca de código abierto de SynapseML (anteriormente conocida como MMLSpark) le ayuda a crear canalizaciones escalables de aprendizaje automático (ML). Acelera la experimentación y le permite aplicar técnicas avanzadas, incluido el aprendizaje profundo, a grandes conjuntos de datos.

SynapseML proporciona una capa por encima de las API de bajo nivel de SparkML al compilar modelos de ML escalables. Estas API cubren la indexación de cadenas, el ensamblado de vectores de características, la coerción de datos en diseños adecuados para los algoritmos de aprendizaje automático, etc. La biblioteca SynapseML simplifica estas y otras tareas comunes para la creación de modelos en PySpark.

Explore las opciones para entrenar modelos de aprendizaje automático en Apache Spark en Microsoft Fabric. Para obtener más información, consulte: