Conjuntos de datos y canalizaciones de ejemplo en el diseñador de Azure Machine Learning

Importante

En este artículo se proporciona información sobre el uso del SDK de Azure Machine Learning v1. EL SDK v1 está en desuso a partir del 31 de marzo de 2025. El soporte técnico finalizará el 30 de junio de 2026. Puede instalar y usar SDK v1 hasta esa fecha. Los flujos de trabajo existentes que usan SDK v1 seguirán funcionando después de la fecha de finalización del soporte técnico. Sin embargo, podrían estar expuestos a riesgos de seguridad o cambios significativos si se producen cambios arquitectónicos en el producto.

Se recomienda realizar la transición al SDK v2 antes del 30 de junio de 2026. Para más información sobre SDK v2, consulte ¿Qué es la CLI de Azure Machine Learning y el SDK de Python v2? y la referencia del SDK v2.

Puede usar los ejemplos integrados en el diseñador de Azure Machine Learning para empezar a crear rápidamente sus propias canalizaciones de aprendizaje automático. El repositorio de GitHub del diseñador de Azure Machine Learning contiene documentación detallada para ayudarle a conocer algunos escenarios comunes de aprendizaje automático.

Requisitos previos

Suscripción a Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita.
Un área de trabajo de Azure Machine Learning.

Importante

Si no ve elementos gráficos mencionados en este artículo, como botones en Studio o diseñador, es posible que no tenga el nivel adecuado de permisos para el área de trabajo. Póngase en contacto con el administrador de suscripciones de Azure para verificar que se le ha concedido el nivel de acceso correcto. Para más información, consulte Administración de usuarios y roles.

Canalizaciones de ejemplo

El diseñador guarda una copia de las canalizaciones de ejemplo en el área de trabajo del estudio. Puede editar la canalización para adaptarla a sus necesidades y guardarla como propia. Úselas como punto de partida para iniciar sus proyectos.

Aquí se muestra cómo usar un ejemplo de diseñador:

Inicie sesión en Azure Machine Learning Studio y seleccione el área de trabajo que desea usar.
Seleccione Diseñador en el menú de la barra lateral.
Seleccione Crear una nueva canalización mediante componentes precompilados clásicos para crear una nueva canalización.
Seleccione Mostrar más ejemplos para obtener una lista completa de ejemplos.
Para ejecutar una canalización, primero debe establecer un destino de proceso predeterminado para ejecutar la canalización.
1. Seleccione Interfaz de canalización a la derecha del lienzo para abrir el panel Configuración . Seleccione + junto a Entradas, luego elija Destino de cálculo en la lista desplegable.
2. En el cuadro de diálogo que aparece, seleccione un destino de proceso existente, o bien créelo. Seleccione Guardar.
3. Seleccione Configurar y enviar en la parte superior del lienzo para enviar un trabajo de canalización.
En función de la canalización de ejemplo y la configuración de proceso, los trabajos pueden tardar un tiempo en completarse. La configuración del proceso predeterminada tiene un tamaño de nodo mínimo de 0, lo que significa que el diseñador debe asignar recursos después de estar inactivo. Los trabajos de canalización repetidos tardarán menos en terminar, dado que los recursos del proceso ya están asignados. Además, el diseñador usa resultados almacenados en la caché de cada componente para mejorar aún más la eficiencia.
Una vez que finalice la ejecución de la canalización, puede consultarla y ver la salida de cada componente, con el fin de obtener más información. Use los siguientes pasos para ver las salidas de los componentes:
1. Haga clic con el botón derecho en el componente del lienzo cuya salida quisiera ver.
2. Seleccione Vista previa de los datos.
Use los ejemplos como puntos iniciales para algunos de los escenarios de aprendizaje automático más comunes.

Regresión

Explore estos ejemplos de regresión integrados.

Canalización de ejemplo	Descripción
Regresión. Predicción del precio de los automóviles (básica)	Se predicen los precios de los automóviles mediante una regresión lineal.
Regresión. Predicción del precio de los automóviles (avanzada)	Se predicen los precios de los automóviles mediante los regresores de árbol de decisión impulsado y bosque de decisión. Compare los modelos para encontrar el mejor algoritmo.

clasificación

Explore estos ejemplos de clasificación integrados. Abra los ejemplos para obtener más información y ver los comentarios del componente en el diseñador.

Canalización de ejemplo	Descripción
Clasificación binaria con selección de características. Predicción de ingresos	Se predicen los ingresos como altos o bajos, mediante un árbol de decisión impulsado de dos clases. Use la correlación de Pearson para seleccionar las características.
Clasificación binaria con un script de Python personalizado. Predicción del riesgo de crédito	Clasifique las aplicaciones de crédito como de riesgo alto o bajo. Use el componente para ejecutar script de Python para ponderar los datos.
Clasificación binaria. Predicción de las relaciones de cliente	Se predice el abandono de los clientes mediante árboles de decisión impulsados de dos clases. Use SMOTE para muestrear los datos sesgados.
Clasificación de texto. Conjunto de datos de Wikipedia SP 500	Clasifique los tipos de empresa de los artículos de Wikipedia con regresión logística multiclase.
Clasificación multiclase. Reconocimiento de letras	Cree un conjunto de clasificadores binarios para clasificar las letras escritas.

Visión del equipo

Explore estos ejemplos de Computer Vision integrados. Abra los ejemplos para obtener más información y ver los comentarios del componente en el diseñador.

Canalización de ejemplo	Descripción
Clasificación de imágenes mediante DenseNet	Use los componentes de Computer Vision para compilar un modelo de clasificación de imágenes basado en PyTorch DenseNet.

Canalización de ejemplo	Descripción
Recomendación amplia y basada en profundidad: predicción de clasificación de restaurantes	Compile un motor de recomendación de restaurante a partir de las características y las clasificaciones de los usuarios y el restaurante.
Recomendación. Tweets de clasificación de películas	Cree un motor de recomendación de películas a partir de características de los usuarios/las películas y valoraciones.

Utilidad

Obtenga más información sobre los ejemplos que muestran las características y utilidades de aprendizaje automático. Abra los ejemplos para obtener más información y ver los comentarios del componente en el diseñador.

Canalización de ejemplo	Descripción
Clasificación binaria con el modelo de Vowpal Wabbit: predicción de ingresos para adultos	Vowpal Wabbit es un sistema de aprendizaje automático que impulsa la frontera del aprendizaje en este ámbito con técnicas como aprendizaje en línea, hashing, reducción total, reducciones, aprendizaje para buscar, aprendizaje activo e interactivo. En este ejemplo se muestra cómo usar el modelo de Vowpal Wabbit para compilar el modelo de clasificación binaria.
Uso de script de R personalizado: predicción de retraso de vuelos	Use el Script R personalizado para predecir si un vuelo de pasajeros programado se retrasará más de 15 minutos.
Validación cruzada para clasificación binaria. Predicción de ingresos para adultos	Use la validación cruzada para crear un clasificador binario para los ingresos para los adultos.
Importancia de la característica de permutación	Use la importancia de la característica de permutación a fin de calcular las clasificaciones de importancia del conjunto de datos de prueba.
Parámetros de optimización para la clasificación binaria. Predicción de ingresos para adultos	Utilice los hiperparámetros del modelo de optimización para encontrar los óptimos al crear un clasificador binario.

Conjuntos de datos

Al crear una nueva canalización en el diseñador de Azure Machine Learning, muchos conjuntos de datos de ejemplo se incluyen de forma predeterminada. Las canalizaciones de ejemplo de la página principal del diseñador utilizan estos conjuntos de datos de ejemplo.

A la izquierda del lienzo de flujo de trabajo, en la pestaña Componente, expanda el nodo Datos de ejemplo. Puede usar cualquiera de estos conjuntos de datos en su propia canalización arrastrándolo al lienzo.

Nombre del conjunto de datos	Descripción del conjunto de datos
Conjunto de datos de clasificación binaria de ingresos en el censo de adultos	Subconjunto de la base de datos del censo de 1994 en el que se utilizan adultos trabajadores a partir de 16 años con un índice de ingresos ajustado de > 100. Uso: clasifique a las personas que usan datos demográficos para predecir si una persona gana más de $50 000 al año. Investigación relacionada: Kohavi, R., Becker, B., (1996). Repositorio de Machine Learning de UCI. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Información sobre los precios de los automóviles (datos sin procesar)	Información acerca de automóviles por marca y modelo, incluido el precio, características como el número de cilindros y el consumo en relación a la distancia recorrida, así como una puntuación de riesgo para aseguradoras. La puntuación de riesgo está asociada inicialmente a un precio automático. A continuación, se ajusta para el riesgo real en un proceso conocido por los actuarios como simbolización. Un valor de +3 indica que el auto es arriesgado y un valor de -3 que probablemente sea seguro. Uso: prediga la puntuación de riesgo por características, mediante la regresión o la clasificación multivariante. Investigación relacionada: Schlimmer, J.C. (1987). Repositorio de Machine Learning de UCI. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Etiquetas de apetencia CRM compartidas	Etiquetas del concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_small_train_appetency.labels).
Etiquetas de rotación de clientes de CRM compartidas	Etiquetas del concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_small_train_churn.labels).
Conjunto de datos CRM compartido	Estos datos están relacionados con el concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_small_train.data.zip). El conjunto de datos contiene 50.000 clientes de la empresa de telecomunicaciones francesa Orange. Cada cliente tiene 230 características anónimas, 190 de las cuales son numéricas y 40, categóricas. Las características están muy dispersas.
Etiquetas de mejora de ventas de CRM compartidas	Etiquetas del concurso sobre la previsión de relaciones con los clientes de KDD Cup 2009 (orange_large_train_upselling.labels).
Datos de retrasos de vuelos	Datos de rendimiento del vuelo en el tiempo obtenidos de la recopilación de datos de TranStats del Departamento de Transporte (On-Time) de Estados Unidos. El conjunto de datos abarca el periodo comprendido entre abril y octubre de 2013. Antes de cargarlo en el diseñador, el conjunto de datos se ha procesado como sigue: - Se filtró el conjunto de datos para centrarse únicamente en los 70 aeropuertos con más tráfico del territorio continental de EE. UU. - Los vuelos cancelados se etiquetaron como retrasados más de 15 minutos - Los vuelos desviados se quitaron de la muestra - Se seleccionaron las siguientes columnas: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Conjunto de datos UCI de tarjeta de crédito alemana	El conjunto de datos Statlog de UCI (tarjeta de crédito alemana) (Statlog+German+Credit+Data), con el archivo german.data. El conjunto de datos clasifica a las personas, descritas por un conjunto de atributos, según si su riesgo de crédito es bajo o alto. Cada ejemplo representa a una persona. Hay 20 características, tanto numéricas como categóricas, y una etiqueta binaria (el valor del riesgo de crédito). Las partidas de riesgo de crédito alto tienen la etiqueta = 2, mientras que las partidas con riesgo de crédito bajo tienen la etiqueta = 1. El costo de clasificar erróneamente un ejemplo de bajo riesgo como alto es 1, mientras que el costo de clasificar erróneamente un ejemplo de alto riesgo como bajo es 5.
Títulos de películas en IMDB	El conjunto de datos contiene información sobre películas que se han valorado en tweets de X: id. de película en IMDB, nombre, género y año de producción. Hay 17.000 películas en el conjunto de datos. El conjunto de datos se introdujo en el documento "S. Dooms, T. De Pessemier y L. Martens. MovieTweetings: un conjunto de datos sobre valoración de películas recopilado de Twitter. Taller de micromecenazgo y cálculo humano para sistemas de recomendación, CrowdRec en RecSys 2013."
Clasificaciones de películas	El conjunto de datos es una versión extendida del conjunto de datos Tweets sobre películas. El conjunto de datos tiene 170 000 valoraciones de películas, extraídas de tweets de X bien estructurados. Cada instancia representa un tweet y es una tupla: id. de usuario, id. de película en IMDB, valoración, marca de tiempo, número de favoritos para ese tweet y número de retweets de ese tweet. A. Said, S. Dooms, B. Loni y D. Tikk proporcionaron el conjunto de datos para el Concurso de sistemas de recomendación 2014.
Datos de características de restaurantes	Un conjunto de metadatos acerca de restaurantes y sus características, como el tipo de comida, el estilo de comedor y la ubicación. Uso: use este conjunto de datos, en combinación con los otros dos conjuntos de datos del restaurante, para entrenar y probar un sistema de recomendación. Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de Machine Learning de UCI. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Valoraciones de restaurantes	Contiene valoraciones que los usuarios realizan sobre restaurantes en una escala de 0 a 2. Uso: use este conjunto de datos, en combinación con los otros dos conjuntos de datos del restaurante, para entrenar y probar un sistema de recomendación. Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de Machine Learning de UCI. Irvine, CA: Universidad de California, Facultad de Ciencias de la Computación y de la Información
Datos de los clientes de restaurantes	Conjunto de metadatos sobre clientes que incluye información demográfica y preferencias. Uso: use este conjunto de datos, en combinación con los otros dos conjuntos de datos del restaurante, para entrenar y probar un sistema de recomendación. Investigación relacionada: Bache, K. y Lichman, M. (2013). Repositorio de Machine Learning de UCI, Irvine, CA: Universidad de California, Facultad de Informática y Ciencias de la Información.
Conjunto de datos del tiempo	Observaciones meteorológicas basadas en tierra por hora de NOAA (datos combinados de 201304 a 201310). Los datos meteorológicos abarcan las observaciones de las estaciones meteorológicas de los aeropuertos, durante el período que comprende desde abril hasta octubre de 2013. Antes de cargarlo en el diseñador, el conjunto de datos se ha procesado como sigue: - Se asignaron los identificadores de las estaciones meteorológicas a los identificadores de aeropuerto correspondientes - Se excluyeron las estaciones meteorológicas no asociadas a los 70 aeropuertos con mayor tráfico - La columna Date se separó en columnas independientes con los valores Year, Month y Day - Se seleccionaron las siguientes columnas: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Conjunto de datos de SP 500 de Wikipedia	Los datos se derivan de Wikipedia en función de los artículos de cada empresa de S&P 500, almacenados como datos XML. Antes de cargarlo en el diseñador, el conjunto de datos se ha procesado como sigue: - Se extrajo el contenido de texto para cada empresa específica - Se eliminó el formato wiki - Quitar caracteres no alfanuméricos - Se convirtió todo el texto a minúscula - Se agregaron las categorías de empresas conocidas Tenga en cuenta que para algunas empresas no se pudo encontrar un artículo, por lo que el número de registros es inferior a 500.

Limpieza de recursos

Importante

Los recursos que creó pueden usarse como requisitos previos de otros tutoriales y artículos de procedimientos de Azure Machine Learning.

Eliminar todo el contenido

Si no va a usar nada de lo que ha creado, elimine el grupo de recursos completo para que no le genere gastos.

En Azure Portal, seleccione Grupos de recursos en Servicios de Azure.
Seleccione el grupo de recursos que creó.
Seleccione Eliminar grupo de recursos.

Al eliminar el grupo de recursos también se eliminan todos los recursos que creó en el diseñador.

Eliminación de recursos individuales

En diseñador donde creó el experimento, elimine recursos individuales; para ello, selecciónelos y, luego, haga clic en el botón Eliminar.

El destino de proceso que ha creado aquí se escala automáticamente a cero nodos cuando no se usa. Esta acción se lleva a cabo para minimizar los cargos. Si quiere eliminar el destino de proceso, siga estos pasos:

Captura de pantalla que muestra cómo eliminar recursos.

Para eliminar un conjunto de datos, vaya a la cuenta de almacenamiento mediante Azure Portal o el Explorador de Azure Storage y elimine manualmente esos recursos.

Obtenga información sobre los aspectos básicos del análisis predictivo y el aprendizaje automático con Tutorial: Diseñador: entrenamiento de un modelo de regresión sin código

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-10-09

Compartir a través de

Conjuntos de datos y canalizaciones de ejemplo en el diseñador de Azure Machine Learning

Requisitos previos

Canalizaciones de ejemplo

Regresión

clasificación

Visión del equipo

Recomendador

Utilidad

Conjuntos de datos

Limpieza de recursos

Eliminar todo el contenido

Eliminación de recursos individuales

Contenido relacionado

Comentarios

Recursos adicionales