超参数优化 - 对抗乳腺癌

本教程演示如何使用 SynapseML 确定所选分类器超参数的最佳组合，以生成更准确可靠的模型。本教程演示如何执行分布式随机网格搜索超参数优化，以构建用于识别乳腺癌的模型。

设置依赖项

导入 pandas 并设置 Spark 会话：

import pandas as pd
from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

读取数据，并将其拆分为优化和测试集：

data = spark.read.parquet(
    "wasbs://publicwasb@mmlspark.blob.core.windows.net/BreastCancer.parquet"
).cache()
tune, test = data.randomSplit([0.80, 0.20])
tune.limit(10).toPandas()

定义要使用的模型：

from synapse.ml.automl import TuneHyperparameters
from synapse.ml.train import TrainClassifier
from pyspark.ml.classification import (
    LogisticRegression,
    RandomForestClassifier,
    GBTClassifier,
)

logReg = LogisticRegression()
randForest = RandomForestClassifier()
gbt = GBTClassifier()
smlmodels = [logReg, randForest, gbt]
mmlmodels = [TrainClassifier(model=model, labelCol="Label") for model in smlmodels]

使用 AutoML 查找最佳模型

从 synapse.ml.automl 导入 SynapseML AutoML 类。使用 HyperparamBuilder. 指定超参数。添加DiscreteHyperParam或RangeHyperParam超参数。 TuneHyperparameters 从统一分布中随机选择值：

from synapse.ml.automl import *

paramBuilder = (
    HyperparamBuilder()
    .addHyperparam(logReg, logReg.regParam, RangeHyperParam(0.1, 0.3))
    .addHyperparam(randForest, randForest.numTrees, DiscreteHyperParam([5, 10]))
    .addHyperparam(randForest, randForest.maxDepth, DiscreteHyperParam([3, 5]))
    .addHyperparam(gbt, gbt.maxBins, RangeHyperParam(8, 16))
    .addHyperparam(gbt, gbt.maxDepth, DiscreteHyperParam([3, 5]))
)
searchSpace = paramBuilder.build()
# The search space is a list of params to tuples of estimator and hyperparam
print(searchSpace)
randomSpace = RandomSpace(searchSpace)

运行 TuneHyperparameters 以获取最佳模型：

bestModel = TuneHyperparameters(
    evaluationMetric="accuracy",
    models=mmlmodels,
    numFolds=2,
    numRuns=len(mmlmodels) * 2,
    parallelism=1,
    paramSpace=randomSpace.space(),
    seed=0,
).fit(tune)

评估模型

查看最佳模型的参数，并检索基础最佳模型管道：

print(bestModel.getBestModelInfo())
print(bestModel.getBestModel())

针对测试集评分，并查看指标：

from synapse.ml.train import ComputeModelStatistics

prediction = bestModel.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()

反馈

此页面是否有帮助？

Last updated on 2025-04-21

通过

超参数优化 - 对抗乳腺癌

设置依赖项

使用 AutoML 查找最佳模型

评估模型

相关内容

反馈

其他资源