Partilhar via


AksEndpoint Classe

Observação

Esta é uma aula experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa uma coleção de versões de serviço Web atrás do mesmo ponto de extremidade em execução no Serviço Kubernetes do Azure.

Enquanto um AksWebservice implanta um único serviço com um único ponto de extremidade de pontuação, a classe AksEndpoint permite que você implante várias versões de serviço Web atrás do mesmo ponto de extremidade de pontuação. Cada versão de serviço Web pode ser configurada para servir uma percentagem do tráfego para que possa implementar modelos de forma controlada, por exemplo, para testes A/B. O AksEndpoint permite a implantação a partir de um objeto de modelo semelhante ao AksWebservice.

Inicialize a instância do Webservice.

O construtor Webservice recupera uma representação na nuvem de um objeto Webservice associado ao espaço de trabalho fornecido. Ele retornará uma instância de uma classe filho correspondente ao tipo específico do objeto Webservice recuperado.

Construtor

AksEndpoint(workspace, name)

Parâmetros

Name Description
workspace
Necessário

O objeto de espaço de trabalho que contém o objeto Webservice a ser recuperado.

name
Necessário
str

O nome do objeto Webservice a ser recuperado.

Variáveis

Name Description
versions

Um dicionário de nome de versão para objeto de versão. Contém todas as versões implantadas como parte deste ponto de extremidade.

Métodos

create_version

Adicione uma nova versão em um Endpoint com as propriedades fornecidas.

delete_version

Exclua uma versão em um ponto de extremidade.

deploy_configuration

Crie um objeto de configuração para implantação em um destino de computação AKS.

serialize

Converta este Webservice em um dicionário serializado JSON.

update

Atualize o Endpoint com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados neste Ponto Final

update_version

Atualize uma versão existente em um Endpoint com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

create_version

Adicione uma nova versão em um Endpoint com as propriedades fornecidas.

create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Name Description
version_name
Necessário
str

O nome da versão a ser adicionada em um ponto de extremidade.

autoscale_enabled

Habilitar ou não o dimensionamento automático para esta versão em um ponto de extremidade. O padrão é True se num_replicas for None.

Default value: None
autoscale_min_replicas
int

O número mínimo de contêineres a serem usados ao dimensionar automaticamente esta versão em um ponto de extremidade. O padrão é 1

Default value: None
autoscale_max_replicas
int

O número máximo de contêineres a serem usados ao dimensionar automaticamente esta versão em um ponto de extremidade. O padrão é 10

Default value: None
autoscale_refresh_seconds
int

Com que frequência o autoscaler deve tentar dimensionar esta versão em um Endpoint. O padrão é 1

Default value: None
autoscale_target_utilization
int

A utilização de destino (em porcentagem de 100) que o autoscaler deve tentar manter para esta versão em um Endpoint. O padrão é 70

Default value: None
collect_model_data

Se a coleta de dados do modelo deve ou não ser habilitada para esta versão em um ponto de extremidade. Padrão para False

Default value: None
cpu_cores

O número de núcleos de CPU a serem alocados para esta versão em um Endpoint. Pode ser decimal. O padrão é 0,1

Default value: None
memory_gb

A quantidade de memória (em GB) a alocar para esta versão em um ponto de extremidade. Pode ser decimal. O padrão é 0,5

Default value: None
scoring_timeout_ms
int

Um tempo limite a ser imposto para marcar chamadas para esta versão em um ponto de extremidade. O padrão é 60000.

Default value: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O padrão é 1. Não altere essa configuração do valor padrão de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Default value: None
max_request_wait_time
int

A quantidade máxima de tempo que uma solicitação permanecerá na fila (em milissegundos) antes de retornar um erro 503. O padrão é 500.

Default value: None
num_replicas
int

O número de contêineres a serem alocados para esta versão em um ponto de extremidade. Não há padrão, se esse parâmetro não estiver definido, o autoscaler será habilitado por padrão.

Default value: None
tags

Dicionário de tags de valor de chave para fornecer este ponto de extremidade.

Default value: None
properties

Dicionário de propriedades de valor de chave para fornecer este ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados.

Default value: None
description
str

Uma descrição para fornecer este ponto de extremidade.

Default value: None
models

Uma lista de objetos Model para empacotar com o serviço atualizado.

Default value: None
inference_config

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

Default value: None
gpu_cores
int

O número de núcleos de GPU a serem alocados para esta versão em um Endpoint. O valor padrão é 0.

Default value: None
period_seconds
int

Com que frequência (em segundos) realizar a sonda de vivacidade. O padrão é de 10 segundos. O valor mínimo é 1.

Default value: None
initial_delay_seconds
int

O número de segundos após o início do recipiente antes que as sondas de vivacidade sejam iniciadas. O padrão é 310.

Default value: None
timeout_seconds
int

O número de segundos após os quais a sonda de vivacidade expira. O padrão é de 2 segundos. O valor mínimo é 1.

Default value: None
success_threshold
int

Os sucessos mínimos consecutivos para que a sonda de vivacidade seja considerada bem-sucedida depois de ter falhado. O padrão é 1. O valor mínimo é 1.

Default value: None
failure_threshold
int

Quando um Pod é iniciado e a sonda de vivacidade falha, o Kubernetes tentará failureThreshold vezes antes de desistir. O padrão é 3. O valor mínimo é 1.

Default value: None
traffic_percentile

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

Default value: None
is_default

Se esta versão deve ou não ser feita como versão padrão em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
is_control_version_type

Se esta versão deve ou não ser feita como versão de controle em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
cpu_cores_limit

O número máximo de núcleos de CPU que este Webservice tem permissão para usar. Pode ser decimal.

Default value: None
memory_gb_limit

A quantidade máxima de memória (em GB) que este Webservice tem permissão para usar. Pode ser decimal.

Default value: None

Exceções

Tipo Description

delete_version

Exclua uma versão em um ponto de extremidade.

delete_version(version_name)

Parâmetros

Name Description
version_name
Necessário
str

O nome da versão em um ponto de extremidade a ser excluído.

Exceções

Tipo Description

deploy_configuration

Crie um objeto de configuração para implantação em um destino de computação AKS.

static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Name Description
autoscale_enabled

Habilitar ou não o dimensionamento automático para esta versão em um ponto de extremidade. O padrão é True se num_replicas for None.

Default value: None
autoscale_min_replicas
int

O número mínimo de contêineres a serem usados ao dimensionar automaticamente esta versão em um ponto de extremidade. O padrão é 1.

Default value: None
autoscale_max_replicas
int

O número máximo de contêineres a serem usados ao dimensionar automaticamente esta versão em um ponto de extremidade. O valor padrão é 10.

Default value: None
autoscale_refresh_seconds
int

Com que frequência o autoscaler deve tentar dimensionar esta versão em um Endpoint. O padrão é 1.

Default value: None
autoscale_target_utilization
int

A utilização de destino (em porcentagem de 100) que o autoscaler deve tentar manter para esta versão em um Endpoint. O padrão é 70.

Default value: None
collect_model_data

Se a coleta de dados do modelo deve ou não ser habilitada para esta versão em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
auth_enabled

Se a autenticação de chave deve ou não ser habilitada para esta versão em um ponto de extremidade. O padrão é True.

Default value: None
cpu_cores

O número de núcleos de CPU a alocar para esta versão em um ponto de extremidade. Pode ser decimal. O padrão é 0,1

Default value: None
memory_gb

A quantidade de memória (em GB) a alocar para esta versão em um ponto de extremidade. Pode ser decimal. O padrão é 0,5

Default value: None
enable_app_insights

Se deve ou não habilitar o log do ApplicationInsights para esta versão em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
scoring_timeout_ms
int

Um tempo limite para impor chamadas de pontuação para esta versão em um ponto de extremidade. O padrão é 60000

Default value: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O padrão é 1. Não altere essa configuração do valor padrão de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Default value: None
max_request_wait_time
int

A quantidade máxima de tempo que uma solicitação permanecerá na fila (em milissegundos) antes de retornar um erro 503. O padrão é 500.

Default value: None
num_replicas
int

O número de contêineres a serem alocados para esta versão em um ponto de extremidade. Não há padrão, se esse parâmetro não estiver definido, o autoscaler será habilitado por padrão.

Default value: None
primary_key
str

Uma chave de autenticação primária a ser usada para este ponto de extremidade.

Default value: None
secondary_key
str

Uma chave de autenticação secundária a ser usada para este ponto de extremidade.

Default value: None
tags

Dicionário de tags de valor de chave para fornecer este ponto de extremidade.

Default value: None
properties

Dicionário de propriedades de valor de chave para fornecer este ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados

Default value: None
description
str

Uma descrição para fornecer este ponto de extremidade.

Default value: None
gpu_cores
int

O número de núcleos de GPU a serem alocados para esta versão em um Endpoint. O valor padrão é 0.

Default value: None
period_seconds
int

Com que frequência (em segundos) realizar a sonda de vivacidade. O padrão é de 10 segundos. O valor mínimo é 1.

Default value: None
initial_delay_seconds
int

Número de segundos após o início do recipiente antes que as sondas de vivacidade sejam iniciadas. O padrão é 310.

Default value: None
timeout_seconds
int

Número de segundos após os quais a sonda de vivacidade expira. O padrão é de 2 segundos. O valor mínimo é 1.

Default value: None
success_threshold
int

Sucessos consecutivos mínimos para que a sonda de vivacidade seja considerada bem-sucedida depois de ter falhado. O padrão é 1. O valor mínimo é 1.

Default value: None
failure_threshold
int

Quando um Pod é iniciado e a sonda de vivacidade falha, o Kubernetes tentará failureThreshold momentos antes de desistir. O padrão é 3. O valor mínimo é 1.

Default value: None
namespace
str

O namespace do Kubernetes no qual implantar este ponto de extremidade: até 63 caracteres alfanuméricos minúsculos ('a'-'z', '0'-'9') e hífen ('-'). O primeiro e o último caracteres não podem ser hífenes.

Default value: None
token_auth_enabled

Se a autenticação de token deve ou não ser habilitada para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse Ponto de Extremidade buscando o token de acesso usando suas credenciais do Azure Ative Directory. A definição padrão é 'False'.

Default value: None
version_name
str

O nome da versão em um ponto de extremidade.

Default value: None
traffic_percentile

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

Default value: None
compute_target_name
str

O nome do destino de computação a ser implantado

Default value: None
cpu_cores_limit

O número máximo de núcleos de CPU que este Webservice tem permissão para usar. Pode ser decimal.

Default value: None
memory_gb_limit

A quantidade máxima de memória (em GB) que este Webservice tem permissão para usar. Pode ser decimal.

Default value: None

Devoluções

Tipo Description

Exceções

Tipo Description

serialize

Converta este Webservice em um dicionário serializado JSON.

serialize()

Devoluções

Tipo Description

A representação JSON deste WebService.

update

Atualize o Endpoint com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados neste Ponto Final

update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)

Parâmetros

Name Description
auth_enabled

Se a autenticação de chave deve ou não ser habilitada para esta versão em um ponto de extremidade. O padrão é True.

Default value: None
token_auth_enabled

Se a autenticação de token deve ou não ser habilitada para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse Ponto de Extremidade buscando o token de acesso usando suas credenciais do Azure Ative Directory. A definição padrão é 'False'.

Default value: None
enable_app_insights

Se deve ou não habilitar o log do Application Insights para esta versão em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
description
str

Uma descrição para fornecer este ponto de extremidade.

Default value: None
tags

Dicionário de tags de valor de chave para fornecer este ponto de extremidade.

Default value: None
properties

Dicionário de propriedades de valor de chave para fornecer este ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados.

Default value: None

Exceções

Tipo Description

update_version

Atualize uma versão existente em um Endpoint com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Name Description
version_name
Necessário
str

O nome da versão em um ponto de extremidade.

autoscale_enabled

Habilitar ou não o dimensionamento automático para esta versão em um ponto de extremidade. O padrão é True se num_replicas for Nenhum.

Default value: None
autoscale_min_replicas
int

O número mínimo de contêineres a serem usados ao dimensionar automaticamente esta versão em um ponto de extremidade. O padrão é 1.

Default value: None
autoscale_max_replicas
int

O número máximo de contêineres a serem usados ao dimensionar automaticamente esta versão em um ponto de extremidade. O valor padrão é 10.

Default value: None
autoscale_refresh_seconds
int

Com que frequência o autoscaler deve tentar dimensionar esta versão em um Endpoint. O padrão é 1

Default value: None
autoscale_target_utilization
int

A utilização de destino (em porcentagem de 100) que o autoscaler deve tentar manter para esta versão em um Endpoint. O padrão é 70.

Default value: None
collect_model_data

Se a coleta de dados do modelo deve ou não ser habilitada para esta versão em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
cpu_cores

O número de núcleos de CPU a alocar para esta versão em um ponto de extremidade. Pode ser decimal. O padrão é 0,1

Default value: None
memory_gb

A quantidade de memória (em GB) a alocar para esta versão em um ponto de extremidade. Pode ser decimal. O padrão é 0,5

Default value: None
scoring_timeout_ms
int

Um tempo limite a ser imposto para marcar chamadas para esta versão em um ponto de extremidade. O padrão é 60000.

Default value: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O padrão é 1. Não altere essa configuração do valor padrão de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Default value: None
max_request_wait_time
int

A quantidade máxima de tempo que uma solicitação permanecerá na fila (em milissegundos) antes de retornar um erro 503. O padrão é 500.

Default value: None
num_replicas
int

O número de contêineres a serem alocados para esta versão em um ponto de extremidade. Não há padrão, se esse parâmetro não estiver definido, o autoscaler será habilitado por padrão.

Default value: None
tags

Dicionário de tags de valor de chave para fornecer este ponto de extremidade.

Default value: None
properties

Dicionário de propriedades de valor de chave para fornecer este ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados.

Default value: None
description
str

Uma descrição para fornecer este Endpoint

Default value: None
models

Uma lista de objetos Model para empacotar com o serviço atualizado

Default value: None
inference_config

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

Default value: None
gpu_cores
int

O número de núcleos de GPU a serem alocados para esta versão em um Endpoint. O valor padrão é 0.

Default value: None
period_seconds
int

Com que frequência (em segundos) realizar a sonda de vivacidade. O padrão é de 10 segundos. O valor mínimo é 1.

Default value: None
initial_delay_seconds
int

O número de segundos após o início do recipiente antes que as sondas de vivacidade sejam iniciadas. O padrão é 310.

Default value: None
timeout_seconds
int

O número de segundos após os quais a sonda de vivacidade expira. O padrão é de 2 segundos. O valor mínimo é 1.

Default value: None
success_threshold
int

Os sucessos mínimos consecutivos para que a sonda de vivacidade seja considerada bem-sucedida depois de ter falhado. O padrão é 1. O valor mínimo é 1.

Default value: None
failure_threshold
int

Quando um Pod é iniciado e a sonda de vivacidade falha, o Kubernetes tentará failureThreshold vezes antes de desistir. O padrão é 3. O valor mínimo é 1.

Default value: None
traffic_percentile

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

Default value: None
is_default

Se esta versão deve ou não ser feita como versão padrão em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
is_control_version_type

Se esta versão deve ou não ser feita como versão de controle em um ponto de extremidade. A definição padrão é 'False'.

Default value: None
cpu_cores_limit

O número máximo de núcleos de CPU que este Webservice tem permissão para usar. Pode ser decimal.

Default value: None
memory_gb_limit

A quantidade máxima de memória (em GB) que este Webservice tem permissão para usar. Pode ser decimal.

Default value: None

Exceções

Tipo Description