Carregar conjuntos de dados de treinamento e teste para fala personalizada

Você precisa de dados de áudio ou texto para testar a precisão do reconhecimento de fala ou treinar seus modelos personalizados. Para obter informações sobre os tipos de dados suportados para testar ou treinar seu modelo, consulte Treinamento e teste de conjuntos de dados.

Gorjeta

Você também pode usar o editor de transcrição on-line para criar e refinar conjuntos de dados de áudio rotulados.

Carregar conjuntos de dados

Siga estas etapas para carregar conjuntos de dados para treinamento (ajuste fino) do seu modelo de fala personalizado.

Importante

Repita as etapas para carregar conjuntos de dados de teste (como somente áudio ) de que você precisa mais tarde ao criar um teste. Você pode carregar vários conjuntos de dados para treinamento e teste.

Inicie sessão no portal Microsoft Foundry.
Selecione Ajuste fino no painel esquerdo e, em seguida, selecione Ajuste fino do Serviço de IA.
Selecione a tarefa de ajuste fino de fala personalizada (por nome de modelo) que você iniciou conforme descrito no artigo como iniciar o ajuste fino de fala personalizado.
Selecione Gerenciar dados>Adicionar conjunto de dados.
No assistente Adicionar dados, selecione o tipo de dados de treinamento que você deseja adicionar. Neste exemplo, selecionamos Áudio + transcrição rotulada por humanos. Em seguida, selecione Seguinte.
Na página Carregar seus dados, selecione arquivos locais, Armazenamento de Blobs do Azure ou outros locais da Web compartilhados. Em seguida, selecione Seguinte.

Se você selecionar um local remoto e não usar o mecanismo de segurança de serviços confiáveis do Azure, o local remoto deverá ser uma URL que possa ser recuperada com uma simples solicitação GET anônima. Por exemplo, um URL SAS ou um URL acessível publicamente. Não há suporte para URLs que exigem autorização extra ou esperam interação do usuário.

Nota

Se você usar a URL de Blob do Azure, poderá garantir a segurança máxima de seus arquivos de conjunto de dados usando o mecanismo de segurança de serviços confiáveis do Azure. Você usa as mesmas técnicas que para transcrição em lote e URLs de conta de armazenamento simples para seus arquivos de conjunto de dados. Veja mais detalhes aqui.
Insira um nome e uma descrição para os dados. Em seguida, selecione Seguinte.
Reveja os dados e selecione Carregar. Você será levado de volta à página Gerenciar dados . O estado dos dados é Processamento.
Repita as etapas para carregar conjuntos de dados de teste (como somente áudio ) de que você precisa mais tarde ao criar um teste. Você pode carregar vários conjuntos de dados para treinamento e teste.
Repita as etapas anteriores para carregar dados de áudio que você usa posteriormente para teste. No assistente Adicionar dados , selecione Áudio para o tipo de dados que deseja adicionar.

Para carregar seus próprios conjuntos de dados no Speech Studio, siga estas etapas:

Inicie sessão no Speech Studio.
Selecione Fala> personalizada Seu nome>dados de fala Carregar dados.
Selecione a guia Dados de treinamento ou Dados de teste.
Selecione um tipo de conjunto de dados e, em seguida, selecione Avançar.
Especifique o local do conjunto de dados e selecione Avançar. Você pode escolher um arquivo local ou inserir um local remoto, como a URL de Blob do Azure. Se você selecionar um local remoto e não usar o mecanismo de segurança de serviços confiáveis do Azure, o local remoto deverá ser uma URL que possa ser recuperada com uma simples solicitação GET anônima. Por exemplo, um URL SAS ou um URL acessível publicamente. Não há suporte para URLs que exigem autorização extra ou esperam interação do usuário.

Nota

Se você usar a URL de Blob do Azure, poderá garantir a segurança máxima de seus arquivos de conjunto de dados usando o mecanismo de segurança de serviços confiáveis do Azure. Você utiliza as mesmas técnicas usadas para a transcrição em lote e URLs simples da Conta de Armazenamento nos seus arquivos de dados. Veja mais detalhes aqui.
Introduza o nome e a descrição do conjunto de dados e, em seguida, selecione Seguinte.
Reveja as definições e, em seguida, selecione Guardar e fechar.

Depois que o conjunto de dados for carregado, vá para a página Treinar modelos personalizados para treinar um modelo personalizado.

Antes de continuar, verifique se a CLI de fala está instalada e configurada.

Com o Speech CLI e a API REST de voz para texto, ao contrário do portal Microsoft Foundry e do Speech Studio, não escolhes se um conjunto de dados serve para testes ou treino no momento do upload. Você especifica como um conjunto de dados é usado quando treina um modelo ou executa um teste.

Embora você não indique se o conjunto de dados é para teste ou treinamento, você deve especificar o tipo de conjunto de dados. O tipo de conjunto de dados é usado para determinar qual tipo de conjunto de dados é criado. Em alguns casos, um tipo de conjunto de dados é usado apenas para testes ou treinamento, mas você não deve depender disso. Os valores da CLI de Voz e da API kind REST correspondem às opções no portal Microsoft Foundry e no Speech Studio , conforme descrito na tabela seguinte:

Tipo de CLI e API	Opções do portal
Acústica	Dados de treinamento: Áudio + transcrição rotulada por humanos Dados de teste: Transcrição (síntese automática de áudio) Dados de teste: Áudio + transcrição etiquetada por humanos
Arquivos de áudio	Dados de teste: Áudio
Linguagem	Dados de formação: Texto simples
LanguageMarkdown	Dados de treinamento: texto estruturado em formato markdown
Pronúncia	Dados de treinamento: Pronúncia
Formatação do Output	Dados de treinamento: Formato de saída

Importante

Você não usa a CLI de fala ou a API REST para carregar arquivos de dados diretamente. Primeiro, você armazena os arquivos de conjunto de dados de treinamento ou teste em uma URL que a CLI de fala ou a API REST pode acessar. Depois de carregar os arquivos de dados, você pode usar a CLI de fala ou a API REST para criar um conjunto de dados para teste ou treinamento de fala personalizado.

Para criar um conjunto de dados e conectá-lo a um projeto existente, use o spx csr dataset create comando. Construa os parâmetros de solicitação de acordo com as seguintes instruções:

Defina a project propriedade como a ID de um projeto existente. A project propriedade é recomendada para que também possa gerir ajustes finos para fala personalizada no portal Microsoft Foundry. Para obter a ID do projeto, consulte Obter a ID do projeto para a documentação da API REST .
Defina a propriedade necessária kind . O conjunto possível de valores para um tipo de conjunto de dados de treinamento são: Acoustic, AudioFiles, Language, LanguageMarkdown e Pronunciation.
Defina a propriedade necessária contentUrl . Este parâmetro é o local do conjunto de dados. Se você não usar o mecanismo de segurança de serviços confiáveis do Azure (consulte a próxima Observação), a contentUrl propriedade deverá ser uma URL que possa ser recuperada com uma simples solicitação GET anônima. Por exemplo, um URL SAS ou um URL acessível publicamente. Não há suporte para URLs que exigem autorização extra ou que esperam interação do usuário.

Nota

Se você usar a URL de Blob do Azure, poderá garantir a segurança máxima de seus arquivos de conjunto de dados usando o mecanismo de segurança de serviços confiáveis do Azure. Você utiliza as mesmas técnicas usadas para a transcrição em lote e URLs simples da Conta de Armazenamento nos seus arquivos de dados. Veja mais detalhes aqui.
Defina a propriedade necessária language . A localidade do conjunto de dados deve corresponder à localidade do projeto. A localidade não pode ser alterada posteriormente. A propriedade language do Speech CLI corresponde à propriedade locale na requisição e resposta JSON.
Defina a propriedade necessária name . Este parâmetro é o nome que é exibido no portal Microsoft Foundry. A propriedade name do Speech CLI corresponde à propriedade displayName na requisição e resposta JSON.

Aqui está um exemplo de comando da CLI de fala que cria um conjunto de dados e o conecta a um projeto existente:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Importante

Você deve definir --api-version v3.2. A CLI de Fala usa a API REST, mas ainda não oferece suporte a versões posteriores ao v3.2.

Deverá receber um corpo de resposta no seguinte formato:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

A propriedade de nível self superior no corpo da resposta é o URI do conjunto de dados. Use este URI para obter detalhes sobre o projeto e os arquivos do conjunto de dados. Você também usa esse URI para atualizar ou excluir um conjunto de dados.

Para obter ajuda da CLI de fala com conjuntos de dados, execute o seguinte comando:

spx help csr dataset

Tipo de CLI e API	Opções do portal
Acústica	Dados de treinamento: Áudio + transcrição rotulada por humanos Dados de teste: Transcrição (síntese automática de áudio) Dados de teste: Áudio + transcrição etiquetada por humanos
Arquivos de áudio	Dados de teste: Áudio
Linguagem	Dados de formação: Texto simples
LanguageMarkdown	Dados de treinamento: texto estruturado em formato markdown
Pronúncia	Dados de treinamento: Pronúncia
Formatação do Output	Dados de treinamento: Formato de saída

Importante

Para criar um conjunto de dados e conectá-lo a um projeto existente, use a operação Datasets_Create da API REST de fala para texto. Construa o corpo da solicitação de acordo com as seguintes instruções:

Defina a project propriedade como a ID de um projeto existente. A project propriedade é recomendada para que também possa gerir ajustes finos para fala personalizada no portal Microsoft Foundry. Para obter a ID do projeto, consulte Obter a ID do projeto para a documentação da API REST .
Defina a propriedade necessária kind . O conjunto possível de valores para um tipo de conjunto de dados de treinamento são: Acoustic, AudioFiles, Language, LanguageMarkdown e Pronunciation.
Defina a propriedade necessária contentUrl . Esta propriedade é o local do conjunto de dados. Se você não usar o mecanismo de segurança de serviços confiáveis do Azure (consulte a próxima Observação), a contentUrl propriedade deverá ser uma URL que possa ser recuperada com uma simples solicitação GET anônima. Por exemplo, um URL SAS ou um URL acessível publicamente. Não há suporte para URLs que exigem autorização extra ou que esperam interação do usuário.

Nota

Se você usar a URL de Blob do Azure, poderá garantir a segurança máxima de seus arquivos de conjunto de dados usando o mecanismo de segurança de serviços confiáveis do Azure. Você utiliza as mesmas técnicas usadas para a transcrição em lote e URLs simples da Conta de Armazenamento nos seus arquivos de dados. Veja mais detalhes aqui.
Defina a propriedade necessária locale . A localidade do conjunto de dados deve corresponder à localidade do projeto. A localidade não pode ser alterada posteriormente.
Defina a propriedade necessária displayName . Esta propriedade é o nome que aparece no portal Microsoft Foundry.

Faça uma solicitação HTTP POST usando o URI, conforme mostrado no exemplo a seguir. Substitua YourSpeechResoureKey pela chave de recurso Fala, substitua YourServiceRegion pela região de recurso Fala e defina as propriedades do corpo da solicitação conforme descrito anteriormente.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Deverá receber um corpo de resposta no seguinte formato:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Importante

Conectar um conjunto de dados a um projeto de fala personalizado não é necessário para treinar e testar um modelo personalizado usando a API REST ou a CLI de fala. Mas se o conjunto de dados não estiver ligado a nenhum projeto, não pode selecioná-lo para treino ou teste no portal Microsoft Foundry.

Próximos passos

Feedback

Esta página foi útil?

Last updated on 2025-11-18

Partilhar via

Carregar conjuntos de dados de treinamento e teste para fala personalizada