Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Opmerking: als u nieuwkomer bent, kunt u overwegen om CNTK Tekstindelingslezer te gebruiken. In de toekomst wordt LMSequenceReader afgeschaft en uiteindelijk niet ondersteund.
LMSequenceReader is een lezer die teksttekenreeks leest. Het wordt meestal gebruikt voor taalmodelleringstaken. Een voorbeeld van de installatie is als volgt
reader = [
readerType = "LMSequenceReader"
randomize = false
nbruttineachrecurrentiter = 10
unk = "<unk>"
wordclass = "$DataDir$\wordclass.txt"
file = "$DataDir$\penntreebank.train.txt"
labelIn = [
labelDim = 10000
beginSequence = "</s>"
endSequence = "</s>"
]
]
LmSequenceReader heeft de volgende parameters:
randomize: het isNoneofwel ofAuto. Hiermee geeft u de modus aan van het uitvoeren van zinsrandomisatie van het hele corpus.nbruttsineachrecurrentiter: hiermee wordt de limiet aangegeven van het aantal zinnen in een minibatch. De lezer rangschikt invoerzinnen met dezelfde lengte, tot de opgegeven limiet, in elke minibatch. Voor terugkerende netwerken herstelt trainer verborgen laagactiviteiten alleen aan het begin van zinnen. Activiteiten van verborgen lagen worden overgedragen naar de volgende minibatch als een einde van de zin niet wordt bereikt. Het gebruik van meerdere zinnen in een minibatch kan trainingsprocessen versnellen.unk: hiermee geeft u het symbool aan dat ongeziene invoersymbolen vertegenwoordigt. Meestal is dit symbool ''. Ongelezen woorden worden toegewezen aan het symbool.wordclass: hiermee wordt de informatie over de woordklasse opgegeven. Dit wordt gebruikt voor taalmodellering op basis van klassen. Hieronder ziet u een voorbeeld van de klassegegevens. De eerste kolom is de woordindex. De tweede kolom is het aantal exemplaren, de derde kolom is het woord en de laatste kolom is de klasse-id van het woord.0 42068 </s> 01 50770 the 02 45020 <unk> 03 32481 N 04 24400 of 05 23638 to 06 21196 a 07 18000 in 18 17474 and 1file: het bestand bevat tekenreeksen. Hieronder ziet u een voorbeeld. In dit voorbeeld kunt u ook één subblok met de naamlabelInzien.pierre N jaar oud neemt deel aan het bestuur als niet-bestaande directeur nov. N mr. is voorzitter van n.v. de nederlandse publicatiegroep
labelIn: de sectie voor invoerlabel. Het bevat de volgende instellingenbeginSequence– het symbool voor het begin van de zinendSequence– het eindsymbool voor de zinlabelDim– de dimensie van labels. Dit betekent meestal de vocabulaire grootte.