Spraakherkenning en -synthese

Speech Recognition and Speech Synthesis

6 EC

Semester 1, periode 1

5082SPSY6Y

Eigenaar Bachelor Kunstmatige Intelligentie
Coördinator Paul Boersma
Onderdeel van Minor Kunstmatige Intelligentie, jaar 1Bachelor Kunstmatige Intelligentie, jaar 3

Studiewijzer 2020/2021

Globale inhoud

Spraak is de meest natuurlijke vorm van communicatie tussen mensen, en wordt dit ook steeds meer tussen mens en machine. Spraaktechnologie maakt zulke mens–machineinteractie mogelijk, maar kent ook zijn beperkingen. Om die beperkingen verder op te heffen is een goed inzicht nodig van gesproken taal en van de mogelijkheden, problemen en onderliggende algoritmen van spraakanalyse, spraaksynthese, spraakherkenning en spraakmanipulatie. Deze cursus geeft daar een aanzet toe. Met bestaande software is het gelukkig goed mogelijk om spraakanalyse, -synthese, -herkenning en -manipulatie te demonstreren en om hiermee zelf practicumopdrachten uit te voeren.

Enkele onderdelen zijn:

  • Akoestische, auditieve en articulatorische kenmerken van o.a. klinkers en medeklinkers.
  • Spectrale analyse van spraak: Fouriertransformatie, formanten, MFCC.
  • Toonhoogteanalyse van spraak: periodiciteit, tonen, intonatie.
  • Spraakproductiemodellen: bron–filtermodel, lineaire predictie.
  • Spraakherkenningsmodellen: Hidden Markov Models, classificatie via neurale netwerken.
  • Manipulatie van toonhoogte, duur, formanten (handmatig) of van holistische spraak (via neurale netwerken zoals WaveNet).

Er zijn nog andere cursussen binnen de BA Kunstmatige Intelligentie die zich bezighouden met “natuurlijke taal”. Meestal gaat dat over de relatie tussen geschreven taal en betekenis. Deze cursus is de enige die zich met gesproken taal bezighoudt. Waarschijnlijk is gesproken taal natuurlijker dan geschreven taal; in ieder geval volmaakt deze cursus je begrip van hoe het taalbegripsproces (van geluid naar betekenis) zowel als het taalproductieproces (van betekenis naar geluid) technologisch kan worden gemodelleerd.

Studiemateriaal

Literatuur

  • Alle literatuur wordt beschikbaar gesteld op Canvas. Zo nu en dan wordt een boek gebruikt dat je al kent van eerdere cursussen: Daniel Jurafsky & James H. Martin (to appear), Speech and Language Processing, Third Edition. Draft (2018) downloadable from https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf

Software

  • - Paul Boersma & David Weenink (1992-2020): Praat: doing phonetics by computer. Freely downloadable from www.praat.org.

    - Machine learning software of your choice, e.g., TensorFlow (with Keras) or PyTorch.

Overig

Leerdoelen

  • The student is able to describe speech sounds acoustically, auditorily and articulatorily.
  • The student is able to explain algorithms for speech analysis.
  • The student is able to generate speech sounds from scratch.
  • The student is able to convert speech via a spectral representation to phonetic likelihoods.
  • The student is able to apply multiple phonological and morphological rules to create the mapping to the lexical form.

Onderwijsvormen

  • Hoorcollege
  • Laptopcollege

Verdeling leeractiviteiten

Activiteit

Aantal uur

Zelfstudie

168

Aanwezigheid

Aanwezigheidseisen opleiding (OER-B):

  • Voor practica en werkgroepbijeenkomsten met opdrachten geldt een aanwezigheidsplicht. De invulling van deze aanwezigheidsplicht kan per vak verschillen en staat aangegeven in de studiewijzer. Wanneer studenten niet voldoen aan deze aanwezigheidsplicht kan het onderdeel niet met een voldoende worden afgerond.

Toetsing

Onderdeel en weging Details

Eindcijfer

26%

huiswerk

10%

test 1

10%

test 2

10%

test 3

30%

Eindtoets

14%

final take-home

Fraude en plagiaat

Dit vak hanteert de algemene 'Fraude- en plagiaatregeling' van de UvA. Hier wordt nauwkeurig op gecontroleerd. Bij verdenking van fraude of plagiaat wordt de examencommissie van de opleiding ingeschakeld. Zie de Fraude- en plagiaatregeling van de UvA: http://student.uva.nl

Weekplanning

WeeknummerOnderwerpenStudiestof
1
2
3
4

Rooster

Het rooster van dit vak is in te zien op DataNose.

Aanvullende informatie

  • Alle informatie over de cursus, inclusief de opdrachten, worden beschikbaar gesteld op Canvas. De gemaakte opdrachten worden digitaal ingeleverd.
  • De cursus wordt soms in het Nederlands, soms in het Engels gedoceerd. Het meeste materiaal is in het Engels.

 

Verwerking vakevaluaties

Hieronder vind je de aanpassingen in de opzet van het vak naar aanleiding van de vakevaluaties.

Contactinformatie

Coördinator

  • Paul Boersma