Spraakanalyse en -synthese

Speech Analysis and Synthesis

6 EC

Semester 1, periode 1

5082SPAS6Y

Eigenaar Bachelor Kunstmatige Intelligentie
Coördinator Paul Boersma
Onderdeel van Bachelor Kunstmatige Intelligentie, jaar 3Bachelor Bèta-gamma, major Kunstmatige Intelligentie, jaar 3

Studiewijzer 2023/2024

Globale inhoud

Spraak is de meest natuurlijke vorm van communicatie tussen mensen, en wordt dit ook steeds meer tussen mens en machine. Spraaktechnologie maakt zulke mens–machineinteractie mogelijk, maar kent ook zijn beperkingen. Om die beperkingen verder op te heffen is een goed inzicht nodig van gesproken taal en van de mogelijkheden, problemen en onderliggende algoritmen van spraakanalyse, spraaksynthese, spraakclassificatie en spraakmanipulatie. Deze cursus geeft daar een aanzet toe. Met bestaande software is het gelukkig goed mogelijk om spraakanalyse, -synthese, -classificatie en -manipulatie te demonstreren en om hiermee zelf practicumopdrachten uit te voeren.

Enkele onderdelen zijn:

  • Akoestische, auditieve en articulatorische kenmerken van o.a. klinkers en medeklinkers.
  • Spectrale analyse van spraak: Fouriertransformatie, formanten, MFCC.
  • Toonhoogteanalyse van spraak: periodiciteit, tonen, intonatie.
  • Spraakproductiemodellen: bron–filtermodel, lineaire predictie.
  • Spraakclassificatiemodellen: discriminantanalyse, convolutionele neurale netwerken, Wav2Vec.
  • Manipulatie van toonhoogte, duur, formanten (handmatig) of van holistische spraak (via neurale netwerken).

Er zijn nog andere cursussen binnen de BA Kunstmatige Intelligentie die zich bezighouden met “natuurlijke taal”. Meestal gaat dat over de relatie tussen geschreven taal en betekenis. Deze cursus is de enige die zich met gesproken taal bezighoudt. Waarschijnlijk is gesproken taal natuurlijker dan geschreven taal; in ieder geval volmaakt deze cursus je begrip van hoe het taalbegripsproces (van geluid naar betekenis) zowel als het taalproductieproces (van betekenis naar geluid) technologisch kan worden gemodelleerd.

Leerdoelen

  • The student is able to describe speech sounds acoustically, auditorily and articulatorily.
  • The student understands algorithms for speech analysis.
  • The student is able to generate speech sounds from scratch.
  • The student is able to classify speech via neural networks.
  • The student is able to modify speech via neural networks.

Onderwijsvormen

  • Hoorcollege
  • Laptopcollege

Zie Canvas onder "Ten ways to learn".

Verdeling leeractiviteiten

Activiteit

Uren

Hoorcollege

28

Laptopcollege

56

Tentamen

2

Zelfstudie

82

Totaal

168

(6 EC x 28 uur)

Aanwezigheid

Aanwezigheidseisen opleiding (OER-B):

  • Voor practica en werkgroepbijeenkomsten met opdrachten geldt een aanwezigheidsplicht. De invulling van deze aanwezigheidsplicht kan per vak verschillen en staat aangegeven in de studiewijzer. Wanneer studenten niet voldoen aan deze aanwezigheidsplicht kan het onderdeel niet met een voldoende worden afgerond.

Toetsing

Onderdeel en weging Details

Eindcijfer

15%

final take-home

36%

final test

1%

HW 1

1%

HW 10

1%

HW 11

1%

HW 12

1%

HW 13

1%

HW 2

1%

HW 3

1%

HW 4

1%

HW 5

1%

HW 6

1%

HW 7

1%

HW 8

1%

HW 9

12%

test 1

12%

test 2

12%

test 3

Zie Canvas.

Inzage toetsing

Via een email aan iedereen.

Inzage gebeurt op individuele basis.

Opdrachten

Zie onder Modules op Canvas.

Fraude en plagiaat

Dit vak hanteert de algemene 'Fraude- en plagiaatregeling' van de UvA. Hier wordt nauwkeurig op gecontroleerd. Bij verdenking van fraude of plagiaat wordt de examencommissie van de opleiding ingeschakeld. Zie de Fraude- en plagiaatregeling van de UvA: http://student.uva.nl

Weekplanning

Weeknummer Onderwerpen Studiestof
1 zie Canvas zie Canvas
2 zie Canvas zie Canvas
3 zie Canvas zie Canvas
4 zie Canvas  
5 zie Canvas  
6 zie Canvas  
7 zie Canvas  
8 zie Canvas  

Rooster

Het rooster van dit vak is in te zien op DataNose.

Contactinformatie

Coördinator

  • Paul Boersma