Zoekmachines

Search Engines

6 EC

Semester 1, periode 1

5082ZOEK6Y

Eigenaar Bachelor Kunstmatige Intelligentie
Coördinator dr. Maarten Marx
Onderdeel van Bachelor Kunstmatige Intelligentie, jaar 3

Studiewijzer 2016/2017

Globale inhoud

Zoekmachines zoals Google, Bing, en Yahoo zijn niet weg te denken uit het alledaagse gebruik van het Internet. De meeste gebruikers staan niet stil bij de onderliggende technieken maar toch is een basisbegrip van hoe zoekmachines werken essentieel voor iedereen die zoekmachines in een professionele omgeving wil inzetten. In deze cursus bespreken we hoe zoekmachines werken, wat hun beperkingen zijn en wat de trends op het gebied van zoekmachine-technologieën zijn.

De cursus behandelt de volgende onderwerpen:

  • Inleiding zoekmachine technologie
  • Representatie van documenten
  • Ordenen van documenten op relevantie gegeven een zoekvraag
  • Menselijke interactie en zoektechnologie
  • Classificatie van tekst over meerdere categorieën
  • Software voor het maken van een zoekmachine.

Studiemateriaal

Literatuur

Overig

Leerdoelen

Aan het eind van het vak is de student in staat om:

  • de belangrijkste onderdelen van moderne Information Retrieval systemen te beschrijven, uit te leggen en toe te passen;
  • de waarde van gebruikers interfaces voor information retrieval systemen te beschrijven, uit te leggen en toe te passen;
  • de potentie van information retrieval technieken voor de informatie maatschappij van vandaag te beschrijven, uit te leggen en toe te  passen;
  • een prototype IR systeem voor flinke gegevensbestanden te bouwen op basis van bestaande off-the-shelf software;

Daarnaast doet de student ervaring op met het maken van  IR systemen in Python, MySQL, en ElasticSearch (waaronder een systeem met miljoenen documenten).

Onderwijsvormen

  • Hoorcollege
  • Werkcollege
  • Laptopcollege

Verdeling leeractiviteiten

Activiteit

Aantal uur

Deeltoets

2

Hoorcollege

12

Presentatie

2

Tentamen

2

Werkcollege

24

Zelfstudie

126

Aanwezigheid

Aanwezigheidseisen opleiding (OER-B):

  • Voor practica en werkgroepbijeenkomsten met opdrachten geldt een aanwezigheidsplicht, tenzij anders vermeld in de studiegids. Wanneer studenten niet voldoen aan deze aanwezigheidsplicht kan het onderdeel niet met een voldoende worden afgerond.

Aanvullende eisen voor dit vak:

Toetsing

Onderdeel en weging Details

Eindcijfer

50%

Tentamen

Herkansbaar

50%

Tussententamen

50%

Eindtentamen

50%

Opdrachten

Moet ≥ 4.5 zijn

6%

MRS. Chap 1: all exercises. MakeInvertedIndex vragen 1-7

6%

Chap 6: 6.8 to 6.13, 6.14 to 6.17. MakeInvertedIndex: Exercises 8.1 to 8.6 about Boolean Search Engines and Exercises 9.1 to 9.5 about Ranked Retrieval

6%

Chap 2: 2.1-2.4, and 2.8-2.10. 4.1. Chap 8: 8.1,8.2,8.3, 8.4, 8.8, 8.9, 8.10 MakeInvertedIndex:10 and 12

6%

MakeInvertedIndex Q11, Pagerank and Hits assignment, MySQL assignment

32%

Text Classification exercise (report, code and presentation)

6%

MRS: 12.3, 12.4, 12.6.a, 12.7-9

38%

search engine group assignment (report, code and presentations)

Inzage toetsing

Om een inzagemoment aan te vragen, kun je contact opnemen met de coördinator.

Opdrachten

Week 1

  • MRS. Chap 1: all exercises. MakeInvertedIndex vragen 1-7 (best done in iPython notebook)

Week 2

  • Chap 6: 6.8 to 6.13, 6.14 to 6.17. MakeInvertedIndex: Exercises 8.1 to 8.6 about Boolean Search Engines and Exercises 9.1 to 9.5 about Ranked Retrieval

Week 3

Week 5: report, code and presentation

Week 6

  • MRS: 12.3, 12.4, 12.6.a, 12.7-9

Week 7: report, code and presentation

  • search engine group assignment

Onderstaande opdrachten komen aan bod in deze cursus:

  •    Naam opdracht 1 : beschrijving 2
  •    Naam opdracht 2 : beschrijving 1
  •    ....

Fraude en plagiaat

Dit vak hanteert de algemene ‘Fraude- en plagiaatregeling’ van de UvA. Onder plagiaat of fraude wordt verstaan het overschrijven van het werk van een medestudent dan wel het kopiëren van wetenschappelijke bronnen (uit bijvoorbeeld boeken en tijdschriften en van het Internet) zonder daarbij de bron te vermelden. Uiteraard is plagiaat verboden. Hier wordt nauwkeurig op gecontroleerd en streng tegen opgetreden. Bij verdenking van plagiaat wordt de examencommissie van de opleiding ingeschakeld. Wanneer de examencommissie overtuigd is dat er plagiaat gepleegd is dan kan dit maximaal leiden tot een uitsluiting van al het onderwijs van de opleiding voor een heel kalenderjaar. Zie voor meer informatie over het fraude- en plagiaatreglement van de Universiteit van Amsterdam.www.uva.nl/plagiaat

Weekplanning

Week Topic Literature
1 Intro, Inverted Index, Boolean Search, SPIMI/BSBI- index construction MRS:Ch1, MRS:Ch4.1-4.3, faceted search: Hearst Ch8.1 and H Ch8.6
2 Vector Space Model, ranking results, TF-IDF, BM25 MRS:Ch6 except 6.1]
3 Term Vocabulary, Evaluation MRS: Ch2, Ch8
4 Exam  
5 Link analysis. Search User Interfaces. Weighted Zone scoring MRS21; Hearst 1,5,8; MRS 6.1
6 Document classification with Naive Bayes From MRS 13, study: intro, 13.1, 13.2 (not 13.2.1), Naive Bayes Theory from Slides, 13.5 intro and 13.5.1, 13.6 AND THE SLIDES
7 Probabilistic approach to IR: Language Models MRS Chap 12. Kaptein et al: relation between language models and wordclouds
8 Individual exam plus presentations of exam group assignments.

Aanvullende informatie

 Bovenstaande informatie kan allemaal nog wijzigen. Gebruik voor de exacte opgaven en de stof voor elke week altijd de site  http://maartenmarx.nl/teaching/zoekmachines/

Contactinformatie

Coördinator

  • dr. Maarten Marx