Zoekmachines

Search Engines

6 EC

Semester 1, periode 1

5072ZOEK6Y

Eigenaar Bachelor Informatiekunde
Coördinator dr. Maarten Marx
Onderdeel van Bachelor Informatiekunde, jaar 3

Studiewijzer 2015/2016

Globale inhoud

Zoekmachines zoals Google, Bing, en Yahoo zijn niet weg te denken uit het alledaagse gebruik van het Internet. De meeste gebruikers staan niet stil bij de onderliggende technieken maar toch is een basisbegrip van hoe zoekmachines werken essentieel voor iedereen die zoekmachines in een professionele omgeving wil inzetten. In deze cursus bespreken we hoe zoekmachines werken, wat hun beperkingen zijn en wat de trends op het gebied van zoekmachine-technologieën zijn.

De cursus behandelt de volgende onderwerpen:

  • Inleiding zoekmachine technologie
  • Representatie van documenten
  • Ordenen van documenten op relevantie gegeven een zoekvraag
  • Menselijke interactie en zoektechnologie
  • Software voor het maken van een zoekmachine.

Leerdoelen

Na de cursus is de student in staat om:

  • de belangrijkste onderdelen van moderne Information Retrieval systemen te beschrijven, uit te leggen en toe te passen;
  • de waarde van gebruikers interfaces voor information retrieval systemen te beschrijven, uit te leggen en toe te passen;
  • de potentie van  information retrieval technieken voor de informatie maatschappij van vandaag te beschrijven, uit te leggen en toe te passen;
  • een prototype IR systeem voor flinke gegevensbestanden te bouwen op basis van bestaande off-the-shelf software;

Daarnaast doet  de student  ervaring op met het maken van IR systemen in MySQL+PHP, Lucene, Exist. SOLR  en/of ElasticSearch

Onderwijsvormen

    2 uur hoorcollege en 4 uur werkcollege/computer practicum per week, waarvan 2 uur per week met verplichte aanwezigheid.

    Verdeling leeractiviteiten

    Activiteit

    Aantal uur

    Deeltoets

    2

    Hoorcollege

    12

    Presentatie

    2

    Tentamen

    2

    Werkcollege

    30

    Zelfstudie

    120

    Aanwezigheid

    Aanwezigheidseisen opleiding (OER-B):

    • Voor practica en werkgroepbijeenkomsten met opdrachten geldt een aanwezigheidsplicht.
    • Wanneer studenten niet voldoen aan deze aanwezigheidsplicht kan het onderdeel niet met een voldoende worden afgerond.

    Aanvullende eisen voor dit vak:

    Toetsing

    Onderdeel en weging Details

    Eindcijfer

    50%

    Tentamens

    Herkansbaar

    50%

    Exam 1

    50%

    Exam 2

    50%

    Opdrachten

    6%

    MRS. Chap 1: all exercises. MakeInvertedIndex vragen 1-7

    6%

    Chap 6: 6.8 to 6.13, 6.14 to 6.17. MakeInvertedIndex: Exercises 8.1 to 8.6 about Boolean Search Engines and Exercises 9.1 to 9.5 about Ranked Retrieval

    6%

    Chap 2: 2.1-2.4, and 2.8-2.10. 4.1. Chap 8: 8.1,8.2,8.3, 8.4, 8.8, 8.9, 8.10 MakeInvertedIndex:10 and 12

    6%

    MakeInvertedIndex Q11, Pagerank and Hits assignment, MySQL assignment

    32%

    Text Classification exercise (report, code and presentation)

    6%

    MRS: 12.3, 12.4, 12.6.a, 12.7-9

    38%

    search engine group assignment (report, code and presentations)

    • Assignments are done alone or in pairs.
    • We check for fraud, and when we discover it sent both all involved to the exam-committee.
    • Hand in via Blackboard --> Assignments.
    • For written exercises, only PDF files, or IPython notebooks are accepted.
    • Clearly indicate your name(s), student numbers and email addresses.
    • Each assignment deadline is Thursday 19.00. Too late: 0 points.
    • Even if you work in a team hand in only one assignment.
    • Not following these rules: big chance that your assignment is marked as 0.
    • Possible grades for 3% assignments are: 0 (really bad), .5 (average) and 1 (ruim voldoende, goed, excellent).
    • The two big assignments are graded 0-10.

    Opdrachten

    Week 1

    • MRS. Chap 1: all exercises. MakeInvertedIndex vragen 1-7 (best done in iPython notebook)

    Week 2

    • Chap 6: 6.8 to 6.13, 6.14 to 6.17. MakeInvertedIndex: Exercises 8.1 to 8.6 about Boolean Search Engines and Exercises 9.1 to 9.5 about Ranked Retrieval

    Week 3

    Week 5: report, code and presentation

    Week 6

    • MRS: 12.3, 12.4, 12.6.a, 12.7-9

    Week 7: report, code and presentation

    • search engine group assignment

    Onderstaande opdrachten komen aan bod in deze cursus:

    •    Naam opdracht 1 : beschrijving 2
    •    Naam opdracht 2 : beschrijving 1
    •    ....

    Fraude en plagiaat

    Dit vak hanteert de algemene ‘Fraude- en plagiaatregeling’ van de UvA. Onder plagiaat of fraude wordt verstaan het overschrijven van het werk van een medestudent dan wel het kopiëren van wetenschappelijke bronnen (uit bijvoorbeeld boeken en tijdschriften en van het Internet) zonder daarbij de bron te vermelden. Uiteraard is plagiaat verboden. Hier wordt nauwkeurig op gecontroleerd en streng tegen opgetreden. Bij verdenking van plagiaat wordt de examencommissie van de opleiding ingeschakeld. Wanneer de examencommissie overtuigd is dat er plagiaat gepleegd is dan kan dit maximaal leiden tot een uitsluiting van al het onderwijs van de opleiding voor een heel kalenderjaar. Zie voor meer informatie over het fraude- en plagiaatreglement van de Universiteit van Amsterdam.www.uva.nl/plagiaat

    Weekplanning

     

    Week Topic Literature
    1 Intro, Inverted Index, Boolean Search, SPIMI/BSBI- index construction MRS:Ch1, MRS:Ch4.1-4.3, faceted search: Hearst Ch8.1 and H Ch8.6
    2 Vector Space Model, ranking results, TF-IDF, BM25 MRS:Ch6 except 6.1]
    3 Term Vocabulary, Evaluation MRS: Ch2, Ch8
    4 Exam  
    5 Link analysis. Search User Interfaces. Weighted Zone scoring MRS21; Hearst 1,5,8; MRS 6.1
    6 Document classification with Naive Bayes From MRS 13, study: intro, 13.1, 13.2 (not 13.2.1), Naive Bayes Theory from Slides, 13.5 intro and 13.5.1, 13.6 AND THE SLIDES
    7 Probabilistic approach to IR: Language Models MRS Chap 12. Kaptein et al: relation between language models and wordclouds
    8 Individual exam plus presentations of exam group assignments.

    Rooster

    Contactinformatie

    Coördinator

    • dr. Maarten Marx