Search Engines
6 EC
Semester 1, periode 1
5082ZOEK6Y
Eigenaar | Bachelor Kunstmatige Intelligentie |
Coördinator | dr. Maarten Marx |
Onderdeel van | Bachelor Kunstmatige Intelligentie, jaar 3 |
Zoekmachines zoals Google, Bing, en Yahoo zijn niet weg te denken uit het alledaagse gebruik van het Internet. De meeste gebruikers staan niet stil bij de onderliggende technieken maar toch is een basisbegrip van hoe zoekmachines werken essentieel voor iedereen die zoekmachines in een professionele omgeving wil inzetten. In deze cursus bespreken we hoe zoekmachines werken, wat hun beperkingen zijn en wat de trends op het gebied van zoekmachine-technologieën zijn.
De cursus behandelt de volgende onderwerpen:
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Gratis te verkrijgen op http://nlp.stanford.edu/IR-book/
Hearst, M.A. Search User Interfaces, Cambridge University Press, September, 2009. Read it online.
Hearst, M. User Interfaces for Search, Chapter 2 of Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition), Addison Wesley, 2011. official chapter pdf unofficial chapter pdf, but includes the references the book
Clinton Gormley, Zachary Tong. Elasticsearch: The Definitive Guide. https://www.elastic.co/guide/en/elasticsearch/guide/current/index.html
Aan het eind van het vak is de student in staat om:
Daarnaast doet de student ervaring op met het maken van IR systemen in Python, MySQL, en ElasticSearch (waaronder een systeem met miljoenen documenten).
Activiteit | Aantal uur |
Deeltoets | 2 |
Hoorcollege | 12 |
Presentatie | 2 |
Tentamen | 2 |
Werkcollege | 24 |
Zelfstudie | 126 |
Aanwezigheidseisen opleiding (OER-B):
Aanvullende eisen voor dit vak:
Onderdeel en weging | Details |
Eindcijfer | |
50% Tentamen | Herkansbaar |
50% Tussententamen | |
50% Eindtentamen | |
50% Opdrachten | Moet ≥ 4.5 zijn |
6% MRS. Chap 1: all exercises. MakeInvertedIndex vragen 1-7 | |
6% Chap 6: 6.8 to 6.13, 6.14 to 6.17. MakeInvertedIndex: Exercises 8.1 to 8.6 about Boolean Search Engines and Exercises 9.1 to 9.5 about Ranked Retrieval | |
6% Chap 2: 2.1-2.4, and 2.8-2.10. 4.1. Chap 8: 8.1,8.2,8.3, 8.4, 8.8, 8.9, 8.10 MakeInvertedIndex:10 and 12 | |
6% MakeInvertedIndex Q11, Pagerank and Hits assignment, MySQL assignment | |
32% Text Classification exercise (report, code and presentation) | |
6% MRS: 12.3, 12.4, 12.6.a, 12.7-9 | |
38% search engine group assignment (report, code and presentations) |
Om een inzagemoment aan te vragen, kun je contact opnemen met de coördinator.
MRS. Chap 1: all exercises. MakeInvertedIndex vragen 1-7 (best done in iPython notebook)
Chap 6: 6.8 to 6.13, 6.14 to 6.17. MakeInvertedIndex: Exercises 8.1 to 8.6 about Boolean Search Engines and Exercises 9.1 to 9.5 about Ranked Retrieval
MRS: 12.3, 12.4, 12.6.a, 12.7-9
search engine group assignment
Onderstaande opdrachten komen aan bod in deze cursus:
Dit vak hanteert de algemene ‘Fraude- en plagiaatregeling’ van de UvA. Onder plagiaat of fraude wordt verstaan het overschrijven van het werk van een medestudent dan wel het kopiëren van wetenschappelijke bronnen (uit bijvoorbeeld boeken en tijdschriften en van het Internet) zonder daarbij de bron te vermelden. Uiteraard is plagiaat verboden. Hier wordt nauwkeurig op gecontroleerd en streng tegen opgetreden. Bij verdenking van plagiaat wordt de examencommissie van de opleiding ingeschakeld. Wanneer de examencommissie overtuigd is dat er plagiaat gepleegd is dan kan dit maximaal leiden tot een uitsluiting van al het onderwijs van de opleiding voor een heel kalenderjaar. Zie voor meer
informatie over het fraude- en plagiaatreglement van de Universiteit van Amsterdam.www.uva.nl/plagiaat
Week | Topic | Literature |
---|---|---|
1 | Intro, Inverted Index, Boolean Search, SPIMI/BSBI- index construction | MRS:Ch1, MRS:Ch4.1-4.3, faceted search: Hearst Ch8.1 and H Ch8.6 |
2 | Vector Space Model, ranking results, TF-IDF, BM25 | MRS:Ch6 except 6.1] |
3 | Term Vocabulary, Evaluation | MRS: Ch2, Ch8 |
4 | Exam | |
5 | Link analysis. Search User Interfaces. Weighted Zone scoring | MRS21; Hearst 1,5,8; MRS 6.1 |
6 | Document classification with Naive Bayes | From MRS 13, study: intro, 13.1, 13.2 (not 13.2.1), Naive Bayes Theory from Slides, 13.5 intro and 13.5.1, 13.6 AND THE SLIDES |
7 | Probabilistic approach to IR: Language Models | MRS Chap 12. Kaptein et al: relation between language models and wordclouds |
8 | Individual exam plus presentations of exam group assignments. |
Bovenstaande informatie kan allemaal nog wijzigen. Gebruik voor de exacte opgaven en de stof voor elke week altijd de site http://maartenmarx.nl/teaching/zoekmachines/