Scientific Data Analysis

6 EC

Semester 1, periode 2

5062SCDA6Y

Eigenaar Bachelor Informatica
Coördinator dr. Rick Quax
Onderdeel van Minor Computational Science, jaar 1Bachelor Informatica, jaar 3

Studiewijzer 2017/2018

Globale inhoud

Data is indispensable to a computational scientist and a computer model has little real-world meaning if it is not based on real data. Data can be used to make predictions of future events, repair missing data, or infer how elements of a system interact, among others.

There are different types of data. There are also different types of analyses that one can perform on the data, depending on the type of data and on other properties. Approaches range from fully model-based to (almost) data-only, each of which have associated strengths, weaknesses, and pitfalls. In this intensive course the student will learn his or her first bird’s eye view of a computational scientist’s approach to data-analysis, while simultaneously obtaining practical experience with selected data analysis problems.

The focus of this course is explicitly on breadth, not depth. In particular, no single analysis method will be studied in its full depth or with rigorous mathematical proofs. Instead, the student will first attend lectures focused on overview and will then learn selected topics hands-on by analyzing real data in practical programming assignments. Students are also made wary of common pitfalls in a practical manner.

Some of the course material must be apprehended through self-study (typically connected to a practical assignment). The course may be experienced as relatively intensive, especially if you have little programming or math skills.

The lecturer is himself a researcher in the computational science domain who can relate to his own practical experiences.

Studiemateriaal

Literatuur

  • Optional: book "All of Statistics" by Wasserman.

Software

  • Jupyter Notebooks (eigen laptop)

Overig

  • All necessary reading material and data for each assignment will be provided through Blackboard free of charge.
  • Slides

Leerdoelen

At the end of this course:

  • You understand the predominant types of data in science;
  • You know a number of problems that can be addressed using from data;
  • You understand the difference between model-based and data-only analysis;
  • You know how to calculate basic correlations from data and some pitfalls;
  • You know how to analyze time-series data and some pitfalls;
  • You know basic methods to make predictions based on data;
  • You know basic methods to repair missing data;
  • You know basic methods to fit a model to the data and some pitfalls;
  • You know a basic method to manage large data effectively;
  • You will have had hands-on experience with analyzing real data.

Onderwijsvormen

  • Hoorcollege
  • Laptopcollege
  • Zelfstudie
  • Zelfstandig werken aan bijv. project/scriptie
  • Presentatie/symposium

In the lecture I will set out the broad overview; in the practical session the student will have hands-on experience with selected topics within this overview; the second half of the course is a team-based project working with real data, applying some of the learned techniques and concepts into practice.

Verdeling leeractiviteiten

Activiteit

Aantal uur

Hoorcollege

12

Laptopcollege

30

Presentatie

4

Zelfstudie

122

Academische vaardigheden

A project report is obligatory at the end of the course. The format of this report is quite strict to reflect already the structure of real academic papers, forcing students to focus on what is really important and central to the conclusion. A list of writing tips is provided (http://writingyourthesis.wikispaces.com/) to help with this process, so that students further develop the academic writing skill.

Aanwezigheid

Aanwezigheidseisen opleiding (OER-B):

  • Voor practica en werkgroepbijeenkomsten met opdrachten geldt een aanwezigheidsplicht. Wanneer studenten niet voldoen aan deze aanwezigheidsplicht kan dit als gevolg hebben dat het onderdeel niet met een voldoende kan worden afgerond.

Aanvullende eisen voor dit vak:

Attendance required for the lectures. For the lab sessions it is recommended, and earns you "e-mail" right -- i.e., you may not be absent during the lab sessions but then ask many questions through e-mail. Attendance is recorded.

Toetsing

Onderdeel en weging Details Opmerkingen

Eindcijfer

45%

Answer sheets lab sessions

Moet ≥ 5.5 zijn

5%

Full attendance

You receive a 10 if you attended all lectures. You receive 0 if you missed one lecture. You may not miss more than one lecture.

15%

Poster presentation

Moet ≥ 5.5 zijnMarking scheme will be uploaded to Blackboard.

35%

Final report

Moet ≥ 5.5 zijn

There are four assignments in the first four weeks, one per week, which contribute in total 50% to the final grade. Each relative weight of the assignment is equal to the total number of points that can be earned, which is written at the top of the assignment document and is in the range 110-140. For the final

Inzage toetsing

Om een inzagemoment aan te vragen, kun je contact opnemen met de coördinator.

Opdrachten

Assignment 1

  • Cross-sectional, parametric.

Assignment 2

  • Cross-sectional, non-parametric

Assignment 3

  • Time-series

Assignment 4

  • Text-based analysis

Poster presentation

  • Print a poster (A2 or A1), prepare an elevator pitch, and answer questions.

Final report

  • Strict guidelines.

Fraude en plagiaat

Over het algemeen geldt dat elke uitwerking die je inlevert ter verkrijging van een beoordeling voor een vak je eigen werk moet zijn, tenzij samenwerken expliciet door de docent is toegestaan. Het inzien of kopiëren van andermans werk (zelfs als je dat hebt gevonden bij de printer, in een openstaande directory of op een onbeheerde computer) of materiaal overnemen uit een boek, tijdschrift, website, code repository of een andere bron - ook al is het gedeeltelijk - en inleveren alsof het je eigen werk is, is plagiaat.

We juichen toe dat je het cursusmateriaal en de opdrachten met medestudenten bespreekt om het beter te begrijpen. Je mag bronnen op het web raadplegen om meer te weten te komen over het onderwerp en om technische problemen op te lossen, maar niet voor regelrechte antwoorden op opgaven. Als in een uitwerking gebruik is gemaakt van externe bronnen zonder dat een bronvermelding is vermeld (bijvoorbeeld in de rapportage of in commentaar in de code), dan kan dat worden beschouwd als plagiaat.

Deze regels zijn er om alle studenten een eerlijke en optimale leeromgeving aan te kunnen bieden. De verleiding kan groot zijn om te plagiëren als de deadline voor een opdracht nadert, maar doe het niet. Elke vorm van plagiaat wordt bestraft. Als een student ernstige fraude heeft gepleegd, kan dat leiden tot het uitschrijven uit de Universiteit. Zie voor meer informatie over het fraude- en plagiaatreglement van de Universiteit van Amsterdam: www.uva.nl/plagiaat

Weekplanning

Weeknummer Onderwerpen Studiestof
1  Cross-sectional, parametric Slides and referenced material in assignment document; optional: book. Self-study is explicitly stimulated.
2  

Cross-sectional, non-parametric

Slides and referenced material in assignment document; optional: book. Self-study is explicitly stimulated. 
3  

Time-series

 Slides and referenced material in assignment document; optional: book. Self-study is explicitly stimulated.
4  

Text-based analysis

 Slides and referenced material in assignment document; optional: book. Self-study is explicitly stimulated.
5  Forming teams and selecting topics; start project work  Self-study.
6  Project work   Self-study.
7  Project work   Self-study.
8 Work; poster and report   Self-study.

 

Rooster

Het rooster van dit vak is in te zien op DataNose.

Aanvullende informatie

  • This course is part of the minor program Computational Science and runs in parallel with Modelling and Simulation. It includes obligatory two-hour lectures and practical computer lab-sessions. At the end of the course, the participants will present the results of their work in a presentation session.
  • You will need some programming experience in a language such as Python (preferred), R, Matlab, or C/C++. Also a ready knowledge of mathematics at least at the level of  "Wiskunde B" is needed, as well as knowledge of basic linear algebra, basic calculus, and basic statistics.
  • Presence at the lectures is obligatory.

Contactinformatie

Coördinator

  • dr. Rick Quax