Inleiding
Hoe kunnen we systemen maken die kunnen leren? Of meer specifiek: hoe extraheren we relevante, interessante informatie uit grote databases? Je zult leren dat er verschillende algoritmen zijn, afhankelijk van de vraag die je wilt beantwoorden en van de eigenschappen van de data waar je mee moet werken. In een project zul je de algoritmen implementeren en testen op bestaande datasets.
|
Leerdoelen
Aan het eind van de cursus kun je - bedenken en beargumenteren welk data mining algoritme geschikt voor welk probleem;
- verschillende data mining algoritmen toepassen, analyseren en implementeren;
- de kwaliteit van de verkregen oplossingen evalueren.
|
Onderwerpen
We zullen verschillende problemen behandelen met bijbehorende algoritmen: - exploratieve data analyse (histograms, boxplots, principale componenten-analyse, multi-dimensionele schaling);
- beschrijvende modellen (clustering, associatieanalyse, kansmodellen);
- classificeren (beslisbomen, naive Bayes classificatoren, naaste buren-algoritme, neurale netwerken).
Daarbij passeren verschillende basisprincipes de revue zoals (rekenen met) afstandsmaten, (Bayesiaanse) kansrekening, cross-validatie en bootstrapping.
|
Studielastverdeling
- 32 uur hoorcollege
- 32 uur projectwerk
- 32 uur werkcollege
- 72 uur zelfstudie
|
Toelichting werkvormen
De theorie wordt behandeld in hoorcolleges en geoefend in de werkcolleges en aan de hand van huiswerkopdrachten. Praktische ervaring wordt opgedaan in een project, waar je zelf een data mining algoritmen toepast op een dataset.
|
Toetsvorm
De beoordeling wordt gebaseerd op twee schriftelijke tentamens, huiswerkopgaven en een werkstuk.
|
Vereiste voorkennis
Je - bent bekend met elementaire begrippen uit de kansrekening als kansen, kansverdelingen en verwachtingswaarden;
- kunt eenvoudige berekeningen hiermee uitvoeren;
- weet wat vectoren en matrices zijn;
- kunt deze optellen en met elkaar vermenigvuldigen.
Deze voorkennis komt aan de orde in de cursus Wiskunde 1 (voor KI).
|
Literatuur
- "Introduction to data mining", Tan, Steinbach and Kumar (sterk aanbevolen)
- "Data Mining: Introductory and Advanced Topics", Dunham (optioneel)
- "Principles of data mining", Hand, Mannila and Smyth (optioneel)
- "Data mining, concepts and techniques", Han and Kamber (optioneel)
|
Website
http://www.cs.ru.nl/~tomh/onderwijs/lrs
|
Bijzonderheden
Deze cursus wordt in studiejaar 2008-2009 door tweede- en derdejaars studenten Informatica en Informatiekunde gevolgd.
|