Name der Veranstaltung: Praktikum Collective Intelligence
Kurzbeschreibung: In unserer vernetzen Welt trägt eine große Anzahl von Menschen im World Wide Web eine gewaltige Menge an persönlichen Erfahrungen, Einschätzungen und Meinungen zusammen. Darüberhinaus existiert eine riesige Masse an Daten, die durch die Beobachtung des Verhaltens von Menschen im Internet potentiell anfallen. Diese Daten können durch Verfahren ausgewertet werden, dessen Grundprinzipien einfach sind, aber erstaunliche Erkenntnisse liefern können. Dieses Feld nennt man auch "Collective Intelligence". Dazu gehören Verfahren wie Recommender Systeme, Clustering, Erkennung von Gruppen, Klassifikation, Suchverfahren und ähnliches. In diesem Praktikum sollen die Teilnehmer/-innen dieses Themengebiet ausschnittsweise kennen lernen und einige Verfahren praktisch umsetzen. Neben der Algorithmik der Verfahren spielen dabei auch Fragen der Gewinnung von Datenbeständen (z.B. durch einen Web Crawler) und der Evaluation von Resultaten (z.B. durch Anwendung von Metriken wie Precision) eine Rolle.


Prof. Dr. Johann Schlichter, Dr. Wolfgang Wörndl, Michele Brocco

Master-Praktikum im SS 2011

Collective Intelligence

In unserer vernetzen Welt trägt eine große Anzahl von Menschen im World Wide Web eine gewaltige Menge an persönlichen Erfahrungen, Einschätzungen und Meinungen zusammen. Darüberhinaus existiert eine riesige Masse an Daten, die durch die Beobachtung des Verhaltens von Menschen im Internet potentiell anfallen. Diese Daten können durch Verfahren ausgewertet werden, dessen Grundprinzipien einfach sind, aber erstaunliche Erkenntnisse liefern können. Dieses Feld nennt man auch "Collective Intelligence". Dazu gehören Verfahren wie Recommender Systeme, Clustering, Erkennung von Gruppen, Klassifikation, Suchverfahren und ähnliches. In diesem Praktikum sollen die Teilnehmer/-innen dieses Themengebiet ausschnittsweise kennen lernen und einige Verfahren praktisch umsetzen. Neben der Algorithmik der Verfahren spielen dabei auch Fragen der Gewinnung von Datenbeständen (z.B. durch einen Web Crawler) und der Evaluation von Resultaten (z.B. durch Anwendung von Metriken wie Precision) eine Rolle.

Durchführung

  • Dieses Master-Praktikum richtet sich an Master-Studierende in Informatik oder Wirtschaftsinformatik (Modul IN2106).
    • Bachelor-Studierende können auch teilnehmen und einen Schein für ein Bachelor-Praktikum erhalten, wenn das Praktikum nicht mit Master-Studierenden voll wird.
  • Voraussetzung sind grundlegende Programmierkenntnisse in Java, sowie Erfahrung im Umgang mit einer Software-Entwicklungsumgebung.
  • Das Praktikum findet mit 5-6 Teams mit je 2 Studenten statt.
  • Insgesamt gibt es vier Blöcke, siehe Ablauf unten. Die Bearbeitung beginnt mit dem ersten Besprechnungstermin eines Blocks. Zu den ersten drei Blöcken gibt es ein 15-20 minütiges Testat, der vierte Block wird mit einer 15-20 minütigen Präsentation abgeschlossen. Die Gesamtnote bildet sich anteilig aus den Teilnoten pro Block, wobei mindestens drei der vier Blöcke bestanden sein müssen. Die Teilnoten pro Block setzen sich aus Testat (einzelne Note pro Teilnehmer) und eingesandte Lösung (Note pro Team) zusammen.
  • Die Besprechungen finden Dienstags, 15:30-17 Uhr in Raum MI 01.07.023 statt.
    • Sprechstunden ist an den Dienstag nachmittagen ohne Besprechungstermin oder nach Vereinbarung
  • Eine verbindliche Vorbesprechung findet in der 1.Vorlesungswoche am 03.05.2011 ab 15:30 Uhr statt.
  • Die Teilaufgaben werden als Email in geeigneter Form (Java-Quellcode, Log-Dateien o.ä., kurzes README) an woerndl@in.tum.de, brocco@in.tum.de abgegeben
  • [Es ist gut möglich und erwünscht, den Themenbereich nach Abschluss des Praktikums in einer Studienarbeit, z.B. Masterarbeit oder Guided Research Modul, weiter zu vertiefen.]

Anmeldung

  • Eine verbindliche (!) Anmeldung ist ab sofort per Email an Wolfgang Wörndl möglich.
    • Nötige Angaben: Name+Vorname, Matrikelnr., Studiengang (z.B. Master Informatik)
  • Sie können sich als Team von 2 Studierenden anmelden. Bei Einzelanmeldungen warten wir eine weitere Einzelanmeldung ab, um ein Team bilden zu können.
  • Master-Studierende können sich bis zum 13.02.2011 vorrangig anmelden, nach diesem Termin werden auch Anmeldungen von Bachelor-Studierenden angenommen.

Teams

  • Team 1: Vadim Cebotari, Irina Cebotari
  • Team 2: Zardosht Hodaie, Otto von Wesendonk
  • Team 3: Dhyan Blum, Daniel Raumer
  • Team 4: Alexander Aprelkin, Julia Portna
  • Team 5: Alexandru Zerva, Alexander Bartsch

(Voraussichtlicher) Ablauf:

Vorbesprechung: Di, 03.05.2011, 15:30 Uhr

Block 1: Collaborative Filtering

Überblick Inhalt: Anwendung von verschiedenen Verfahren von Collaborative Filtering (z.B. User- vs. Item-based) auf den MovieLens Data Set (enthält eine Menge von Filmen mit Bewertungen von Benutzern); Evaluation der Qualität der Empfehlungen mit verschiedenen Metriken (z.B. Precision)

Folien/Aufgabenstellung: PDF-1, PDF-2, PDF-6

Zeitplan:
- Di, 10.05.2011, 14:30-16 Uhr: Aufgabenbesprechung
- bis Mo, 30.05.2011: Abgabe der Lösungen
- Di, 31.05.2011, 13-15 Uhr (oder nach Vereinbarung): Testate

Block 2: Crawling von Web-Seiten

Überblick Inhalt: Implementierung eines Web Crawlers, der zu den Filmen aus MovieLens die Keywords von IMDB ermittelt; geeignete Speicherung der ermittelten Daten und  Realisierung einer Abfragefunktion

Folien/Aufgabenstellung: PDF-1, PDF-2, PDF-6

Zeitplan:
- Di, 31.05.2011, 15:30-17 Uhr: Aufgabenbesprechung
- bis Mo, 20.06.2011: Abgabe der Lösungen
- Di, 21.06.2011, 13-15 Uhr (oder nach Vereinbarung): Testate

Block 3: Clustering

Überblick Inhalt: Implementierung von Clustering auf den IMDB Keywords, um ähnliche Filme zu ermitteln

Folien/Aufgabenstellung: PDF-1, PDF-2, PDF-6
Keywords (optional): keywords.txt

Zeitplan:
- Di, 21.06.2011, 15:30-17 Uhr: Aufgabenbesprechung
- bis Mo, 04.07.2011: Abgabe der Lösungen
- Di, 05.07.2011, 13-15 Uhr (oder nach Vereinbarung): Testate

Block 4: Eigenes Projekt

Überblick Inhalt: Eigenes Projekt, bei dem entweder das Collaborative Filtering aus dem Block 1 oder das Clustering aus Block 3 weiter entwickelt wird, im Sinne eines hybriden Recommender System kombiniert wird, oder eine andere eigene Idee im Rahmen der bis hier erstellen Lösung umgesetzt wird.

Folien/Aufgabenstellung: PDF-1, PDF-2, PDF-6

Zeitplan:
- Di, 05.07.2011, 15:30-17 Uhr: Aufgabenbesprechung
- bis Mo, 25.07.2011: Abgabe der Lösungen
- Di, 26.07.2011, 15:30-17 Uhr: Präsentationen

Literatur:

  • Toby Segaran, Mary Treseler O`Brien: Programming Collective Intelligence: Building Smart Web 2.0 Applications. O'Reilly, 2007.
  • Satnam Alag, Richard MacManus: Collective Intelligence in Action. Manning Pub., 2008.
  • Haralambos Marmanis, Dmitry Babenko: Algorithms of the Intelligent Web, Manning Pub., 2009.

Ansprechpartner: