I144 – Big Data Platforms

Modul
Big Data Platforms
Big Data Platforms
Modulnummer
I144
Version: 1
Fakultät
Informatik/Mathematik
Niveau
Master
Dauer
1 Semester
Turnus
Sommer- und Wintersemester
Modul­verantwortliche/-r

Prof. Dr.-Ing. Maik Thiele
maik.thiele(at)htw-dresden.de

Dozierende

Prof. Dr.-Ing. Maik Thiele
maik.thiele(at)htw-dresden.de

Lehrsprache(n)

Deutsch

ECTS-Credits

5.00 Credits

Workload

150 Stunden

Lehrveranstaltungen

4.00 SWS (2.00 SWS Vorlesung | 2.00 SWS Praktikum)

Selbststudienzeit

90.00 Stunden

Prüfungs­vorleistung(en)
Keine Angabe
Prüfungsleistung(en)

Schriftliche Prüfungsleistung
Prüfungsdauer: 90 min | Wichtung: 100 %

Lehrform

2/0/2  V/Ü/P

Medienform
Keine Angabe
Lehrinhalte / Gliederung
  • Big Data: Motivation, Paradigmenwechsel, neue Herausforderungen, Scale-Up versus Scale-Out, Containerization
  • NoSQL: Definiton, Datenmodelle und Systemtypen, CAP-Theorem, Polyglotte Persistenz
  • Key-Value-DBs: Datenmodell, Value-Datentypen, Vorstellung Redis
  • Document-DBs: JSON/JSONB, Datentypen, eingebettete Dokumente, Modellierung von Beziehung, Vorstellung MongoDB
  • Information Retrieval: Definition, tf-idf-Gewichtung, IR-Bewertungsmaße (Precision, Recall, F1) Vektorraummodell, Vorstellung ElasticSearch
  • Graph-DBs: Definition, Graph-Metriken, Graph-Datenmodelle allgemein, Property-Graph-Modell, Vorstellung Neo4j, Cypher als Graph-Anfragesprache, Maschinelles Lernen auf Graphen
  • Spark: Herausforderungen bei der Analyse große Datensätze, Map-Redude-Framework, Verteilte Datenverarbeitung am Bespiel von Spark (RDDs, DataFrames, Transformationen und Actions)
  • Spark-Streaming: Herausforderungen bei der strombasierten Datenverarbeitung, Erweiterung bekannter Operatoren, Vorstellung Spark-Streaming
  • Big-Data-Benchmarks: Vorstellung existierender NoSQL/-Big-Data-Benchmark-Suiten wie z. B. YCSB, BigDataBench und HiBench-Benchmark sowie relevanter Mikro-Benchmarks (Sortieren, WordCount, TeraSort)
Qualifikationsziele

Die Studenten werden befähigt die Erfordernisse und Herausforderung bei der Verarbeitung großer Datenmengen zu bewerten und das notwendige Datenmodell sowie das passende NoSQL-/NewSQL-System für einen zu analysierenden Datenbestand auszuwählen. Durch die Praktika werden die Studenten in die Lage versetzt, verschiedene NoSQL-Systeme wie Redis, MongoDB, ElasticSearch, Neo4j und Spark schnell zur Anwendung zu bringen und in Datenanalyseprojekte zu integrieren. Darüber hinaus können die Studenten die Stärken und Schwächen der Systeme benennen, diese unter Verwendung anerkannter Benchmarks testen sowie die Datenmodelle hinsichtlich ihrer Verwaltung und Verarbeitung optimieren.

Besondere Zulassungs­voraussetzung(en)
Keine Angabe
Empfohlene Voraussetzungen

Datenbanksysteme I und II

Fortsetzungs­möglichkeiten
Keine Angabe
Literatur
  • Fachliteratur Datenbanksysteme
  • Datenbankmanagementsysteme und Dokumentationen
Aktuelle Lehrressourcen

Skript zur Lehrveranstaltung

Hinweise
Keine Angabe