I144 – Big Data Platforms

Modul
Big Data Platforms
Big Data Platforms
Modulnummer
I144
Version: 1
Fakultät
Informatik/Mathematik
Niveau
Master
Dauer
1 Semester
Turnus
Sommer- und Wintersemester
Modulverantwortliche/-r

Prof. Dr.-Ing. Maik Thiele
maik.thiele(at)htw-dresden.de

Dozent/-in(nen)

Prof. Dr.-Ing. Maik Thiele
maik.thiele(at)htw-dresden.de

Lehrsprache(n)

Deutsch
in "Big Data Platforms"

ECTS-Credits

5.00 Credits

Workload

150 Stunden

Lehrveranstaltungen

4.00 SWS (2.00 SWS Vorlesung | 2.00 SWS Praktikum)

Selbststudienzeit

90.00 Stunden

Prüfungsvorleistung(en)
Keine
Prüfungsleistung(en)

Schriftliche Prüfungsleistung
Prüfungsdauer: 90 min | Wichtung: 100%
in "Big Data Platforms"

Lehrform

2/0/2  V/Ü/P

Medienform
Keine Angabe
Lehrinhalte/Gliederung
  • Big Data: Motivation, Paradigmenwechsel, neue Herausforderungen, Scale-Up versus Scale-Out, Containerization
  • NoSQL: Definiton, Datenmodelle und Systemtypen, CAP-Theorem, Polyglotte Persistenz
  • Key-Value-DBs: Datenmodell, Value-Datentypen, Vorstellung Redis
  • Document-DBs: JSON/JSONB, Datentypen, eingebettete Dokumente, Modellierung von Beziehung, Vorstellung MongoDB
  • Information Retrieval: Definition, tf-idf-Gewichtung, IR-Bewertungsmaße (Precision, Recall, F1) Vektorraummodell, Vorstellung ElasticSearch
  • Graph-DBs: Definition, Graph-Metriken, Graph-Datenmodelle allgemein, Property-Graph-Modell, Vorstellung Neo4j, Cypher als Graph-Anfragesprache, Maschinelles Lernen auf Graphen
  • Spark: Herausforderungen bei der Analyse große Datensätze, Map-Redude-Framework, Verteilte Datenverarbeitung am Bespiel von Spark (RDDs, DataFrames, Transformationen und Actions)
  • Spark-Streaming: Herausforderungen bei der strombasierten Datenverarbeitung, Erweiterung bekannter Operatoren, Vorstellung Spark-Streaming
  • Big-Data-Benchmarks: Vorstellung existierender NoSQL/-Big-Data-Benchmark-Suiten wie z. B. YCSB, BigDataBench und HiBench-Benchmark sowie relevanter Mikro-Benchmarks (Sortieren, WordCount, TeraSort)
Qualifikationsziele

Die Studenten werden befähigt die Erfordernisse und Herausforderung bei der Verarbeitung großer Datenmengen zu bewerten und das notwendige Datenmodell sowie das passende NoSQL-/NewSQL-System für einen zu analysierenden Datenbestand auszuwählen. Durch die Praktika werden die Studenten in die Lage versetzt, verschiedene NoSQL-Systeme wie Redis, MongoDB, ElasticSearch, Neo4j und Spark schnell zur Anwendung zu bringen und in Datenanalyseprojekte zu integrieren. Darüber hinaus können die Studenten die Stärken und Schwächen der Systeme benennen, diese unter Verwendung anerkannter Benchmarks testen sowie die Datenmodelle hinsichtlich ihrer Verwaltung und Verarbeitung optimieren.

Sozial- und Selbstkompetenzen
Keine Angabe
Besondere Zulassungsvoraussetzung
Keine Angabe
Empfohlene Voraussetzungen

Datenbanksysteme I und II

Fortsetzungsmöglichkeiten
Keine Angabe
Literatur
  • Fachliteratur Datenbanksysteme
  • Datenbankmanagementsysteme und Dokumentationen
Aktuelle Lehrressourcen

Skript zur Lehrveranstaltung

Hinweise
Keine Angabe