I144 – Big Data Platforms
Big Data Platforms
Version: 1
Prof. Dr.-Ing. Maik Thiele
maik.thiele(at)htw-dresden.de
Prof. Dr.-Ing. Maik Thiele
maik.thiele(at)htw-dresden.de
Deutsch
5.00 Credits
150 Stunden
4.00 SWS (2.00 SWS Vorlesung | 2.00 SWS Praktikum)
90.00 Stunden
Schriftliche Prüfungsleistung
Prüfungsdauer: 90 min | Wichtung: 100 %
2/0/2 V/Ü/P
- Big Data: Motivation, Paradigmenwechsel, neue Herausforderungen, Scale-Up versus Scale-Out, Containerization
- NoSQL: Definiton, Datenmodelle und Systemtypen, CAP-Theorem, Polyglotte Persistenz
- Key-Value-DBs: Datenmodell, Value-Datentypen, Vorstellung Redis
- Document-DBs: JSON/JSONB, Datentypen, eingebettete Dokumente, Modellierung von Beziehung, Vorstellung MongoDB
- Information Retrieval: Definition, tf-idf-Gewichtung, IR-Bewertungsmaße (Precision, Recall, F1) Vektorraummodell, Vorstellung ElasticSearch
- Graph-DBs: Definition, Graph-Metriken, Graph-Datenmodelle allgemein, Property-Graph-Modell, Vorstellung Neo4j, Cypher als Graph-Anfragesprache, Maschinelles Lernen auf Graphen
- Spark: Herausforderungen bei der Analyse große Datensätze, Map-Redude-Framework, Verteilte Datenverarbeitung am Bespiel von Spark (RDDs, DataFrames, Transformationen und Actions)
- Spark-Streaming: Herausforderungen bei der strombasierten Datenverarbeitung, Erweiterung bekannter Operatoren, Vorstellung Spark-Streaming
- Big-Data-Benchmarks: Vorstellung existierender NoSQL/-Big-Data-Benchmark-Suiten wie z. B. YCSB, BigDataBench und HiBench-Benchmark sowie relevanter Mikro-Benchmarks (Sortieren, WordCount, TeraSort)
Die Studenten werden befähigt die Erfordernisse und Herausforderung bei der Verarbeitung großer Datenmengen zu bewerten und das notwendige Datenmodell sowie das passende NoSQL-/NewSQL-System für einen zu analysierenden Datenbestand auszuwählen. Durch die Praktika werden die Studenten in die Lage versetzt, verschiedene NoSQL-Systeme wie Redis, MongoDB, ElasticSearch, Neo4j und Spark schnell zur Anwendung zu bringen und in Datenanalyseprojekte zu integrieren. Darüber hinaus können die Studenten die Stärken und Schwächen der Systeme benennen, diese unter Verwendung anerkannter Benchmarks testen sowie die Datenmodelle hinsichtlich ihrer Verwaltung und Verarbeitung optimieren.
Datenbanksysteme I und II
- Fachliteratur Datenbanksysteme
- Datenbankmanagementsysteme und Dokumentationen
Skript zur Lehrveranstaltung