Moritz

Aus ProgrammingWiki

Wechseln zu: Navigation, Suche

Thema: Datenbank einer Chat-Anwendung

Inhaltsverzeichnis

Ziel der Datenbank

Es gibt bereits zahlreiche komplexe Chat-Anwendungen wie WhatsApp und Discord. Mit dieser Datenbank sollen Datensätze aus solchen Anwendungen strukturiert gespeichert werden, sodass man auf diese einfach aber auch effizient zugreifen kann. Die verwendeten Datensätze sind allerdings weitaus weniger komplex als die, die von den oben genannten Anwendungen stammen - sie bieten jedoch trotzdem einen realistischen Einblick.

Modellierung in einem ERM

Chat Anwendung ERM.jpg

Legende (Kardinalität)

Chat Anwendung Legende.JPG

links: n (mehrere)
rechts: 1 (eins)

Erklärung

Es gibt drei Entitäten: Benutzer, Kanäle und Nachrichten.

Ein Benutzer besitzt eine ID, einen Benutzernamen, die E-Mail Adresse und das Erstellungsdatum des Accounts. Kanäle beinhalten ebenfalls IDs, Namen und Einladungscodes. Nachrichten bestehen aus dem eigentlichen Inhalt, dem Versendungsdatum und einer ID.

Ein Benutzer kann in mehreren Kanälen sein und ein Kanal kann mehrere Benutzer haben, weswegen zwischen diesen eine n : m Beziehung herrscht. Diese Beziehung, also die Mitgliedschaft eines Benutzers in einem Kanal, beinhaltet auch Informationen über potentielle Administratorrechte und könnte auch als separate Entität dargestellt werden.
Zwischen Benutzern und Nachrichten herrscht eine 1 : n Beziehung: ein Benutzer kann mehrere Nachrichten versenden, aber eine Nachricht kann nur von einem Benutzer versendet werden.
Kanäle können mehrere Nachrichten enthalten, aber eine Nachricht kann nur in einem Kanal verschickt werden. Deshalb existiert zwischen diesen beiden Entitäten ebenfalls eine 1 : n Beziehung.
Die "Nachricht" Entität hat zu sich selbst eine 1 : n Beziehung, da eine Nachricht eine Antwort auf eine andere Nachricht sein kann, und eine Nachricht von mehreren anderen Nachrichten beantwortet werden kann.

Die drei Beziehungen unter den verschiedenen Entitäten sind notwendig, obwohl sie einen Kreis bilden:

  • Ohne die Beziehung zwischen Benutzer und Kanal kann man nicht herausfinden welchen Kanälen ein Nutzer beigetreten ist und die Information über den Administratorstatus geht verloren.
  • Ohne die Beziehung zwischen Benutzer und Nachricht kann man nicht herausfinden von wem die Nachricht versendet wurde.
  • Ohne die Beziehung zwischen Kanal und Nachricht kann man nicht herausfinden aus welchem Kanal die Nachricht stammt, da Nutzer in mehreren Kanälen sein können (-> n : m Beziehung).

Transformation in das Relationenmodell

Erklärung

Das ERM wurde gemäß den Transformationsregeln in ein Relationenmodell übertragen.

  • Da es keine 1 : 1 Beziehungen gibt, konnten keine Entitäten in eine Tabelle zusammengeführt werden.
  • Die 1 : n Beziehungen zwischen Benutzer und Nachrichten, Kanal und Nachrichten sowie Nachricht und Nachrichten wurden mit Fremdschlüsseln in der "n-Tabelle" verwirklicht: die Tabelle "Nachricht" besitzt die Fremdschlüssel "BenutzerID" (= "ID" der Tabelle "Benutzer"), "KanalID" (= "ID" der Tabelle "Kanal") und "AntwortID" (= "ID" der Tabelle "Nachricht" selbst).
  • Die n : m Beziehung zwischen Benutzern und Kanälen wird durch eine 3. Tabelle, "Mitgliedschaft", ermöglicht. Diese beinhaltet je einen Fremdschlüssel der "ID" von "Benutzer" und "Kanal", aber auch - wie im ERM dargestellt - ein "Administrator" Bit, der den Wert 1 (Administrator) oder 0 (nicht Administrator) annehmen kann.

Die erste Normalform, also die "Atomatisierung" (Aufspaltung in eine Information pro Feld), ist bereits im ERM gegeben und war nach der Übertragung schon vorhanden. Auch die zweite Normalform, in der man Dopplungen in Datensätzen auflöst, war nicht notwendig. Zudem sind keine Datenfelder von Nicht-Primärschlüsseln abhängig, wodurch die dritte Normalform ebenfalls bereits erreicht war.

Der Primärschlüssel jeder Tabelle ist ein Feld mit dem Namen "ID", das eine zufällig erzeugte UUID beinhaltet. Es werden UUIDs anstelle von inkrementierenden Ganzzahlen verwendet. Diese haben den Vorteil, dass sie von verschiedenen Servern unabhängig voneinander generiert werden können, d.h. es ist praktisch unmöglich, dass zwei Server den gleichen Primärschlüssel generieren (und es dadurch bei einem der beiden Server zu einem Fehler kommt), wenn sie etwa zeitgleich einen Eintrag in die gleiche Datenbank einfügen. Sie können auch zufällig erzeugt werden, ohne Informationen über die bereits vorhandenen Daten in der Datenbank zu besitzen.

Abfragen

Simpel

Mittel

Komplex

Reflexion

Ich bin mit der Umsetzung und Modellierung relativ zufrieden und denke, dass sie einen guten Einblick in den grundsätzlichen Aufbau der Datenbanken von Chat-Anwendungen liefert. Allerdings müsste das Modell für eine echte Anwendung um einige Attribute und Entitäten erweitert werden: man müsste z.B. die Passwort-Hashes von Benutzern speichern, und es wären auch zusätzliche Zeitstempel für Dinge wie Mitgliedschaften sinnvoll. Zudem sollte man den Ersteller eines Kanals speichern, um diesem spezielle Berechtigungen - wie das Verwalten von Administratoren - zu gewähren. Je nach Ziel der Anwendung könnte man das Berechtigungssystem über den Administratorstatus hinaus erweitern, sodass man z.B. genauer kontrollieren kann, wer Nachrichten senden, lesen bzw. löschen darf.

Bei der Umsetzung in einem DBMS sollte man wenn möglich anstelle von VARCHARs spezielle Datentypen für UUIDs verwenden, die z.B. bei PostgreSQL über Erweiterungen verfügbar sind. Dadurch würde man die Effizienz erhöhen, da der Datentyp deutlich kompakter gespeichert und schneller verarbeitet werden kann. Außerdem könnte man so UUIDs beim Einfügen von Datensätzen über INSERT vom DBMS automatisch erstellen lassen (anstatt sie auf den Servern zu generieren). Aus Datenschutzgründen müssten Emails, Nachrichteninhalte und andere Daten von Benutzern verschlüsselt gespeichert werden.

Quellen und Tools

Persönliche Werkzeuge