Model relacyjny

Model relacyjny – model organizacji danych bazujący na matematycznej teorii mnogości, w szczególności na pojęciu relacji. Na modelu relacyjnym oparta jest relacyjna baza danych (ang. Relational Database) – baza danych, w której dane są przedstawione w postaci relacyjnej.

W najprostszym ujęciu w modelu relacyjnym dane grupowane są w relacje, które reprezentowane są przez tabele. Relacje są pewnym zbiorem rekordów o identycznej strukturze wewnętrznie powiązanych za pomocą związków zachodzących pomiędzy danymi. Relacje zgrupowane są w tzw. schematy bazy danych. Relacją może być tabela zawierająca dane teleadresowe pracowników, zaś schemat może zawierać wszystkie dane dotyczące firmy. Takie podejście w porównaniu do innych modeli danych ułatwia wprowadzanie zmian, zmniejsza możliwość pomyłek, ale dzieje się to kosztem wydajności.

Historia

Twórcą teorii relacyjnych baz danych jest Edgar Frank Codd. Postulaty te zostały opublikowane po raz pierwszy w 1970 roku w pracy A Relational Model of Data for Large Shared Data Banks^[1]. Praca ta opisuje podstawowe zależności jakie mogą występować pomiędzy danymi trwałymi, oraz wprowadza główne założenia dotyczące modelu relacyjnego dla danych wraz z propozycją formalnych operatorów przeszukiwania danych. W 1972 roku, w pracy pt. Relational Completeness of Data Base Sublanguages Codd uszczegółowił opis modelu oraz przedstawił dwa modele formalne odpytywania (przeszukiwania) danych. Tu właśnie po raz pierwszy pojawiły się terminy algebra relacji oraz rachunek relacyjny^[2]. Codd pokazał, że oba modele są równoważne.

W czasie kiedy Codd publikował swoje propozycje rozwijały się dwa inne modele danych: model sieciowy oraz model hierarchiczny. Na rynku baz danych dominowały głównie hierarchiczne bazy danych (m.in. IMS/360). Lata 70. XX wieku przypadają na rozkwit zarówno modelu sieciowego, jak i relacyjnego. W 1971 roku grupa CODASYL przygotowała standard dla modelu sieciowego, zaś w 1973 roku firma IBM przygotowała System R będący pierwszą implementacją zarówno modelu relacyjnego, jak i języka SEQUEL (później SQL). Z upływem czasu model relacyjny stawał się coraz bardziej popularny wśród osób zajmujących się badaniami nad przechowywaniem danych.

W roku 1979 firma Relational Software (później Oracle) wypuściła na rynek pierwszy komercyjny relacyjny system zarządzania bazą danych (RDBMS ang. Relational Database Management Systems). Od tego momentu model relacyjny stał się dominującym podejściem do przechowywania trwałych danych zaś ilość badań i opracowań wokół tego tematu wzrosła lawinowo.

Jednym z kluczowych problemów rozwijającego się modelu relacyjnego było podejście do brakującej informacji (np. nieznany numer telefonu, brak numeru mieszkania itp.). Początkowo proponowano kilka specjalnych wartości, które użytkownik mógłby wykorzystać do zaznaczenia takich informacji. Jednak w ostateczności, w 1979 roku, Codd wprowadził do modelu pojedynczą specjalną wartość NULL. Wprowadzenie tej wartości wiązało się m.in. z rozszerzeniem logiki dwuwartościowej operatorów porównania do logiki trójwartościowej (na każde pytanie o równość można odpowiedzieć „Tak”, „Nie”, „Nieznane”)

W dzisiejszym czasie funkcjonuje wiele spojrzeń na model relacyjny. Dwa główne podejścia to podejście formalne – opis modelu poprzez reguły matematyczne można opisywać na wiele różnych sposobów – oraz podejście intuicyjne – spojrzenie na model od strony czysto użytkowej.

Podejście intuicyjne

Schemat modelu relacyjnego

W modelu relacyjnym każda relacja (prezentowana w postaci np. tabeli) posiada unikatową nazwę, nagłówek i zawartość. Nagłówek relacji to zbiór atrybutów, gdzie atrybut jest parą nazwa_atrybutu:nazwa_typu, zawartość natomiast jest zbiorem krotek (reprezentowanych najczęściej w postaci wiersza w tabeli). W związku z tym, że nagłówek jest zbiorem atrybutów nie jest ważna ich kolejność. Atrybuty zazwyczaj utożsamiane są z kolumnami tabeli. Każda krotka (wiersz) wyznacza zależność pomiędzy danymi w poszczególnych komórkach (np. osoba o danym numerze PESEL posiada podane nazwisko i imię oraz adres)

Każda relacja (tabela) posiada tzw. klucz główny (ang. primary key)^[3]. Klucz ten jest unikatowym identyfikatorem w relacji i może być kombinacją kilku kolumn, często jednak obejmuje jedną kolumnę (jeden atrybut). Klucz ma za zadanie jednoznacznie identyfikować każdą krotkę (wiersz) – wartości w wyznaczonych kolumnach są jako zestaw niepowtarzalne w danej tabeli.

Innym rodzajem klucza jest tzw. klucz obcy (ang. foreign key). Jest to zbiór atrybutów jednej tabeli (relacji) wskazujący wartości klucza kandydującego innej tabeli. Służy do wskazywania zależności pomiędzy danymi składowanymi w różnych tabelach. Klucze w modelu relacyjnym służą m.in. do sprawdzania spójności danych w bazie. Głównie dotyczy to kluczy obcych, na które nałożony jest wymóg, że w tabeli wskazywanej musi istnieć wartość klucza wskazującego.

Dodatkowym elementem modelu relacyjnego jest zbiór operacji służących do przeszukiwania i manipulacji danymi. Od strony formalnej takie zbiory operacji kojarzone są z tzw. algebrą relacji oraz z rachunkiem relacyjnym. Od strony praktycznej najbardziej popularnym językiem zapytań dla modelu relacyjnego jest język SQL

Przedstawienie relacji w postaci tabeli jest jedynie pewną reprezentacją graficzną. Relację można również przedstawić w postaci zbioru punktów w przestrzeni n-wymiarowej, gdzie punkt reprezentuje krotkę w relacji składającej się z n atrybutów.

Podejście formalne

Cały model relacyjny jest oparty na matematycznym pojęciu relacji. W skrócie relacją n-członową ( $n$ -arną) nazywamy dowolny podzbiór iloczynu kartezjańskiego pewnych zbiorów

r\subseteq X_{1}\times X_{2}\times \ldots \times X_{n}.

W podejściu formalnym schematem R relacji nazywamy niepusty zbiór nazw atrybutów (w skrócie atrybutów) $R=\{A_{1},A_{2},\dots ,A_{n}\}.$ Każdemu atrybutowi $A_{i}$ przypisany jest zbiór wartości $Dom(A)$ zwany dziedziną (domeną, typem danych) atrybutu $A.$ Jest to nazwany i skończony zbiór wartości, jakie może przyjmować dany atrybut. Wartość $n$ określana jest mianem stopnia relacji R bądź arnością relacji R.

Instancja schematu relacji $R$ to relacja na zbiorze dziedzin atrybutów $A_{i}{:}$

r\subseteq Dom(A_{1})\times Dom(A_{2})\times \ldots \times Dom(A_{n}).

Ponieważ każda relacja $r$ jest nierozłącznie związana ze swoim schematem relacji $R,$ często można spotkać oznaczenie $r(R)$ czytane jako „relacja $r$ typu $R$ ”. Może istnieć wiele relacji przyporządkowanych do danego schematu.

Krotką (n-tką) typu $R$ nazywamy uporządkowany ciąg wartości $t=<v_{1},v_{2},\dots ,v_{n}>,$ taki że

t\in Dom(A_{1})\times Dom(A_{2})\times \ldots \times Dom(A_{n}).

Zatem relacja $r$ typu $R$ to nic innego jak skończony zbiór krotek $k$ typu $R.$ W konsekwencji w modelu relacyjnym krotki w danej relacji nie mogą się powtarzać, oraz ich kolejność nie ma znaczenia.

Schematem bazy danych jest skończony zbiór $\mathbb {R}$ wszystkich schematów relacji $R_{j}.$ Instancją schematu bazy (w skrócie bazą danych) $\mathbf {R}$ jest zbiór wszystkich relacji $r_{k}(R_{j}).$

Klucz kandydujący w relacji $r(R)$ jest podzbiorem $K$ zbioru atrybutów $R$ jednoznacznie identyfikującym każdą krotkę w $r.$ Dodatkową własnością tego klucza jest jego minimalność – żaden podzbiór zbioru $K$ nie jest unikatowy dla wszystkich krotek w $r.$ Klucz kandydujący zawierający więcej niż jeden atrybut nazywa się kluczem złożonym, zaś zawierający dokładnie jeden atrybut – kluczem prostym. Dla każdej relacji musi zostać wybrany dokładnie jeden z kluczy kandydujących na tzw. klucz główny.

Dla danej relacji $r_{1}(R)$ podzbiór atrybutów $FK$ zbioru $R$ określany jest mianem klucza obcego jeżeli spełnia następujące warunki:

Nie jest kluczem głównym w $r_{1}.$
Istnieje klucz kandydujący $K$ relacji $r_{2}$ (różnej od $r_{1}$ ), takiej że $FK=K.$
Dla każdej krotki $\mathrm {k} _{1}$ relacji $r_{1}$ istnieje krotka $\mathrm {k} _{2}$ w $r_{2},$ taka że wartości krotki $\mathrm {k} _{1}$ dla atrybutów ze zbioru $FK$ są równe wartościom krotki $\mathrm {k} _{2}$ dla atrybutów ze zbioru $K.$

W modelu relacyjnym wyróżniona jest specjalna ustalona wartość $NULL$ należąca do każdej dziedziny atrybutów. Służy ona do oznaczania brakującej (nieznanej, nieistniejącej) informacji.

Interpretacja modelu w logice pierwszego rzędu

Innym, nieco mniej powszechnym, podejściem jest traktowanie modelu relacyjnego jako modelu logiki pierwszego rzędu.

Niech $R$ będzie schematem relacji o arności $n.$ Faktem nad $R$ nazywamy wyrażenie $R(a_{1},a_{2},\dots ,a_{n}),$ gdzie $a_{i}\in Dom(A_{i}).$ Relacją $r$ (instancją schematu) nad $R$ jest skończony zbiór faktów nad $R.$

Dla danego schematu bazy $\mathbb {R} ,$ instancją bazy $\mathbf {R}$ jest skończony zbiór będący sumą wszystkich relacji $r_{k}$ nad $R_{j},$ gdzie $R_{j}\in \mathbb {R} .$

Integralność

Oprócz struktury danych na model relacyjny składają się również integralność i manipulacja.

Integralność to ograniczenie nakładane na bazę danych przez model relacyjny. Dwie podstawowe reguły integralności to integralność encji (wartość klucza głównego nie może być wartością NULL) oraz integralność odwołań (nie mogą istnieć niedopasowane wartości klucza obcego).

Ograniczenie redundancji danych dokonuje się w procesie przejścia do kolejnych postaci normalnych.

Na elementy manipulacyjne modelu składają się: zbiór operatorów relacyjnych (zwykle reprezentowany przez algebrę relacji bądź rachunek relacyjny) oraz relacyjny operator przypisania, pozwalający na przypisanie relacji wyniku powstałego z wyrażenia relacyjnego.

Algebra relacji

Osobny artykuł: Algebra relacji.

Algebra relacji to zbiór operatorów, które służą do manipulacji relacjami. Rezultatem działania, jak również argumentami tych operatorów są relacje. Operatory te można podzielić na dwie grupy: operacje na zbiorach oraz operatory zaprojektowane dla modelu relacyjnego

Operacje na zbiorach:

Suma dwóch relacji tego samego typu
Różnica dwóch relacji tego samego typu
Iloczyn kartezjański dwóch relacji

Operacje dla konkretnego modelu:

Selekcja – rodzina operatorów parametryzowanych warunkiem logicznym. Jako argument przyjmuje relację, na wyjściu zwraca relację zawierającą tylko te krotki, dla których warunek logiczny był prawdziwy. Przykładowym operatorem selekcji jest $\sigma _{pensja>300}(r).$
Projekcja (rzutowanie) – rodzina operatorów parametryzowanych ciągiem indeksów bądź ciągiem nazw atrybutów. Krotki wynikowej relacji powstają poprzez rzutowanie oryginalnych krotek na podany ciąg. Przykładowym operatorem projekcji jest $\pi _{imie,nazwisko}(r).$
Przemianowanie – rodzina operatorów parametryzowanych parą atrybutów (A, B), gdzie oba atrybuty mają tę samą dziedzinę. Operator ten zamienia nazwę atrybutu A na B w wynikowej relacji. Przykładowym operatorem może być $\delta _{Zarobki\to Pensja}(r).$
Złączenie – może być zdefiniowane przy użyciu złożenia operatorów iloczynu kartezjańskiego, selekcji i projekcji. Ten operator przyjmuje jako argumenty dwie relacje r(X) i s(Y). W wyniku powstaje relacja v(X∪Y). Dla każdej pary krotek (po jednej z każdej wejściowej relacji), które mają te same wartości dla wspólnych atrybutów, powstaje krotka nowej relacji poprzez dołączenie do pierwszej krotki wartości drugiej krotki. Notacja przykładowa:

dane(<Pesel, Imie, Nazwisko>) $\bowtie$ oceny(<Pesel, Przedmiot, Ocena>) = dane_oceny(<Pesel, Imie, Nazwisko, Przedmiot, Ocena>)

Obecnie istnieje wiele spojrzeń na algebrę relacji. W niektórych definiowane są dodatkowe operatory, które można wyprowadzić przez złożenie operatorów wspomnianych wyżej. W innych rodziny operatorów selekcji, projekcji i przemianowania są w uproszczeniu traktowane jako pojedyncze operatory.

Rachunek relacyjny

Osobny artykuł: Rachunek relacyjny.

Rachunek relacyjny został zaproponowany przez Codda jako deklaratywny sposób wyszukiwania informacji, podczas gdy algebra relacji jest podejściem bardziej proceduralnym. Rachunek relacyjny jest oparty na logicznym rachunku predykatów (funkcji zdaniowych). Na rachunek relacyjny składa się alfabet oraz zbiór reguł tworzenia zapytań.

Alfabet

stałe atomowe (wartości proste): x, y, z,...
stałe indeksujące (numery indeksów): 1, 2, 3,...
zmienne krotkowe: k₁, k₂, k₃,...
stałe atrybutowe (atrybuty): A₁, A₂, A₃,...
symbole relacyjne (predykaty): R₁, R₂, R₃,...
symbole funkcyjne: ∪,. (kropka)
operatory porównań (ozn. jako θ): =, ≠, <, ≤, >, ≥
symbole logiczne: ¬, ∨, ∧, ⇒, ∀, ∃
ograniczniki (symbole dodatkowe):, | {} ()

Reguły tworzenia wyrażeń – poniższe konstrukcje są poprawnymi wyrażeniami rachunku relacyjnego

Termy
- termy atomowe: a ::= x | t.A_i
- termy krotkowe: t ::= k_i | t ∪ t | [A_i: x] (wartość x typu A_i)
Formuły: φ ::= R(t) | a θ a | (φ) | ¬φ | φ∨φ | φ∧φ | φ⇒φ | ∀_v φ | ∃_v φ (v jest zmienną wolną w φ)
Zapytania: {t | φ}, gdzie zbiór zmiennych występujących w t jest równy zbiorowi zmiennych wolnych w φ.

Przykład: Dla relacji Filmy(Tytuł, Reżyser, Aktor) przykładowym zapytaniem może być:

W których filmach reżyserowanych przez Hitchcocka, on sam nie był aktorem:

{xt | ∃_xa Filmy(xt, „Hitchcock”, xa) ∧ ¬ Filmy(xt, „Hitchcock”, „Hitchcock”)}.

Przedstawiony powyżej rachunek to tzw. relacyjny rachunek krotek Codda wprowadzony w 1972. Stał się on podstawą do zbudowania języka SQL. Oprócz rachunku krotek istnieje również wprowadzony później relacyjny rachunek dziedzin będący wzorcem dla języka QBE. Wprowadzając rachunek relacyjny i algebrę relacji Codd pokazał, że są one wzajemnie równoważne^[2].

Model relacyjny a SQL

Większość współczesnych relacyjnych baz danych korzysta z jakiejś wersji języka SQL pozwalającego wprowadzać zmiany w strukturze bazy danych, jak również zmiany danych w bazie i wybieranie informacji z bazy danych. Język ten opiera się na silniku bazy danych, który pozwala zadawać w języku SQL pewnego rodzaju pytania (kwerendy) i wyświetlać dane, które spełniają warunki zapytania. Zapytania SQL mogą także wykonywać operacje wstawiania danych, usuwania danych i ich aktualizacji. Język SQL zapewnia również zarządzanie bazą danych. Informacja o samej bazie przechowywana jest w postaci relacji (tabel) wewnątrz bazy danych.

Zobacz też

Przypisy

↑ A Relational Model of Data for Large Shared Data Banks, E.F. Codd.
↑ ^a ^b Relational Completeness of Data Base Sublanguages. cs.berkeley.edu. [zarchiwizowane z tego adresu (2011-09-12)]., E.F.Codd.
↑ Encyclopedia of Database Systems. Berlin: Springer US, 2009, s. 2372–2375.

Bibliografia

Encyclopedia of Database Systems. Berlin: Springer US, 2009. ISBN 978-0-387-49616-0.
Ramez A. Elmasri, Shamkant B. Navathe: Fundamentals of database systems. Redwood City, [etc.]: The Benjamin/Cummings Publishing Company, 1994. ISBN 0-8053-1748-1.
Serge Abiteboul, Richard Hull, Victor Vianu: Foundations of databases. Reading: Addison-Wesley, 1995. ISBN 0-201-53771-0.
E.F. Codd. A Relational Model of Data for Large Shared Data Banks. „Comun. ACM”. 13/6. s. 377–387. DOI: 10.1145/357980.358007.
E.F. Codd. Relational Completeness of Data Base Sublanguages. „IBM Research Report”, 1972.

[codd70-1] A Relational Model of Data for Large Shared Data Banks, E.F. Codd.

[codd72-2] Relational Completeness of Data Base Sublanguages. cs.berkeley.edu. [zarchiwizowane z tego adresu (2011-09-12)]., E.F.Codd.

[ency-3] Encyclopedia of Database Systems. Berlin: Springer US, 2009, s. 2372–2375.

[1]

[2]

[3]