Probabilità

Il concetto di probabilità, utilizzato a partire dal XVII secolo, è diventato con il passare del tempo la base di diverse discipline scientifiche rimanendo tuttavia non univoco. In particolare su di esso si basa una branca della statistica (la statistica inferenziale), cui fanno ricorso numerose scienze sia naturali che sociali.

Storia

Blaise Pascal

Pierre de Fermat

I primi studi che portarono successivamente a concetti legati alla probabilità possono essere trovati a metà del XVI secolo in Liber de ludo aleæ di Cardano (scritto nel 1526, ma pubblicato solo un secolo e mezzo dopo, nel 1663) e in Sulla scoperta dei dadi di Galilei (pubblicato nel 1656). In particolare, Galileo spiegò come mai, lanciando tre dadi, la probabilità di uscita delle somme 10 e 11 sia più probabile dell'uscita del 9 e del 12, nonostante entrambi i risultati si ottengano da un uguale numero di combinazioni.^[1]

Il problema della ripartizione della posta in gioco nel caso che un gioco d'azzardo debba essere interrotto venne affrontato da Pacioli nella Summa de arithmetica, geometria, proportioni et proportionalita (pubblicata nel 1494) e successivamente da Tartaglia, per poi essere risolto da Pascal e Fermat.

La nascita del concetto moderno di probabilità viene attribuita a Pascal e Fermat. Il Cavalier de Méré (un accanito giocatore) aveva calcolato che ottenere almeno un 6 in 4 lanci di un dado non truccato era equivalente ad ottenere almeno un doppio 6 in 24 lanci, sempre di un dado non truccato. Tuttavia, giocando secondo tale convinzione, invece di vincere perdeva e scrisse a Pascal lamentando che la matematica falliva di fronte all'evidenza empirica.^[2] Da ciò scaturì una corrispondenza tra Pascal e Fermat in cui iniziò a delinearsi il concetto di probabilità nell'accezione frequentista.

Pascal annunciò nel 1654 all'Accademia di Parigi che stava lavorando sul problema della ripartizione della messa in gioco. E in una lettera del 29 luglio dello stesso anno a Fermat propose la soluzione del problema, affrontato con il metodo per ricorrenza, mentre Fermat utilizzava metodi basati sulle combinazioni.

Nel 1657 Huygens scrisse un Libellus de ratiociniis in ludo aleæ,^[3], il primo trattato sul calcolo delle probabilità, nel quale introduceva il concetto di valore atteso.

I suoi lavori influenzarono tra l'altro Montmort, che scrisse nel 1708 un Essai d'analyse sur le jeux de hasard, ma anche Jakob Bernoulli e de Moivre.

Nel 1713 viene pubblicato postumo Ars conjectandi di Jakob Bernoulli, dove veniva dimostrato il teorema che porta il suo nome, noto anche come legge dei grandi numeri. Successivamente, de Moivre pervenne a una prima formulazione, poi generalizzata da Laplace, del teorema centrale del limite. La teoria delle probabilità raggiunse così basi matematicamente solide e, con esse, il rango di nuova disciplina.

In essa esercita un ruolo centrale il rapporto tra casi favorevoli e casi possibili e la probabilità è un numero intrinsecamente legato ad un evento. Negli anni centrali del XX secolo, tuttavia, prima de Finetti e poi Savage hanno elaborato una concezione soggettiva della probabilità, secondo cui essa è il grado di fiducia che una persona ha nel verificarsi dell'evento.

Nello stesso periodo, Kolmogorov ha dato inizio alla moderna teoria assiomatica (Grundbegriffe der Wahrscheinlichkeitsrechnung, 1933), ispirandosi alla teoria della misura. Si è così affermata una teoria della probabilità puramente matematica, che generalizza il patrimonio matematico comune alle diverse impostazioni.

Definizioni

In probabilità si considera un fenomeno osservabile esclusivamente dal punto di vista della possibilità o meno del suo verificarsi, prescindendo dalla sua natura. Tra due estremi, detti evento certo (ad esempio: lanciando un dado a sei facce si ottiene un numero compreso tra 1 e 6) ed evento impossibile (ottenere 1 come somma dal lancio di due dadi), si collocano eventi più o meno probabili (aleatori).

Si usa il linguaggio della teoria degli insiemi: un insieme non vuoto $\Omega$ (detto spazio delle alternative) ha come elementi tutti i risultati possibili di un esperimento; l'evento che risulta verificato da un unico risultato (un unico elemento di $\Omega$ ) viene detto evento elementare; altri eventi sono sottoinsiemi di $\Omega$ costituiti da più risultati.^[4]

Gli eventi vengono normalmente indicati con lettere maiuscole. Dati due eventi $A$ e $B$ , si indica con $A\cup B$ la loro unione, ovvero l'evento costituito dal verificarsi dell'evento $A$ oppure dell'evento $B$ . Si indica con $A\cap B$ la loro intersezione, ovvero l'evento costituito dal verificarsi sia dell'evento $A$ che dell'evento $B$ .^[5] Se $A\cap B=\varnothing$ i due eventi $A$ e $B$ vengono detti incompatibili (non possono verificarsi simultaneamente). Il complemento di un evento $A$ rispetto a $\Omega$ , $\Omega \setminus A$ , è detto negazione di $A$ e indica il suo non verificarsi (ovvero il verificarsi dell'evento complementare).

Definizione classica

Secondo la prima definizione di probabilità, per questo detta «classica», la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili.^[6]

Indicando con $\Omega$ l'insieme di casi possibili e con $|\Omega |$ la sua cardinalità, con $A$ un evento e con $|A|$ la sua cardinalità, ovvero il numero dei casi favorevoli ad $A$ (ad esempio, nel lancio di un dado $\Omega =\{1,2,3,4,5,6\}$ , $|\Omega |=6$ , $A=$ "esce un numero pari", $|A|=3$ ), la probabilità di $A$ , indicata con $P(A)$ , è pari a:

P(A)={\frac {|A|}{|\Omega |}}={\frac {3}{6}}={\frac {1}{2}}.

Dalla definizione seguono tre regole:

la probabilità di un evento aleatorio è un numero compreso tra $0$ e $1$ ;
la probabilità dell'evento certo è pari a $1$ , la probabilità dell'evento impossibile è pari a $0$ : ad es. se $A=$ "esce un numero compreso tra 1 e 6", $|A|=6$ e ${\frac {|A|}{|\Omega |}}=1$ , se invece $A=$ "esce un numero maggiore di 6", $|A|=0$ e ${\frac {|A|}{|\Omega |}}=0$ .
la probabilità del verificarsi di uno di due eventi incompatibili, ossia di due eventi che non possono verificarsi simultaneamente, è uguale alla somma delle probabilità dei due eventi; ad esempio se $A=$ "esce un numero pari", con $P(A)={\frac {1}{2}}$ , e $B=$ "esce il numero 3", con $P(B)={\frac {1}{6}}$ , la probabilità che tirando un dado si ottenga un numero pari oppure un 3 è:

P(A\cup B)={\frac {|A\cup B|}{|\Omega |}}={\frac {|A|+|B|}{|\Omega |}}={\frac {|A|}{|\Omega |}}+{\frac {|B|}{|\Omega |}}={\frac {1}{2}}+{\frac {1}{6}}={\frac {2}{3}}

.

Frequenza dell'evento

Come elemento propedeutico alla successiva definizione frequentista Introduciamo, appunto, il concetto di frequenza. Nell'esempio del lancio del dado con evento $A=$ "numero pari", indichiamo come successi ( $S_{A}$ ) il numero di volte che otteniamo un numero pari ed ( $S$ ) il totale dei lanci effettuati, la frequenza è uguale a $F(A)={\frac {S_{A}}{S}}$ . Il rapporto indica la frequenza $F$ dell'evento favorevole "uscita numero pari". Inoltre per la legge dei grandi numeri con un numero elevatissimo di lanci il valore di $F(A)$ tende a quello di $P(A)$ che è interpretata, dalla definizione frequentista della probabilità descritta di seguito, come limite a cui tende $F(A)$ .

Definizione frequentista

La definizione classica consente di calcolare effettivamente la probabilità in molte situazioni. Inoltre, è una definizione operativa e fornisce quindi un metodo per il calcolo. Presenta tuttavia diversi aspetti negativi non irrilevanti:

dal punto di vista formale, è una definizione circolare: richiede che i casi possiedano tutti la medesima probabilità, che è però ciò che si vuole definire;
non definisce la probabilità in caso di eventi non equiprobabili;
presuppone un numero finito di risultati possibili e di conseguenza non è utilizzabile nel continuo.

Per superare tali difficoltà, von Mises propose di definire la probabilità di un evento come il limite cui tende la frequenza relativa dell'evento al crescere del numero degli esperimenti:

P(A)=\lim _{n\rightarrow \infty }{\frac {n_{A}}{n}}.

La definizione frequentista si applica ad esperimenti casuali i cui eventi elementari non siano ritenuti ugualmente possibili, ma assume che l'esperimento sia ripetibile più volte, idealmente infinite, sotto le stesse condizioni.

Anche tale definizione consente di calcolare la probabilità di molti eventi e da essa si ricavano le stesse tre regole che seguono dalla definizione classica. È sufficiente, infatti, sostituire il rapporto tra numero dei casi favorevoli $n_{A}$ e numero dei casi possibili $n$ con il limite del rapporto per $n$ tendente all'infinito.

Tuttavia:

il "limite" delle frequenze relative non è paragonabile all'analogo concetto matematico; ad esempio, data una successione $\left\{a_{n}\right\}$ , si dice che $a$ è il suo limite se per ogni $\varepsilon >0$ esiste un numero naturale $N$ tale che $|a_{n}-a|<\varepsilon$ per ogni $n>N$ , e, comunque dato $\varepsilon$ , è sempre possibile calcolare $N$ ; nella definizione frequentista, invece, $N$ non è sempre calcolabile;
non tutti gli esperimenti sono ripetibili; ad esempio, ha sicuramente senso chiedersi quale sia la probabilità che vi sia vita su Marte o che tra 50 anni il tasso di natalità in Africa diventi la metà di quello attuale, ma in casi simili non è possibile immaginare esperimenti ripetibili all'infinito.

Definizione soggettiva

Bruno de Finetti

De Finetti e Savage^[7] hanno proposto una definizione di probabilità applicabile ad esperimenti casuali i cui eventi elementari non siano ritenuti ugualmente possibili e che non siano necessariamente ripetibili più volte sotto le stesse condizioni: la probabilità di un evento è il prezzo che un individuo ritiene equo pagare per ricevere 1 se l'evento si verifica, 0 se l'evento non si verifica.

Al fine di rendere concretamente applicabile la definizione, si aggiunge un criterio di coerenza: le probabilità degli eventi devono essere attribuite in modo tale che non sia possibile ottenere una vincita o una perdita certa.

In tal modo è possibile ricavare dalla definizione soggettiva le stesse tre regole già viste.

$P(A)\in [0;1]$ : infatti se fosse $P(A)<0$ si avrebbe un guadagno certo, viceversa se fosse $P(A)>1$ si avrebbe una perdita certa;
$P(\Omega )=1$ : se l'evento è certo, si riceverà sicuramente 1, ma se fosse $P(\Omega )<1$ si avrebbe un guadagno certo, pari a $1-P(\Omega )>0$ , se invece fosse $P(\Omega )>1$ si avrebbe una perdita certa;
se $A\cap B=\varnothing ,P(A\cup B)=P(A)+P(B)$ . Si osserva preliminarmente che se gli n eventi $A_{1},\dots ,A_{n}$ sono incompatibili (non possono presentarsi insieme) e necessari (uno di loro deve necessariamente verificarsi), allora si ha $\sum _{i=1}^{n}P(A_{i})=1$ : infatti si paga $P(A_{i})$ per ciascun evento $A_{i}$ , quindi se la somma fosse inferiore a 1 si avrebbe un guadagno certo, se fosse superiore si avrebbe una perdita certa. Si considerano poi gli eventi incompatibili $A$ e $B$ e l'evento complemento della loro unione; i tre eventi sono incompatibili e necessari e si ha:
$P(A)+P(B)+P({\overline {A\cup B}})=1.$
Sono però incompatibili anche l'unione di $A$ e $B$ ed il suo complemento:
$P(A\cup B)+P({\overline {A\cup B}})=1.$
Dalle due uguaglianze segue:
se $A\cap B=\varnothing$ , allora $P(A\cup B)=P(A)+P(B).$

La definizione soggettiva consente quindi di calcolare la probabilità di eventi anche quando gli eventi elementari non sono equiprobabili e quando l'esperimento non può essere ripetuto. Rimane fondata, tuttavia, sull'opinione di singoli individui, che potrebbero presentare diverse propensioni al rischio. Basta pensare che molti sarebbero disposti a giocare 1 euro per vincerne 1000, ma pochi giocherebbero un milione di euro per vincerne un miliardo.

Definizione assiomatica

Andrey Kolmogorov

L'impostazione assiomatica della probabilità venne proposta da Andrey Nikolaevich Kolmogorov nel 1933 in Grundbegriffe der Wahrscheinlichkeitsrechnung (Concetti fondamentali del calcolo delle probabilità), sviluppando la ricerca che era ormai cristallizzata sul dibattito fra quanti consideravano la probabilità come limiti di frequenze relative (cfr. impostazione frequentista) e quanti cercavano un fondamento logico della stessa.

Va notato che la definizione assiomatica non è una definizione operativa e non fornisce indicazioni su come calcolare la probabilità. È quindi una definizione utilizzabile sia nell'ambito di un approccio oggettivista che nell'ambito di un approccio soggettivista.

Il nome deriva dal procedimento per "assiomatizzazione" quindi nell'individuare i concetti primitivi, da questi nell'individuare i postulati da cui poi si passava a definire i teoremi.

L'impostazione assiomatica muove dal concetto di σ-algebra, o classe additiva. Dato un qualsiasi esperimento casuale, i suoi possibili risultati costituiscono gli elementi di un insieme non vuoto $\Omega$ , detto spazio campionario, e ciascun evento è un sottoinsieme di $\Omega$ . La probabilità viene vista, in prima approssimazione, come una misura, cioè come una funzione che associa a ciascun sottoinsieme di $\Omega$ un numero reale non negativo tale che la somma delle probabilità di tutti gli eventi sia pari a $1$ .

Se $\Omega$ ha cardinalità finita $n$ o infinita numerabile, l'insieme di tutti i suoi sottoinsiemi, detto insieme delle parti, ha, rispettivamente, cardinalità $2^{n}$ o la cardinalità del continuo. Tuttavia, se $\Omega$ ha la cardinalità del continuo, il suo insieme delle parti ha cardinalità superiore e risulta "troppo grande" perché si possa definire su di esso una misura. Si considerano pertanto i soli sottoinsiemi di $\Omega$ che costituiscono una classe additiva ${\mathcal {A}}$ , ovvero un insieme non vuoto ${\mathcal {A}}$ tale che

se un evento $A$ appartiene ad ${\mathcal {A}}$ , vi appartiene anche il suo complemento:

A\in {\mathcal {A}}\Rightarrow {\overline {A}}\in {\mathcal {A}};

se un'infinità numerabile di eventi, $A_{1},\,A_{2},\,\ldots \,A_{n},\,\ldots$ , appartiene ad ${\mathcal {A}}$ , vi appartiene anche l'evento costituito dalla loro unione:

\forall i\in \mathbb {N} ,A_{i}\in {\mathcal {A}}\Rightarrow \bigcup _{i\in \mathbb {N} }A_{i}\in {\mathcal {A}}.

Una classe additiva è quindi un sottoinsieme dell'insieme delle parti di $\Omega$ che risulta chiuso rispetto alle operazioni di complemento e di unione numerabile.

Si può aggiungere che una classe additiva è chiusa anche rispetto all'intersezione, finita o numerabile, in quanto per le leggi di De Morgan si ha:

\forall i\in \mathbb {N} ,A_{i}\in {\mathcal {A}}\Rightarrow \bigcap _{i\in \mathbb {N} }A_{i}={\overline {\bigcup _{i\in \mathbb {N} }{\overline {A_{i}}}}}\in {\mathcal {A}},

dove il secondo membro dell'uguaglianza appartiene alla classe in quanto complemento di un'unione numerabile dei complementi di insiemi che vi appartengono.

Si pongono i seguenti assiomi (che includono le tre regole ricavabili dalle definizioni precedenti):

Gli eventi sono sottoinsiemi di uno spazio $\Omega$ e formano una classe additiva ${\mathcal {A}}$ .
Ad ogni evento $A\in {\mathcal {A}}$ è assegnato un numero reale non negativo $P(A)$ , detto probabilità di $A$ .
$P(\Omega )=1$ , ossia la probabilità dell'evento certo è uguale a $1$ .
Se l'intersezione tra due eventi $A$ e $B$ è vuota, allora $P(A\cup B)=P(A)+P(B)$ .
Se $A_{n}$ è una successione decrescente di eventi e al tendere di n all'infinito l'intersezione degli $A_{n}$ tende all'insieme vuoto, allora $P(A_{n})$ tende a zero:^[8]

A_{n}\downarrow \varnothing \Rightarrow \lim _{n\rightarrow \infty }P(A_{n})=0.

La funzione $P(A)$ viene detta funzione di probabilità, o anche distribuzione di probabilità. La terna $\ (\Omega ,{\mathcal {A}},P)$ viene detta spazio di probabilità.

Dagli assiomi si ricavano immediatamente alcune proprietà elementari della probabilità:

Se $P(A)$ è la probabilità di un evento $A$ , la probabilità dell'evento complementare è $1-P(A)$ . Infatti, poiché l'intersezione di $A$ e del suo complemento è vuota e la loro unione è $\Omega$ , dagli assiomi 3 e 4 si ricava:

P(A)+P({\overline {A}})=P(A\cup {\overline {A}})=P(\Omega )=1.

La probabilità dell'evento impossibile è pari a zero. Infatti l'insieme vuoto è il complemento di $\Omega$ e si ha:

P(\varnothing )=P({\overline {\Omega }})=1-P(\Omega )=1-1=0.

La probabilità di un evento è minore o uguale a $1$ . Infatti, dovendo la probabilità essere non negativa per il secondo assioma, si ha:

P(A)=1-P({\overline {A}})\leq 1.

Se un evento $A$ è incluso in un evento $B$ , allora la sua probabilità è minore o uguale a quella di $B$ . Infatti, se $B$ include $A$ può essere espresso come unione di insiemi disgiunti e si ha:

A\subseteq B\Rightarrow P(B)=P(A\cup ({\overline {A}}\cap B))=P(A)+P({\overline {A}}\cap B)\geq P(A).

Teoremi di base

Dai suddetti assiomi derivano alcuni teoremi e concetti fondamentali.

Il teorema della probabilità totale consente di calcolare la probabilità dell'unione di due o più eventi, ovvero la probabilità che si verifichi almeno uno di essi. Essa è la somma delle probabilità dei singoli eventi se sono a due a due incompatibili; in caso contrario, alla somma va sottratta la somma delle probabilità delle intersezioni due a due, poi aggiunta la somma delle probabilità delle intersezioni a tre a tre e così via. Ad esempio, nel caso di tre eventi:

P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(A\cap B)-P(A\cap C)-P(B\cap C)+P(A\cap B\cap C).

Si dice probabilità condizionata di $A$ dato $B$ , e si scrive $P(A|B)$ , la probabilità che l'evento $A$ ha di verificarsi quando si sa che $B$ si è verificato:

P(A|B)={\frac {P(A\cap B)}{P(B)}}.

Attraverso tale concetto si perviene al teorema della probabilità composta, che consente di calcolare la probabilità dell'intersezione di due o più eventi, ovvero la probabilità che essi si verifichino tutti. Nel caso di due eventi (che può essere generalizzato), si ha:

P(A\cap B)=P(A|B)P(B).

Se $P(A|B)=P(A)$ , i due eventi $A$ e $B$ vengono definiti indipendenti stocasticamente (o probabilisticamente) e dalla stessa definizione segue una diversa formulazione della probabilità composta, caso particolare del precedente: $P(A\cap B)=P(A)P(B)$ .

Il teorema di Bayes consente di calcolare la probabilità a posteriori di un evento $A_{i}$ , quando si sappia che si è verificato un evento $E$ . Se $A_{i}$ appartiene ad un insieme finito o numerabile di eventi a due a due incompatibili, e se $E$ si verifica allora si verifica necessariamente uno degli eventi di tale insieme (ed uno solo, dato che sono incompatibili), allora, conoscendo le probabilità a priori degli eventi $A_{i}$ e le probabilità condizionate $P(E|A_{i})$ e sapendo che si è verificato $E$ , si può calcolare la probabilità a posteriori di un particolare $A_{i}$ :

P(A_{i}|E)={\frac {P(E|A_{i})P(A_{i})}{\sum _{j}P(E|A_{j})P(A_{j})}}

Più discorsivamente: se si conoscono sia le probabilità a priori delle diverse possibili "cause" di $E$ (ma non si sa per effetto di quale di esse $E$ si è verificato), sia le probabilità condizionate di $E$ data ciascuna delle cause, è possibile calcolare la probabilità che $E$ si sia verificato per effetto di una particolare causa.

Difficoltà nell'utilizzo delle probabilità

Quante insidie vi siano nei ragionamenti sulle probabilità - al di là delle difficoltà nella comprensione di cosa possa essere la probabilità - viene messo in evidenza da alcuni cosiddetti paradossi, dove in realtà si tratta di domande con risposte controintuitive:

nel paradosso delle tre carte l'errore consiste solitamente nel non avere identificato correttamente quali siano gli eventi: i lati delle carte e non le carte stesse;
nel paradosso dei due bambini l'errore consiste solitamente nel non distinguere eventi diversi, ossia nel considerare un unico evento quelli che in realtà sono due;
nel problema di Monty Hall la difficoltà consiste anzitutto nell'accettare l'idea che una nuova informazione può modificare le probabilità di eventi, senza che il mondo reale cambi, l'altro errore consiste nel non analizzare completamente e dunque valutare correttamente la nuova informazione acquisita.

Un'ulteriore fonte di confusione può essere data dal presupporre (sbagliando) che il fatto che un evento abbia probabilità $1$ implica che esso avvenga sempre (invece che quasi certamente).

Note

^ Il 9 si ottiene con le sei combinazioni $(1,2,6),\,(1,3,5),\,(1,4,4),\,(2,2,5),\,(2,3,4),\,(3,3,3)$ , il 10 con le sei combinazioni $(1,3,6),\,(1,4,5),\,(2,2,6),\,(2,3,5),\,(2,4,4),\,(3,3,4)$ , l'11 con $(1,4,6),\,(2,3,6),\,(2,4,5),\,(1,5,5),\,(3,3,5),\,(3,3,4)$ e il 12 con $(1,5,6),\,(2,4,6),\,(2,5,5),\,(3,4,5),\,(3,3,6),\,(4,4,4)$ . Tuttavia, mentre una combinazione di tre numeri uguali può presentarsi in un solo modo, una con due numeri uguali può presentarsi in tre modi diversi, una con tre numeri diversi in sei modi diversi. Si può quindi ottenere il 10 e l'11 in 27 modi $(6+6+3+6+3+3)$ , il 9 e il 12 in 25 modi $(6+6+3+3+6+1)$ .
^ Secondo il Cavaliere, essendo $1/6$ la probabilità del 6 con un dado, in quattro lanci la probabilità sarebbe $4\cdot 1/6=2/3$ ; la probabilità del doppio 6 in due lanci è invece $1/36$ e, per arrivare a $2/3$ , occorrono 24 lanci: $24\cdot 1/36=2/3$ . In realtà la probabilità di ottenere almeno un 6 si calcola meglio a partire dall'evento complementare, "nessun 6 in quattro lanci", che è $(5/6)^{4}$ , e sottraendo questa da $1$ , ottenendo il $51,8\%$ ; nello stesso modo si calcola che la probabilità di almeno un doppio 6 in 24 lanci è $1-(35/36)^{24}=0,49=49\%$ .
^ La ristampa della traduzione inglese è disponibile in http://www.stat.ucla.edu/history/huygens.pdf Archiviato il 31 ottobre 2014 in Internet Archive..
^ Ad esempio, nel lancio di un dado l'insieme $\Omega$ è costituito dai sei risultati $\left\{1,2,3,4,5,6\right\}$ ; l'evento "esce il 3" è rappresentato dall'insieme $\left\{3\right\}$ , l'evento "esce un numero pari" è rappresentato dall'insieme $\left\{2,4,6\right\}$ .
^ Ad esempio, restando al lancio di un dado, se $A=\left\{2\right\}$ e $B=\left\{4,\,6\right\}$ , l'evento $A\cup B$ è $\left\{2,\,4,\,6\right\}$ , ovvero "esce un numero pari". Se invece $A=$ "esce un numero pari" e $B=$ "esce un numero minore o uguale a 3", $A\cap B=\left\{2\right\}$ .
^ (EN) IUPAC Gold Book, "probability"
^ L'impostazione soggettiva era stata anticipata da Ramsey nel 1926.
^ Una successione di insiemi è detta decrescente se ciascun insieme include il successivo. Vedere limite insiemistico.

Bibliografia

Remo Cacciafesta, Lezioni di calcolo delle probabilità, Roma, Veschi, 1983, ISBN 978-88-41-33523-9.
Giorgio Dall'Aglio, Calcolo delle probabilità, Bologna, Zanichelli, 2003, ISBN 978-88-08-17676-9.
Domenico Piccolo, Statistica, Bologna, Il Mulino, 1998, ISBN 978-88-15-13902-3. Parte Seconda, Cap. VIII, pp. 215–291
Keith Devlin, La lettera di Pascal. Storia dell'equazione che ha fondato la teoria della probabilità, Segrate, Rizzoli, 2008, ISBN 978-88-17-02592-8.
Andrei N. Kolmogorov, Teoria delle probabilità, a cura di Luigi Accardi, Roma, Edizioni Teknos, 1995.
Giancarlo Rota e Joseph P.S. Kung, Enciclopedia del Novecento, 1980. Probabilità Istituto dell'Enciclopedia italiana Treccani
Eugenio Regazzini, Enciclopedia della Scienza e della Tecnica, 2007. Probabilità Istituto dell'Enciclopedia italiana Treccani