Théorie de l'information

La théorie de l'information, sans précision, est le nom usuel désignant la théorie de l'information de Shannon, qui est une théorie utilisant les probabilités pour quantifier le contenu moyen en information d'un ensemble de messages, dont le codage informatique satisfait une distribution statistique que l'on pense connaître. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le fondateur avec son article A Mathematical Theory of Communication publié en 1948.

Parmi les branches importantes de la théorie de l'information de Shannon, on peut citer :

le codage de l'information ;
la mesure quantitative de redondance d'un texte ;
la compression de données ;
la cryptographie.

Dans un sens plus général, une théorie de l'information vise à quantifier et qualifier la notion de contenu en information présent dans un ensemble de données dans un certain contexte. Elle est à distinguer de la théorie algorithmique de l'information, créée par Kolmogorov, Solomonoff et Chaitin au début des années 1960.

Information selon Shannon, concept de la physique mathématique

Mesurer l'information a été rendu nécessaire par les recherches d'efficacité sur les systèmes de télécommunication. L'origine de ces recherches remonte aux études entreprises dès la fin du XIX^e siècle, en physique et en mathématique par Boltzmann et Markov sur la notion de probabilité d'un événement et les possibilités de mesure de cette probabilité. Plus récemment, avant la Seconde Guerre mondiale, les contributions les plus importantes sont dues à la collaboration des mathématiciens et des ingénieurs des télécommunications, qui ont été amenés à envisager les propriétés théoriques de tout système de signaux utilisé par les opérateurs, vivants ou techniques, à des fins de communication entre un émetteur et un récepteur, par un canal bruité ou non, dans un contexte donné.

Modèle de la communication de Shannon et Weaver.

À la suite des travaux de Ralph Hartley (1928), Claude Shannon (1948) détermine l'information comme grandeur mesurable, sinon observable — car nul n'a jamais vu l'information — et formalise avec elle une théorie de la communication qu'il élabore avec Warren Weaver^[1].

Cette théorie est née de besoins pratiques. La société Bell cherche à transmettre les messages d'une façon à la fois économique et fiable. Le cadre originel de la théorie est celui d'un système de communications où un émetteur transmet un message à un récepteur à travers un canal matériel/énergétique donné. Émetteur et récepteur ont par hypothèse un répertoire commun, un code qui contient les catégories de signaux utilisables. Ainsi le message codé est transmis, de l'émetteur au récepteur à travers le canal, sous forme de signes ou signaux pouvant être portés par de la matière ou de l'énergie.

La postérité a choisi d'appeler l'ensemble « théorie de l'information » bien qu'il s'agisse juste d'une théorie mathématique de la communication de l'information ; or c'est cette seconde expression qu'emploient Shannon et Weaver. Cette source de confusion est régulièrement rappelée dans la littérature. On dit, en pareil cas, que l'expression abrégée a été retenue par l'usage ; l'emploi du sigle TMCI clarifierait la situation.

Cette théorie mathématique appliquée aux techniques de la télécommunication a été élaborée plus spécialement par Claude Shannon, ingénieur à la Compagnie des Téléphones Bell et reste jusqu'à nos jours la base du concept quantitatif d'information. Ni la forme matérielle ou énergétique, ni le contenu cognitif des messages n'importent à ce stade : leur sémantique est laissée de côté tout comme leur contenant physique, et la théorie ne se concentre que sur les aspects mathématiques et de communication.

Dans sa conception originale, la théorie de l'information de Shannon s'est limitée à analyser les moyens à mettre en œuvre dans les techniques de télécommunication pour transmettre l'information rapidement (ce qui implique la brièveté) et avec sécurité (ce qui au contraire demande un peu de redondance). Elle étudie donc des méthodes pour minimiser la probabilité d'erreur dans la reconnaissance du message. La mesure de l'information, au sens mathématique du terme, permettra de comparer les résultats de chacune.

Shannon remarque que l'information sert à dissiper une incertitude sur un aléa, par définition incertain. Cette incertitude est prise comme mesure de l'information. Une information sera donc uniquement définie par sa probabilité ( $I = - log p$ ). Donc l'information est la mesure de l'incertitude estimée par la probabilité de l'événement. Information et incertitude sont liées. Plus une information est incertaine, plus elle est intéressante, tandis qu'un événement certain, dans un sens ou dans l'autre, ne contient aucune information. On peut donc raisonner en probabilité et non en logique booléenne.

L'information de Shannon peut se mesurer en unités binaires dites bits. Le bit peut être défini comme un événement qui dénoue l'incertitude d'un récepteur placé devant une alternative dont les deux issues sont pour lui équiprobables. Plus les éventualités que peut envisager ce récepteur sont nombreuses, plus le message comporte d'événements informatifs, plus s'accroît la quantité de bits transmis. Il est clair que nul récepteur ne mesure en bits l'information obtenue dans un message. C'est seulement l'ingénieur d'un canal de télécommunication qui a besoin de la théorie, et mesure l'information en bits pour rendre la transmission de message économique, mais cependant fiable dans les limites de son cahier des charges.

La redondance est un moyen de réduire le « bruit ». Dans des cas de fort bruit, une forte redondance permet d'éviter les erreurs à la réception. Il peut s'agir par exemple d'un collationnement (répétition intégrale du message) ou d'un code ("S comme Simone, I comme Isidore...", ou encore les codes utilisées dans l'aviation : Echo, Tango, X-ray...). A contrario, des lettres - voire des syllabes - inutiles à la transmission de l'information peuvent être supprimées sans perte de compréhension, ce qui était déjà utilisé en sténographie.

L'information chemine à travers un canal matériel/énergétique : fil téléphonique, onde radio, etc. Or, dans son cheminement, l'information rencontre du bruit. Le bruit est constitué par les perturbations aléatoires de toutes sortes qui surgissent dans le canal de transmission et tendent à brouiller le message. Le problème de la dégradation de l'information par le bruit est donc un problème inhérent à sa communication. Ici, l'idée de redondance présente une face nouvelle ; alors qu'elle apparaît comme un surplus inutile sous l'angle économique, elle devient, sous l'angle de la fiabilité de la transmission un fortifiant contre le bruit, un préventif contre les risques d'ambiguïté et d'erreur à la réception.

Statut physique de la théorie de l’information

Très vite de multiples applications de la théorie de l'information de Shannon sont apparues dans le domaine des sciences humaines^[2] : les modèles mathématiques élaborés ont permis de préciser certains concepts utilisés couramment dans les analyses linguistiques structurales, en même temps qu'ils faisaient apparaître les limites inhérentes à ce type d'analyse et provoquaient des recherches nouvelles (en traduction automatique et en psycho-linguistique), tandis que se développait un champ scientifique nouveau : la cybernétique^[3]. Cette discipline prendra le nom d'automatique au fur et à mesure qu'elle incorporera des théorèmes.

Une caractéristique de la théorie de Shannon est de donner à la notion d'information (telle que définie par cette théorie) un statut quantitatif à part entière. Effectivement, l'information acquiert les caractères fondamentaux de toute réalité physique organisée : abandonnée à elle-même, elle ne peut évoluer que dans le sens de sa désorganisation, c'est-à-dire l'accroissement d'entropie ; de fait, l'information subit, dans ses transformations (codage, transmission, décodage, etc.), l'effet irréversible et croissant de la dégradation. Par conséquent Shannon définit comme entropie d'information la mesure $H$ ( $H = - K log p$ ). De façon étonnante, l'équation par laquelle Shannon définit l'entropie de l'information coïncide, à un facteur multiplicatif près, avec l'équation de Boltzmann-Gibbs définissant l'entropie $S$ en thermodynamique ( $S = - K log p$ ). Cet épisode important a été abondamment commenté^[4].

Certains, comme Couffignal^[5], ont soutenu que la coïncidence est sans signification : l'application de la fonction de Shannon à la thermodynamique et à l'information serait un hasard de rencontre de l'application d'une même formule mathématique, sans plus. Certes, il peut y avoir rencontre de deux équations de probabilité provenant d'univers différents.

À l'inverse, Brillouin avait prétendu établir une relation logique entre le H de Shannon et le S de Boltzmann, ce que retiennent la plupart des chercheurs qui appliquent la théorie aux disciplines non mathématiques, la biologie en particulier. Selon ce point de vue, il est possible d'inscrire l'information telle que définie par Shannon dans la physique. En effet, il existe une dualité dans le concept d'information reliant l'information à la matière/énergie véhiculant cette information. L'information telle que définie par Shannon s'enracine ainsi dans la physique d'une part, dans les mathématiques d'autre part, mais sans qu'on puisse la réduire aux maîtres-concepts de la physique classique : masse et énergie. Comme le dit Wiener : « l'information n'est ni la masse, ni l'énergie, l'information est l'information », ce qui laisse la porte ouverte à des conceptions diverses, à commencer par celle d'un troisième constituant de l'univers^[6], après la matière et l'énergie précisément !

Développement de la théorie mathématique de l'information

Claude Shannon.

La théorie mathématique de l'Information résulte initialement des travaux de Ronald Aylmer Fisher. Celui-ci, statisticien, définit formellement l'information comme égale à la valeur moyenne du carré de la dérivée partielle ( $δ$ ) du logarithme naturel de la loi de probabilité étudiée.

{\mathcal {I}}(\theta )=\mathrm {E} \left\{\left.\left[{\frac {\partial }{\partial \theta }}\ln L(X;\theta )\right]^{2}\right|\theta \right\}

À partir de l'inégalité de Cramer, on déduit que la valeur d'une telle information est proportionnelle à la faible variabilité des conclusions résultantes. En termes simples, moins une observation est probable plus elle est porteuse d'information. Par exemple, lorsque le journaliste commence le journal télévisé par la phrase « Bonsoir », ce mot, qui présente une forte probabilité, n'apporte que peu d'information. En revanche, si la première phrase est, par exemple « La France a peur », sa faible probabilité fera que l'auditeur apprendra qu'il s'est passé quelque chose, et, partant, sera plus à l'écoute.

D'autres modèles mathématiques ont complété et étendu de façon formelle la définition de l'information.

Claude Shannon et Warren Weaver renforcent le paradigme. Ils sont ingénieurs en télécommunication et se préoccupent de mesurer l'information pour en déduire les fondamentaux de la Communication (et non une théorie de l'information). Dans Théorie Mathématique de la Communication en 1948, ils modélisent l'information pour étudier les lois correspondantes : bruit, entropie et chaos, par analogie générale aux lois d'énergétique et de thermodynamique. Leurs travaux complétant ceux d'Alan Turing, de Norbert Wiener et de John von Neumann (pour ne citer que les principaux) constituent le socle initial de la théorie du signal et des « sciences de l'information ».

Pour une source $X$ comportant $n$ symboles, un symbole $x i$ ayant une probabilité $p i = P (X = x i)$ d'apparaître, l'entropie $H$ de la source $X$ est définie comme :

$H(X)=-\sum _{i}^{n}p_{i}\log _{2}(p_{i})$

Au départ, c'était le logarithme naturel, à base $10$ , qui était utilisé. Mais la base $2$ est justifiée par un étalonnage. On considère l'expérience probabiliste la plus élémentaire : le tirage aléatoire à deux issues équiprobables, pile ou face, chacune de probabilité $1/2$ . En imposant que la quantité d'information fournie par l'issue d'un tirage aléatoire à pile ou face soit de $1$ , c'est-à-dire que l'on doive avoir $-\log _{a}(1/2)=1$ , on trouve que $a=2$ . La valeur de $1$ avec cette base $2$ du logarithme définit l'unité de mesure de l'information, le shannon (avec une minuscule), couramment appelé le bit (voir article shannon (unité)).

Les considérations d'entropie maximale (MAXENT) permettront à l'inférence bayésienne de définir de façon rationnelle ses distributions a priori.

L'informatique constituera une déclinaison technique automatisant les traitements (dont la transmission et le transport) d'information. L'appellation « Technologies de l'Information et de la Communication » recouvre les différents aspects (systèmes de traitements, réseaux, etc.) de l'informatique au sens large.

Les sciences de l'information dégagent du sens depuis des données en s'appuyant sur les notions de corrélation, d'entropie et d'apprentissage (voir Fouille de données). Les technologies de l'information, quant à elles, s'occupent de la façon de concevoir, implémenter et déployer des solutions pour répondre à des besoins identifiés.

Adrian Mc Donough dans Information economics définit l'information comme la rencontre d'une donnée et d'un problème. La connaissance est une information potentielle. Le rendement informationnel d'un système de traitement de l'information est le quotient entre le nombre de bits du réservoir de données et celui de l'information extraite. Les données sont l'aspect coût du système, l'information, l'aspect valeur. Il en résulte que lorsqu'un informaticien calcule la productivité de son système par le rapport entre la quantité de données produites et le coût financier, il commet une erreur, car les deux termes de l'équation négligent la quantité d'information réellement produite. Cette remarque prend tout son sens à la lumière du grand principe de Russell Ackoff qui postule qu'au-delà d'une certaine masse de données, la quantité d'information baisse et qu'à la limite elle devient nulle. Ceci correspond à l'adage « trop d'information détruit l'information ». Ce constat est aggravé lorsque le récepteur du système est un processeur humain, et pis encore, le conscient d'un agent humain. En effet, l'information est tributaire de la sélection opérée par l'attention, et par l'intervention de données affectives, émotionnelles, et structurelles absentes de l'ordinateur. L'information se transforme alors en sens, puis en motivation. Une information qui ne produit aucun sens est nulle et non avenue pour le récepteur humain, même si elle est acceptable pour un robot. Une information chargée de sens mais non irriguée par une énergie psychologique (drive, cathexis, libido, ep, etc.) est morte. On constate donc que dans la chaîne qui mène de la donnée à l'action (données → information → connaissance → sens → motivation), seules les deux premières transformations sont prises en compte par la théorie de l'information classique et par la sémiologie. Kevin Bronstein remarque que l'automate ne définit l'information que par deux valeurs : le nombre de bits, la structure et l'organisation des sèmes, alors que le psychisme fait intervenir des facteurs dynamiques tels que passion, motivation, désir, répulsion, etc. qui donnent vie à l'information psychologique.

Exemples d'information

Une information désigne, parmi un ensemble d'événements, un ou plusieurs événements possibles.

En théorie, l'information diminue l'incertitude. En théorie de la décision, on considère même qu'il ne faut appeler « information » que ce qui est « susceptible d'avoir un effet sur nos décisions ».

En pratique, l'excès d'information, tel qu'il se présente dans les systèmes de messagerie électronique, peut aboutir à une saturation, et empêcher la prise de décision.

Premier exemple

Soit une source pouvant produire des tensions entières de 1 à 10 volts et un récepteur qui va mesurer cette tension. Avant l'envoi du courant électrique par la source, le récepteur n'a aucune idée de la tension qui sera délivrée par la source. En revanche, une fois le courant émis et reçu, l'incertitude sur le courant émis diminue. La théorie de l'information considère que le récepteur possède une incertitude de dix états.

Second exemple

Une bibliothèque possède un grand nombre d'ouvrages, des revues, des livres et des dictionnaires. Nous cherchons un cours complet sur la théorie de l'information. Tout d'abord, il est logique que nous ne trouverons pas ce dossier dans des ouvrages d'arts ou de littérature ; nous venons donc d'obtenir une information qui diminuera notre temps de recherche. Nous avions précisé que nous voulions aussi un cours complet, nous ne le trouverons donc ni dans une revue, ni dans un dictionnaire. Nous avons obtenu une information supplémentaire (nous cherchons un livre), qui réduira encore le temps de notre recherche.

Contenu d'information et contexte

Il faut moins d'octets pour écrire « chien » que « mammifère ». Pourtant l'indication « Médor est un chien » contient bien plus d'information que l'indication « Médor est un mammifère » : le contenu d'information sémantique d'un message dépend du contexte. En fait, c'est le couple message + contexte qui constitue le véritable porteur d'information, et jamais le message seul (voir paradoxe du compresseur).

Le mot même de « message » n'a d'ailleurs de sens que si on postule un émetteur (conscient ou non, par exemple un phénomène créant des ondes gravitationnelles) et un récepteur soit réel (LIGO) soit hypothétique (par exemple message d'un naufragé glissé dans une bouteille), en plus des informations de contexte : langue, dictionnaire, grammaire.

Mesure de la quantité d'information

Quantité d'information : cas élémentaire

Considérons $N$ boîtes numérotées de 1 à $N$ . Un individu A a caché au hasard un objet dans une de ces boîtes. Un individu B doit trouver le numéro de la boîte où est caché l'objet. Pour cela, il a le droit de poser des questions à l'individu A auxquelles celui-ci doit répondre sans mentir par OUI ou NON. Mais chaque question posée représente un coût à payer par l'individu B (par exemple un euro). Un individu C sait dans quelle boîte est caché l'objet. Il a la possibilité de vendre cette information à l'individu B. B n'acceptera ce marché que si le prix de C est inférieur ou égal au coût moyen que B devrait dépenser pour trouver la boîte en posant des questions à A. L'information détenue par C a donc un certain prix. Ce prix représente la quantité d'information représentée par la connaissance de la bonne boîte : c'est le nombre moyen de questions à poser pour identifier cette boîte. Nous la noterons I.

Exemple

Si $N = 1$ , $I = 0$ .

Il n'y a qu'une seule boîte. Aucune question n'est nécessaire.

Si $N = 2$ , $I = 1$ .

On demande si la bonne boîte est la boîte n^o 1. La réponse OUI ou NON détermine alors sans ambiguïté quelle est la boîte cherchée.

Si $N = 4$ , $I = 2$ .

On demande si la boîte porte le n^o 1 ou 2. La réponse permet alors d'éliminer deux des boîtes et il suffit d'une dernière question pour trouver quelle est la bonne boîte parmi les deux restantes.

Si $N = 2 k$ , $I = k$ .

On écrit les numéros des boîtes en base 2. Les numéros ont au plus

k

chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si la boîte cherchée possède le chiffre 0 ou le chiffre 1. En

k

questions, on a déterminé tous les chiffres binaires de la bonne boîte. Cela revient également à poser

k

questions, chaque question ayant pour but de diviser successivement le nombre de boîtes considérées par 2 (méthode de dichotomie).

On est donc amené à poser $I = log 2 (N)$ , mais cette configuration ne se produit que dans le cas de $N$ événements équiprobables.

Quantité d'information relative à un évènement

Supposons maintenant que les boîtes soient colorées, et qu'il y ait $n$ boîtes rouges. Supposons également que C sache que la boîte où est caché l'objet est rouge. Quel est le prix de cette information ? Sans cette information, le prix à payer est $log 2 (N)$ . Muni de cette information, le prix à payer n'est plus que $log 2 (n)$ . Le prix de l'information « la boîte cherchée est rouge » est donc $log 2 (N) - log 2 (n) = log 2 (N / n)$ .

On définit ainsi la quantité d'information comme une fonction croissante de ^N⁄_n avec :

$N$ le nombre d'évènements possibles ;
$n$ le nombre d'éléments du sous-ensemble délimité par l'information.

Afin de mesurer cette quantité d'information, on pose :

I=\log _{2}\left({\frac {N}{n}}\right)

$I$ est exprimé en bit (ou « logon », unité introduite par Shannon^{[réf. nécessaire]}, de laquelle, dans les faits, bit est devenu un synonyme), ou bien en « nat » si on utilise le logarithme naturel à la place du logarithme de base 2.

Cette définition se justifie, car on veut les propriétés suivantes :

l'information est comprise entre 0 et ∞ ;
un évènement avec peu de probabilité représente beaucoup d'information (exemple : « Il neige en janvier » contient beaucoup moins d'information que « Il neige en août » pour peu que l'on soit dans l'hémisphère nord) ;
l'information doit être additive.

Remarque : lorsqu'on dispose de plusieurs informations, la quantité d'information globale n'est pas la somme des quantités d'information. Ceci est dû à la présence du logarithme. Voir aussi : information mutuelle, information commune à deux messages, qui, dans l'idée, explique cette « sous-additivité » de l'information.

Entropie, formule de Shannon

Article détaillé : entropie de Shannon.

Supposons maintenant que les boîtes soient de diverses couleurs : n₁ boîtes de couleur C₁, n₂ boîtes de couleur C₂…, n_k boîtes de couleurs C_k, avec n₁ + n₂ + … + n_k = N. La personne C sait de quelle couleur est la boîte recherchée. Quel est le prix de cette information ?

L'information « la boîte est de couleur C₁ » vaut log N/n₁, et cette éventualité a une probabilité n₁/N. L'information « la boîte est de couleur C2 » vaut log N/n₂, et cette éventualité a une probabilité n₂/N…

Le prix moyen de l'information est donc n₁/N log N/n₁ + n₂/N log N/n₂ + … + n_k/N log N/n_k. Plus généralement, si on considère k évènements disjoints de probabilités respectives p₁, p₂…, p_k avec p₁ + p₂ + … + p_k = 1, alors la quantité d'information correspondant à cette distribution de probabilité est p₁ log 1/p₁ + … + p_k log 1/p_k. Cette quantité s'appelle entropie de la distribution de probabilité.

L'entropie permet donc de mesurer la quantité d'information moyenne d'un ensemble d'évènements (en particulier de messages) et de mesurer son incertitude. On la note $H$ :

H\left(I\right)=-\sum _{i\in I}p_{i}\log _{2}\;p_{i}

avec $p_{i}={\frac {n_{i}}{N}}$ la probabilité associée à l'apparition de l'évènement $i$ .

Codage de l'information

On considère une suite de symboles. Chaque symbole peut prendre deux valeurs s₁ et s₂ avec des probabilités respectivement p₁ = 0,8 et p₂ = 0,2. La quantité d'information contenue dans un symbole est :

p_{1}\times \log _{2}{\frac {1}{p_{1}}}+p_{2}\times \log _{2}{\frac {1}{p_{2}}}\approx 0,7219

Si chaque symbole est indépendant du suivant, alors un message de $N$ symboles contient en moyenne une quantité d'information égale à 0,72 $N$ . Si le symbole s₁ est codé 0 et le symbole s₂ est codé 1, alors le message a une longueur de $N$ , ce qui est une perte par rapport à la quantité d'information qu'il porte. Les théorèmes de Shannon énoncent qu'il est impossible de trouver un code dont la longueur moyenne soit inférieure à 0,72N, mais qu'il est possible de coder le message de façon que le message codé ait en moyenne une longueur aussi proche que l'on veut de 0,72N lorsque $N$ augmente.

Par exemple, on regroupe les symboles trois par trois et on les code comme suit :

symboles à coder	probabilité du triplet	codage du triplet	longueur du code
s₁s₁s₁	0,8³ = 0,512	0	1
s₁s₁s₂	0,8² × 0,2 = 0,128	100	3
s₁s₂s₁	0,8² × 0,2 = 0,128	101	3
s₂s₁s₁	0,8² × 0,2 = 0,128	110	3
s₁s₂s₂	0,2² × 0,8 = 0,032	11100	5
s₂s₁s₂	0,2² × 0,8 = 0,032	11101	5
s₂s₂s₁	0,2² × 0,8 = 0,032	11110	5
s₂s₂s₂	0,2³ = 0,008	11111	5

Le message s₁s₁s₁s₁s₁s₂s₂s₂s₁ sera codé 010011110.

La longueur moyenne du code d'un message de $N$ symboles est :

{N \over 3}(0,512+3\times 0,128\times 3+3\times 0,032\times 5+0,008\times 5)=0,728N

Article détaillé : théorie des codes.

Limites de cette théorie

L'une des caractéristiques fondamentales de cette théorie est l'exclusion de la sémantique. La théorie de l'information est indifférente à la signification des messages. Le sens d'un message peut pourtant être considéré comme essentiel dans la caractérisation de l'information. Mais le point de vue de la théorie de l'information se limite à celui d'un messager dont la fonction est de transférer un objet^[7].

La théorie de l'information de Shannon est toujours relative à un ensemble de données, une famille de chaînes de caractères, caractérisée par une loi de distribution bien précise. Elle donne donc un contenu en information en moyenne, ce qui en fait une théorie probabiliste, particulièrement bien adaptée au contexte de la transmission de donnée, et dans ce cadre cette théorie a produit des résultats importants. En revanche, elle n'est pas en mesure de quantifier le contenu en information d'une chaine prise isolément, un brin d'ADN par exemple, alors que la théorie algorithmique de l'information en est capable jusqu'à un certain point. Mais cette dernière théorie possède également ses propres limitations. C'est pourquoi il ne faut pas considérer que la notion d'information est entièrement cernée par la théorie de l'information de Shannon, ou la théorie algorithmique de l'information, mais que cette notion a besoin d'une variété de modélisations formelles pour s'exprimer^[8].

L'information de Fisher semble ainsi parfois avantageusement remplacer l'information de Shannon dans la mesure où elle est une quantification locale et non globale de l'information contenue dans une distribution^[9]. Cela dit, les deux notions sont liées^[10] et peuvent dans diverses applications mener aux mêmes résultats.

Notes et références

↑ C.E. Shannon et W. Weaver : The mathematical Theory of communication, University of Illinois, Urbana III, 1949.
↑ Voir par exemple, R. Escarpit : Théorie générale de l'information et de la communication, Hachette 1980.
↑ La cybernétique naquit en happant le concept scientifique d'information naissant pour l'intégrer dans la théorie des machines^[pas clair]. La cybernétique est une discipline entamée par Norbert Wiener en 1948. Elle est définie comme étant l'étude de la théorie de la commande et de la communication tant dans la machine que dans les êtres vivants. En effet, dans la conception de Wiener, la cybernétique n'est pas seulement une science des machines mais s'intéresse à tout système, vivant ou non, capable d'auto-contrôle et de communication. Ainsi Wiener fonda la cybernétique en liant la commande à la communication de l'information.
↑ Jérôme Segal. Le zéro et le un. Histoire de la notion scientifique d'information au 20^e siècle. Éditions Syllepse, 2003, 890 p. (ISBN 2 84797 046 0). James Gleick. The information. A history, a theory, a flood. Fourth Estate, 2011, 527 p. (ISBN 978 0 00 722574 3).
↑ L. Couffignal : La cybernétique, PUF, Que sais-je ?, Paris 1968.
↑ Doyle, R. (Bob) et "The Information Philosopher" : www.informationphilosopher.com (I-Phi ou Pi). Stonier, T. Information and the internal structure of the universe. Springer Verlag, 1990. Beyond information. The natural history of intelligence. Springer Verlag, 1992.
↑ Vue d'ensemble de la théorie de l'information [PDF], université de Tours, page 5.
↑ Jean-Paul Delahaye, Information, complexité et hasard, Hermès [détail des éditions], chapitre 1.
↑ B.R.Frieden, Science from Fisher Information, 2004, Cambridge University Press
↑ (en) C.R.Rao, « Differential Metrics in Probability Spaces » in Differential Geometry in Statistical Inference, Institute of Mathematical Statistics, chapitre 5c

Voir aussi

Bibliographie

Léon Brillouin Science et théorie de l'information, J. Gabay, 2000 (ISBN 2876470365)
Léon Brillouin Science and information theory (typographie plus lisible, mais version en anglais)
(en) [PDF] C. E. Shannon « A Mathematical Theory of Communication », sur L’Institut d’électronique et d’informatique Gaspard-Monge (Reprinted with corrections from The Bell System Technical Journal, Vol. 27, p. 379–423, 623–656, July, October, 1948.)
Claude Shannon et Warren Weaver, Théorie mathématique de la communication, Paris, Cassini, coll. « le sel et le fer », 2018 (ISBN 978-2-84225-222-9), compte rendu par Olivier Rioul, « Une théorie mathématique de la communication », Bibnum. Textes fondateurs de la science analysés par les scientifiques d'aujourd'hui,‎ 2018 (lire en ligne)
Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, Wiley-Interscience, 2006 (ISBN 978-0-471-24195-9) [détail des éditions]
(en) David MacKay, Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2003 (ISBN 0-521-64298-1) [détail des éditions]

Articles connexes

Liens externes

[1] C.E. Shannon et W. Weaver : The mathematical Theory of communication, University of Illinois, Urbana III, 1949.

[2] Voir par exemple, R. Escarpit : Théorie générale de l'information et de la communication, Hachette 1980.

[3] La cybernétique naquit en happant le concept scientifique d'information naissant pour l'intégrer dans la théorie des machines^[pas clair]. La cybernétique est une discipline entamée par Norbert Wiener en 1948. Elle est définie comme étant l'étude de la théorie de la commande et de la communication tant dans la machine que dans les êtres vivants. En effet, dans la conception de Wiener, la cybernétique n'est pas seulement une science des machines mais s'intéresse à tout système, vivant ou non, capable d'auto-contrôle et de communication. Ainsi Wiener fonda la cybernétique en liant la commande à la communication de l'information.

[4] Jérôme Segal. Le zéro et le un. Histoire de la notion scientifique d'information au 20^e siècle. Éditions Syllepse, 2003, 890 p. (ISBN 2 84797 046 0). James Gleick. The information. A history, a theory, a flood. Fourth Estate, 2011, 527 p. (ISBN 978 0 00 722574 3).

[5] L. Couffignal : La cybernétique, PUF, Que sais-je ?, Paris 1968.

[6] Doyle, R. (Bob) et "The Information Philosopher" : www.informationphilosopher.com (I-Phi ou Pi). Stonier, T. Information and the internal structure of the universe. Springer Verlag, 1990. Beyond information. The natural history of intelligence. Springer Verlag, 1992.

[7] Vue d'ensemble de la théorie de l'information [PDF], université de Tours, page 5.

[Delahaye_1999-8] Jean-Paul Delahaye, Information, complexité et hasard, Hermès [détail des éditions], chapitre 1.

[Frieden_2003-9] B.R.Frieden, Science from Fisher Information, 2004, Cambridge University Press

[Rao_1987-10] (en) C.R.Rao, « Differential Metrics in Probability Spaces » in Differential Geometry in Statistical Inference, Institute of Mathematical Statistics, chapitre 5c

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]