Les origines de l'Hypertexte et du Web [3]
En une décennie, Internet a révolutionné le monde. Le monde des médias, de l'édition et celui de l'informatique. Cette révolution, comparable à celle de l'imprimerie au XVe siècle, c'est au Web que nous la devons. Et si je fais cette comparaison, c'est aussi sur le plan technique. Votre écran est en effet une autre imprimante et l'édition de textes pour le Web trouve ses racines dans l'Histoire de la chose imprimée. Retournons vers le passé pour comprendre le présent.
- Dans la série :
le navigateur du savoir
En 1987, John Sculley se voit en technologue et imagine le Knowledge Navigator. La vidéo d'Apple retrouvée(...) -
les origines de l'Hypertexte et du Web [1]
De Diderot à Xanadu : comment des rêveurs ont dessiné le Web(...) -
les origines de l'Hypertexte et du Web [2]
De la science-fiction au premier serveur Web : comment des génies ont créé le cyber-espace(...)
Qu'est-ce que l'Édition en fait ?
J'ose ma définition, large, intemporelle et certainement contestable
:
L'édition consiste à ordonner des lettres et des signes dans
une succession cohérente de lignes disposées dans des emplacements disponibles.
L'ensemble constituant un texte.
Ce mot, « texte », nous vient du latin textus qui signifie « tissu », « trame ». Pour communiquer par l'écrit, nous tissons donc nos idées. Le texte étant conçu pour être lu de façon linéaire et séquentielles, ces idées sont découpées suivant une structure logique que des siècles de tradition de l'écrit —du volumenIl est intéressant de noter que le Codex se substitua au Volumen quand un scripteur vint à manquer de place pour finir son texte et qu'il imagina l’usage du parchemin découpé en feuilles réunies ensuite en cahiers. D'où l'expression : « être au bout du rouleau » ↓ au codex, de l'incunable au livre industriel actuel— ont hiérarchisé en pages, chapitres, paragraphes, etc.
Si vous êtes toujours là, ne soyez pas inquiet cher lecteur : je ne vais pas vous raconter l'évolution des techniques de composition des textes depuis l'invention de l'imprimerie par les chinois au XIe siècle1 mais faire un détour par le passage de la composition chaude à la composition froide. Il est en effet important de connaître ces faits, qui ont bouleversé le paysage de la communication écrite de ces 50 dernières années, pour comprendre pourquoi la création et la gestion d'un document sur le Web séparent aujourd'hui la forme du contenu.
Du chaud au froid
C'est au IXXe siècle que furent introduites les premières composeuses mécaniques avec les systèmes Linotype et Monotype permettant non seulement de composer des lignes entières, mais aussi de fondre de nouveaux caractères pour chaque travail de composition, supprimant ainsi la distribution des « fontes ». Auparavant, en effet, des fonderies de caractères produisaient en masse ces polices qui étaient ensuite livrées au compositeur. Mais l’assemblage manuel par le compositeur de tous les caractères était une tâche laborieuse. C'est pour cette raison (la fonte des polices de caractères chez le compositeur) que l'on parle de composition chaude. Passons maintenant à la composition froide.
En 1948, 2 ingénieurs français, Higonet et Moyroud, ont l'idée d'inventer
le premier procédé de photocomposition. Les caractères
sont stockés sous forme d'images en négatif disposées dans plusieurs rangées
sur un disque qui tourne. Le photocompositeur saisit les caractères au moyen
d'un clavier électrique. Un système optique va positionner sur le
support photographique les caractères, puis les insoler sur un film par un procédé stroboscopique. On parle alors de « flashage ».
Les premières machines, les «
Photon », furent fabriquées et commercialisées aux USA, puis, sous
licence en France (sous le nom de
Lumitype), par Charles Peignot qui
aura beaucoup de mal à convaincre les imprimeurs français. Obstiné, il conduira
même son illustre société à la faillite2.
C'est finalement sous l'impulsion des éditeurs que le virage de la photocomposition est engagé. En 1967, un dénommé William W. Tunnicliffe tient une conférence au Canadian Government Printing Office. Son sujet ? La séparation de l'information contenue dans les documents et de leur format3.
Le monde de l'édition a en effet toutes les raisons pour pousser dans cette direction : pérennité des contenus stockés sur les bandes magnétiques, frais de réimpression réduits par la réutilisation de textes déjà composés, économies conséquentes sur les corrections au fil du processus éditorial... mais la technologie n'est pas encore là. Restons un instant encore dans cette période si fertile des années 60 où les fondations de la Toile émergèrent.
69, année sémantique
Stanley Rice, un éditeur de New York, propose en cette année, un ensemble « de structures éditoriales » paramétrables. Son idée est de séparer le fond de la forme. D'un côté nous aurions ainsi un contenu structuré en sections, de l'autre, un fichier ancillaire, modifiable à volonté, où les styles seraient définis pour chaque élément structurant le texte.
Pendant ce temps, en Californie, dans les laboratoires d'IBM de San Jose, un dénommé Charles F. Goldfarb a des problèmes avec les imprimantesJe plaisante bien sûr.↓. IBM dispose de Script, un langage de codes pour mettre en forme les textes à l'impression. Mais Script est trop dépendant de l'imprimante. L'écho des propos de Tunnicliffe et de Rice, vient alors à Goldfarb et celui-ci convaint IBM de lancer le projet GMLPour l'anecdote, les 2 compères de labo de Goldfarb s'appelaient Mosher et Lorie : G M L.↓.
3 années de recherche et de développement plus part Goldfarb et son équipe proposent donc ce langage de marquage basé sur 2 principes importants :
- les marques qu'il nomme aussi « balises » (en anglais marks ou tags) doivent décrire la structure du document plutôt que l'aspect visuel
- elles doivent pouvoir être comprises autant par une machine que par un humain
Les Linotype, Monotype et autres Scangraphic intègrent alors GML et ses dérivés. Ces constructeurs ouvrent ainsi une nouvelle voie pour la composition : les compositeurs deviennent des photocompositeurs et se mettent à baliserAu sens littéral. ↓. Dans un premier temps, la saisie est faite au kilomètre, puis les textes sont enrichis de leurs balises, afin de pouvoir expliquer la structure : « titre, sous-titre, paragraphe, liste, etc. » et appliquer les styles : « police de caractères, corps, graisse, déformation, justification, alignement, etc. ». Enfin, le fichier est transmis à l'unité d'écriture, la photocomposeuse.
Très bien. Sauf que les fabricants imposent leurs propres formats de marquage, se réjouissant de pouvoir vendre leurs machines à des clients qui deviennent captifs. Ainsi l'opérateur doit pour telle photocomposeuse écrire :
[CF1]Le titre du chapitre[/] [sb4]Ce texte doit passer en gras et en tel corps[/]
Tandis que son collègue, sur une autre, utilise un autre
marquage : ($y)...($y)etc., ... bref, la pagaille organisée. En
outre, CF1 n'est pas très « parlant » pour désigner un titre.
Conscients du problème que pose le marquage propriétaire et l'absence de sens des balises, des éditeurs (en France le Syndicat National de l’Edition et, aux USA, l’American Association of Publishers), des spécialistes de la documentation technique dont les systèmes complexes nécessitent des quantités massives de papiers (un modèle d'avion, par exemple, peut exiger plus de 2 millions de pages qui doivent être mises à jour périodiquement) essaient de définir des normes de balisage. Goldfarb quitte alors IBM et rejoint un groupe de travail, au sein de l'ANSI... qui est un organisme privé à but non-lucratif supervisant le développement de normes.↓, qu'il va bientôt diriger afin de définir un format standardisé pour l'échange des textes : une norme qui soit claire et évolutive. Leur travail aboutit à SGML et SGML devient rapidement cette norme ISOOrganisation non gouvernementale qui fédère des organismes nationaux et s'occupe d'édicter des normes internationales.↓, ... 10 ans plus tard en 1986.
Entre temps, la chaîne graphique (de l'éditeur à l'imprimeur) se trouve bouleversée par l'arrivée de Postscript et de la PAO 4. Sur une dizaine d'années les typographes, les photocompositeurs, les photograveurs, disparaissent, leurs métiers étant intégrés par les éditeurs.
Reprenons maintenant l'autoroute, celle de l'information, le Web, et intéressons nous au langage qui nous sert à afficher nos pages.
HT quoi ?
Comme vous l'avez (peut-être) lu dans les articles précédents, la réussite du Web qui est aujourd'hui un phénomène culturel et sociétal, repose sur 3 éléments :
- des adresses normalisées —les URL— pour localiser des documents sur des serveurs
- un protocole de communication —HTTP— pour accèder à ceux-ci
- et l'hypertexte pour créer des liens entre ces différents documents.
Le langage utilisé pour décrire ces documents se nomme HTML pour Hypertext Markup Language.
Dans les faits, HTML n'est qu'une utilisation particulière, dépouillée dirais-je, de SGML. Cette norme est devenue un métalangage, c'est-à-dire un langage permet en effet, d'écrire d'autres langages. Il constitue à cet égard la matrice commune à tous les langages de description de données que nous trouvons sur le Web aujourd'hui. Pour cette raison Charles Goldfarb, son concepteur, mérite sa place dans notre panthéon du Web.
HTML a donc été conçu par Tim Berners-Lee,
l'inventeur de la « Toile », au début des années 1990, depuis SGML.
D’une grande simplicité, il permet de décrire la structure et le contenu d'un
document texte ou multimédiaSelon
la définition floue du « multimédia »↓ (sons, images
fixes ou animées) destiné à être publié sur le Web. C'est donc un langage de
description de documents, et non, un langage de programmation. Dans son livre
« Weaving the web », Berners-Lee explique sa décision de baser HTML sur SGML
comme étant aussi « diplomatique que technique : techniquement, il trouvait SGML
trop complexe, mais il voulait attirer la communauté hypertexte qui considérait
que SGML était le langage le plus prometteur pour standardiser le format des
documents hypertexte. » 5
Il faudra attendre 8 années pour que HTML devienne mature :
- de 1990 à 1992, HTML ne sert qu'à éditer des textes, ordonnés toutefois, en titres, paragraphes et listes. La lecture des documents s'effectue avec « nexus », un navigateur en mode texteUn peu comme un « Minitel »↓, développé à l'origine par Berners-Lee
- en 1992 sort le 1er navigateur en mode graphique, « Mosaic ». L'arrivée de Mosaic fut salutaire : HTML passe de la version 1.0 à la version 2.0 permettant l'insertion d'images, de formulaires et de tableaux
- en 1994 l'ancêtre de Firefox débarque : c'est « Netscape Navigator ». Outre
de nombreuses améliorations portées au code, Netscape introduit les premiers
éléments HTML de présentation et la notion de feuille de style externe. Ces CSS
vont permettre la stylisation hors du document HTML.
HTML ne sert plus alors, qu'à définir la structure du document HTML,
tandis que la feuille de style CSS séparée décrit la manière de le présenter.
Mais ce n'est qu'en 1998 que le W3C publie la spécification de la version actuelle : HTML 4.0x
L'arrivée des feuilles de style, marque le début de ce que l'on va nommer le « balisage sémantique ». Le but originel de cette séparation entre le contenu et sa présentation est de rendre les pages HTML accessibles par des appareils aussi divers que des PC, des PDA ou un téléphone portable. Mais aussi de rendre accessibles ces pages pour les handicapés qui utilisent des lecteurs vocaux ou des plages brailles qui s'adaptent en fonction des balises qu'ils rencontrent.
J'ai dit « sémantique » ?
Oui. En parlant des balises. Pas du Web. Le Web sémantique regroupe des technologies (XML, RDF, micro-formats, ...) qui n'ont rien à voir avec le balisage sémantique HTML.
Je vous l'accorde : le choix du vocable « sémantique » (par je-ne-sais-qui) prête à confusion. La sémantique, selon mon « Petit Robert » désigne un langage considéré du point de vue du sens. Les moteurs d’aujourd’hui ne comprennent rien aux requêtes qu’ils reçoivent et ne comprennent pas non plus les résultats qu’ils renvoient. Pensez-vous que leurs robots qui viennent visiter nos pages comprendront que le « Petit Robert » auquel je me réfère est un dictionnaire ? Non bien sûr : cela pourrait être tout aussi bien mon voisin de palier que je nomme ainsi. Le codage HTML avec des balises sémantiques ne permet pas donc de faire de « la sémantique », mais d'indiquer la caractéristique ou le rôle de l'expression balisée dans le texte.
Vous voilà rendu à la fin de mon histoire du Web à la manière de « l'Oncle
Paul ».
Prochainement je ferai un article, plus technique, sur le balisage sémantique
pour mettre en forme ses pages Web pour ses lecteurs et les moteurs
de recherche.
Dans l'attente de vos commentaires etc.
Sources
- Avertissement
: il vaut mieux être assis avant de lire ce qui suit. La
direction ne pourra être tenu pour responsable du non-respect de cet avertissement.
On attribue trop souvent à Gutenberg l'invention de l'imprimerie au XVe siècle. Si celle-ci fut bien inventée par les chinois au XIe siècle, un autre européen, Marco Polo, tenta de l'introduire au XIIIe siècle. Outre la poudre et les pâtes il ramena en effet de ses voyages dans l'Empire du Milieu, l'idée de l'impression typographique avec des caractères mobiles. Malheureusement, celui-ci devenant sénile, son esprit dérangé lui fit concevoir des caractères en farine de blé, inutilisables pour imprimer quelque écrit que ce soit. Ce document photographique de l'époque, retrouvé dans les archives secrètes du Vatican, nous renseigne sur l'usage qu'il en fit. - History of Deberny & Peignot, chapitre VI: Deberny & Peignot, Post-War
- - William W. Tunnicliffe au cours
d'une conférence au Canadian Government Printing Office en Septembre 1967. Son
sujet : la séparation de l'information contenue dans les documents de leur format
:
Voir : xml.coverpages.org
- Stanley Rice, un éditeur de New York, propose en 1969, un ensemble « de structures éditoriales »paramétrables. L'association GCA (Graphic Communications Association) sponsorise des ateliers, des séminaires et des comités pour développer le concept. De ces efforts naquit le comité original GCAGenCode. GenCode a défini un système de balises généralisées basé sur la hiérarchie d'un document. Cette approche fut intégrée à un codage générique qui soulignait le caractère descriptif plutôt que procédural du codage.
Voir : XML : quel historique ? - Les courbes de Pierre Bézier ont redessiné le monde, sur le blog de Peter Gabor
- in Hypertext Markup Language : 1989 - 1992 : Origine sur Wikipédia
Quelques ressources pour aller plus loin
Vous avez aimé cet article ?










Serge le 24.06.2008 @ 18:24
Passionnant! 2 heures de lecture formidables.