You are on page 1of 22

Le Guide des Bonnes Pratiques Numriques

Version 1, Dcembre 2009 Ce guide (et ses versions ultrieures) peut tre tlcharg sur http://www.tge-adonis.fr/wiki/index.php/guides

Contributeurs au Guide : Laurent Dousset (INSHS & CREDO), Jean-Luc Minel (TGE Adonis & MoDyCo), Stphane Pouyllau (TGE Adonis & CN2SV), Richard Walter (TGE Adonis & IRHT) Remerciements : Les auteurs du guide remercient Shadia Kilouchi, Michel Jacobson et Gautier Poupeau, auteurs de diffrents documents sur lesquels ils se sont appuys.

Table des Matires

Introduction ........................................................................................... 3 Les donnes numriques : un pense-bte ............................................... 4


Quelques questions avant de commencer ...................................................................... 4 Recommandations gnrales pour la numrisation.......................................................... 4 Le protocole OAI-PMH................................................................................................. 5 Recommandations particulires pour la description : Unicode ........................................... 6 Nomenclature des fichiers numriques .......................................................................... 6 Les mtadonnes ....................................................................................................... 7 Des mtadonnes gnriques : le Dublin-Core ............................................................... 7 Des schmas gnriques............................................................................................. 8 Les ressources......................................................................................................... 10

Les donnes textuelles ......................................................................... 11


Les types de donnes ............................................................................................... 11 La numrisation ....................................................................................................... 11 Les mtadonnes ..................................................................................................... 11 La TEI .................................................................................................................... 12 Les recommandations............................................................................................... 12 Les ressources......................................................................................................... 12

Les donnes iconographiques - images fixes ........................................ 13


Les types de donnes ............................................................................................... 13 Numrisation et stockage.......................................................................................... 13 Les mtadonnes ..................................................................................................... 14 Les recommandations............................................................................................... 16 Les ressources......................................................................................................... 17

Les donnes iconographiques - images animes et films ...................... 18


Les types de donnes ............................................................................................... 18 Dangerosit de certains matriaux ............................................................................. 18 Les mtadonnes ..................................................................................................... 19 La numrisation ....................................................................................................... 19 Les recommandations............................................................................................... 20 Les ressources......................................................................................................... 20

Donnes sonores .................................................................................. 21


Les types de donnes ............................................................................................... 21 Les mtadonnes ..................................................................................................... 21 Les recommandations............................................................................................... 22 Les ressources......................................................................................................... 22 La bibliographie ....................................................................................................... 22

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

Introduction
Le passage au numrique est devenu une priorit et souvent mme une ncessit dans le paysage actuel de la recherche et de sa patrimonialisation. Numriser afin de traiter et danalyser autrement et plus en profondeur les donnes, afin darchiver lexistant et de crer un patrimoine scientifique pour les gnrations venir, afin dtre en phase avec les pratiques qui se gnralisent ailleurs, afin de valoriser la production scientifique, afin de pouvoir travailler distance et en collaboration sur des corpus ; voici, parmi bien dautres, les objectifs qui motivent les laboratoires, chercheurs et enseignants-chercheurs deffectuer ce passage. Malgr les opportunits incontestables quoffre le numrique, il est aussi synonyme de confusion et de propagation de pratiques, formats et standards les plus divers et peu transparents. Nombreux sont ceux qui se retrouvent, aprs des efforts humains et financiers parfois considrables, avec un corpus numrique inexploitable quelques annes plus tard seulement car les formats ont chang ou nexistent plus. Souvent aussi des corpus numriss sont incompatibles avec les plateformes et logiciels les plus courants dans le monde de la recherche et de larchivage numrique. Le passage aux pratiques numriques nest ainsi pas automatiquement synonyme darchivage prenne et de potentiel dexploitation ; encore faut-il que ces pratiques numriques soient en phase avec celles qui se gnralisent ou qui sont adoptes par les acteurs dominant le paysage. Ce Guide des Bonnes Pratiques est une premire version dans la dfinition des formats et standards conseills. Il est une premire tape dans laccompagnement indispensable des units et chercheurs qui souhaitent entamer le passage au numrique. Il doit aussi rpondre ceux qui souhaitent harmoniser leurs corpus numriques avec ceux dautres initiatives. Rdig par le TGE Adonis sous limpulsion de lInstitut des Sciences Humaines et Sociales, du Bureau des Trs Grands quipements du CNRS et du Ministre de lEnseignement Suprieur et de la Recherche, ce guide est toutefois amen voluer. Dans sa version actuelle il nous fait un inventaire des formats et pratiques qui se rvlent les plus stables et les plus interoprables, cest--dire des formats qui ouvrent le potentiel de lchange dinformation et la compatibilit mutuelle. Chaque communaut scientifique connait toutefois des besoins particuliers qui voluent au fur et mesure de la progression scientifique et numrique. Si ce Guide est une premire tape indispensable au passage coordonn dans le numrique, il est aussi amen voluer et spcifier avec un particularisme croissant linventaire des formats et pratiques qui garantissent cette interoprabilit et la prennisation des donnes.

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

Les donnes numriques : un pense-bte


Quelques questions avant de commencer
Avant de commencer un projet, il est ncessaire den dterminer les objectifs : Conserver : quelle est la dure de conservation des donnes (courte, moyenne ou longue) ? Diffuser : quel est le public qui doit ou peut avoir accs ces donnes ? Exploiter : quelles en sont les raisons scientifiques (ou autres) et en relation avec quels autres acteurs et donnes ?

Les types de rponses apportes ces questions devront vous guider dans la mise en place de lespace numrique, des relations que vous tablirez avec dautres acteurs, en particulier dans les domaines de lexploitation et de la conservation, et des choix technologiques que vous allez oprer.

Recommandations gnrales pour la numrisation


Les tapes principales de chaque projet numrique sont les suivantes : Slectionner les documents traiter (corpus de fait ou cr, cohrence du regroupement, respect du contenu et des droits). Dfinir des modes opratoires (recopie brute, corrections). Choisir des formats denregistrement adapts (non propritaires, avec standards officiels ou de fait, indpendance vis--vis des logiciels et des plates-formes). Dfinir un plan de nomenclature des fichiers (dterminer les noms des fichiers). Numriser avec un cahier des charges adapt aux spcificits de lobjet. Indexer et dcrire les mtadonnes. Souvent cette tape demande un investissement humain considrable. Il importe a) de se conformer une initiative existante et l aussi adapte aux spcificits de lobjet (voir plus loin dans ce document), b) de ne pas perdre le lien entre les mtadonnes et le fichier numrique produit. Annoter et commenter ventuellement les ressources produites. Archiver de manire prenne : lOAIS (Open Archival Information System) est un modle pour la gestion et larchivage long terme de documents numriques. Norme ISO 14721 :2002. Construire des entrepts de donnes : lOAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), coupl aux descriptions utilisant le Dublin Core simple (DC Element Set), est une solution simple, minimale, qui permet de faire de l'interoprabilit.

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

Le protocole OAI-PMH
Vous pouvez stocker vos donnes dans un entrept et les manipuler au travers dune base de donne, par exemple compatible avec le langage de requtes SQL. Mais dans tous les cas il est souhaitable de dupliquer ces donnes dans un entrept spcifique qui permet linteroprabilit (lchange avec dautres fournisseurs de donnes). Cet entrept doit tre interrogeable par des requtes conformes au protocole dchange OAI-PMH (Open Archives Initiative Protocol for metadata harvesting) qui demande de publier des mtadonnes structures en XML et conformes au Dublin Core (voir plus bas). lorigine, le protocole OAI-PMH a t mis au point par lOpen Archives Initiative pour faciliter lchange et la visibilit des donnes stockes dans les archives ouvertes, entrepts darticles scientifiques mis disposition par les chercheurs eux-mmes. Il sest peu peu diffus dans dautres domaines dapplications de par sa simplicit et la disponibilit de nombreux outils. Le protocole OAI-PMH implique deux acteurs : Le fournisseur de donnes (data provider) qui expose, grce une interface Web spcifique, les mtadonnes des diffrents enregistrements contenus dans son entrept. Il sagit l des donnes produites par les chercheurs, laboratoires, etc. Le fournisseur de services (service provider) qui moissonne un ou plusieurs entrepts, en utilisant les interfaces exposes par le fournisseur de donnes, afin doffrir aux utilisateurs des interfaces de recherche ou de navigation. Le moteur Isidore initi par Adonis, comme d'autres moteurs de recherches (Crevilles.org, OAIster, Driver-Community, etc.) pourront ainsi moissonner les donnes conformes au standard OAI-PMH.

Dans un entrept OAI, chaque ressource stocke correspond un enregistrement (ou record ). Chaque enregistrement est obligatoirement dcrit en Dublin Core simple. En plus de cette description en Dublin Core simple, chaque enregistrement peut tre dcrit suivant un ou plusieurs formats de mtadonnes dont le choix est laiss lapprciation de ladministrateur de lentrept. Les diffrents formats de mtadonnes utiliss par lentrept peuvent tre connus par le moissonneur grce une requte spcifique. Un entrept peut tre organis en diffrents ensembles denregistrements ( set ). Un enregistrement peut appartenir plusieurs ensembles. Les diffrents ensembles peuvent tre organiss hirarchiquement. Par exemple, vous pouvez imaginer avoir des objets particuliers (des descriptions de photographies, par exemple), qui sont regroups dans un ensemble/set (toutes les photographies dun photographe particulier).

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

Recommandations particulires pour la description : Unicode


Les mtadonnes descriptives doivent tre encodes en Unicode UTF-8. Unicode est une norme dveloppe par le Consortium Unicode, qui vise donner tout caractre de nimporte quel systme dcriture un nom et un identifiant numrique, et ce de manire unifie, quelle que soit la plateforme informatique ou le logiciel. Le choix dUTF-8 garanti au mieux que vos donnes seront lisibles sur nimporte quel systme dexploitation ou plateforme, si on dispose dune police de caractres adquate Cette norme concerne lencodage des caractres et non leur visualisation qui a besoin dune police adapte. Le choix dUTF-8 na ainsi pas de rpercussion sur la police que vous allez utiliser pour visualiser vos donnes sur lcran. Dautres encodages existent (ISO 8859-1 et ASCII par exemple) mais ils sont beaucoup moins complets, particulirement pour les langues anciennes ou rares.

Nomenclature des fichiers numriques


Une identification claire et en prvision de la ralisation d'inventaires doit tre respecte. L'utilisation d'identifiants uniques est trs importante : il s'agit, ds le nom du fichier, d'avoir une nomenclature unique. Ceci permet dviter la confusion entre fichiers. Nous faisons rfrence au document crire un cahier des charges de numrisation de collections sonores, audiovisuelles et filmiques dit par la BNF : Attribution dun identifiant unique : dans un environnement informatique o chaque fichier doit pouvoir tre "adress" de faon univoque, un nom (ou numro) unique devra tre attribu chaque document numriser (par exemple : XX_000001). Volumaison: les diffrentes parties (volumes, bobines, cassettes) dun tout (le document, la cote, la rfrence) font galement lobjet dune identification grce la subdivision dun identifiant unique (par exemple : XX_000001_V1_1 ou XX_000001_V1_n, si n parties). Dautres choix pourront tre faits, mais il est impratif de reporter automatiquement lidentifiant unique attribu sur le botier (sil y en a un) et sur le support lui-mme. En cas de volumes importants et pour la gestion ultrieure des supports, lusage de codes barres est souhaitable. Il est possible, selon les supports et les renseignements dont on dispose, daffiner encore ce stade lidentification en prcisant les notions de faces (cassette audio) ou de pistes (CD). Si ces informations ne sont pas disponibles ou suffisamment fiables, elles seront renseignes ultrieurement lors du transfert. Donc, quelle que soit la hirarchie de dossiers et sous-dossiers dans lesquels vous allez placer vos fichiers numriss ou les fichiers de mtadonnes (voir cidessous) qui les accompagnent, veillez ce que chaque fichier porte un nom unique. Veillez aussi ne jamais utiliser des caractres spciaux dans les noms des fichiers et vitez galement les espaces. Nutilisez donc, dans vos noms de fichiers, que les lettres et chiffres az et 09. Le signe _ (underscore) est autoris et recommand pour distinguer des entits au sein du nom du fichier
Guide des Bonnes Pratiques / TGE Adonis / v 1.0

mais en cas dutilisation sur le web lunderscore peut tre confondu avec le soulignement propre au lien hypertexte.

Les mtadonnes
Ce chapitre est issu du travail du CRDO Paris Les mtadonnes sont des donnes qui dcrivent d'autres donnes. On les appelle aussi des descripteurs. Dans les bibliothques classiques, les documents sont dcrits l'aide de notices bibliographiques o l'on identifie les auteurs, les diteurs, les titres, les dates de parution, etc. Ces notices sont utiles tant aux bibliothcaires pour la gestion de leur fond, qu'aux usagers pour retrouver un ouvrage. Pour un document numrique, et plus particulirement dans le cadre d'une diffusion par Internet, ces notices portent le nom de mtadonnes , alors que les documents eux-mmes sont nomms ressources . Les documents lectroniques prennent de plus en plus d'importance dans notre vie quotidienne et leur nombre ne fait qu'augmenter. Rechercher une ressource spcifique est devenu une tche la fois complexe et indispensable d'autant plus que cette recherche s'effectue maintenant dans des architectures distribues (les ressources ne se trouvent pas toutes au mme endroit physique, sur le mme serveur). C'est dans ce contexte que les proccupations de standardisation et de normalisation des pratiques de codage et d'change de mtadonnes trouvent leurs origines.

Des mtadonnes gnriques : le Dublin-Core


En 1995, Dublin (Ohio), des reprsentants de communauts diverses, issus du monde des bibliothques, de l'informatique et du web, se runissent pour dfinir un noyau commun de mtadonnes : le Dublin Core Metadata Initiative (DCMI), abrg souvent comme Dublin-Core ou DC. Le Dublin-Core est un ensemble de 15 descripteurs de porte trs large et de sens trs gnrique. Certains ont trait au contenu, d'autres la proprit intellectuelle, d'autres enfin l'instanciation. Cet ensemble de descripteurs a t normalis au sein de l'ISO en 2003 sous le nom dISO Standard 15836-2003. Les 15 descripteurs sont les suivants : Contributor Coverage Creator Date Description Format Identifier Language Publisher Relation Rights 7

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

Source Subject Title Type

Des informations supplmentaires sur ces descripteurs peuvent tre trouves sur la page suivante : http://dublincore.org/documents/dces/ Ces lments de base peuvent dans certains cas tre jugs insuffisamment prcis, il est alors possible d'utiliser un autre ensemble de qualifiers qui en prcisent l'acception. Dublin-Core dfinit deux classes de qualifieurs : Les refinements qui rendent plus spcifique le sens d'un lment. Par exemple, la place de l'lment date il est possible d'utiliser un de ces refinements : created, valid, available, issued, modified, dateAccepted, dateCopyrighted, dateSubmitted. Les schmas d'encodage, et les vocabulaires contrls comme par exemple le schma Point qui permet de dfinir les proprits d'un point gographique (coordonnes: longitude, latitude, altitude, rfrentiel, nom).

Le DC peut servir de base au Dublin Core dit qualifi dans lequel il est possible de typer les mtadonnes, en utilisant les types de donnes proposs par le DCMI ou ses propres types de donnes dfinis dans un schma XML (cf. cidessous). Un fichier XML est un fichier texte mais dans lequel des balises, suite de caractres dlimits par des chevrons, comme par exemple <Exemple_balise> encadrent et structurent les zones de texte qui contiennent linformation. Par exemple, si nous voulions dlimiter le titre dun ouvrage, en utilisant les balises du Dublin Core, nous cririons :
<dc:title> La Gographie locale du notaire languedocien </dc:title>

Un schma XML est un ensemble de rubriques (balises) qui sont prdfinies et propres ce schma. La dfinition dun schma XML est assez similaire la dfinition des champs dans une table de base de donnes.

Des schmas gnriques


METS Cest un schma de structuration pour rassembler des mtadonnes de description et de gestion pour un ensemble de documents (et non pas un seul document). Mis au point et maintenu par la Library of Congress, METS (Metadata Encoding and Transmission Standard) est un schma XML dit dempaquetage des mtadonnes. Il vise dcrire des objets numriques complexes, rassemblant au sein dun fichier XML unique les mtadonnes descriptives, les mtadonnes administratives et les mtadonnes de structure.
Guide des Bonnes Pratiques / TGE Adonis / v 1.0

Un fichier suivant le schma XML METS est compos de sept parties : METS header (metsHdr) permet d'indiquer les rfrences du fichier METS (les mtadonnes du fichier de mtadonnes), en particulier le producteur du fichier ; Description Metadata Section (dmdsec) permet de renseigner les mtadonnes descriptives de lobjet principal dcrit par le fichier METS et ventuellement des objets le composant. Exemple : un fichier METS dcrit un fond d'estampes, on peut la fois dcrire le fond dans une section de mtadonnes descriptives et avoir autant de sections quil y a d'estampes ; Administrative Metadata Section (amdSec) permet de renseigner lensemble des mtadonnes administratives de lobjet principal et ventuellement des objets le composant, c'est--dire les mtadonnes techniques, les mtadonnes juridiques, les mtadonnes sur la source des fichiers, les mtadonnes dcrivant le processus de numrisation et les migrations (au sens large : passage des donnes de lanalogique au numrique ou du numrique au numrique) ; File Section (fileSec) permet de dcrire lemplacement physique de chaque fichier, rassembl par groupe de mme nature et il est aussi possible d'inclure cet endroit le contenu du fichier ; Structural Map (structMap) permet dorganiser selon une structure hirarchique les objets composant l'objet principal dcrit dans les parties dmdSec, amdSec et/ou fileSec. Il est possible de dcrire plusieurs cartes de structure ; Structural Map Linking (structLink) permet de dcrire les liens ventuels entre des divisions appartenant des cartes de structure diffrentes ; Behaviour section (behaviourSec) permet d'indiquer des comportements entre diffrents objets dcrits dans le fichier METS.

Des informations supplmentaires sur ces spcifications peuvent tre retrouves sur la page suivante : http://www.loc.gov/standards/mets/mets-schemadocs.html Le format METS spare les diffrents types de mtadonnes, ce qui permet d'organiser et de relier les objets dcrits dans les diffrentes sections quil est possible de rpter selon les besoins et ce de faon indpendante dune quelconque structure hirarchique. Les diffrentes sections correspondant un mme objet sont relies par un systme didentifiants et de rfrences aux identifiants. Par ailleurs, il offre un systme denveloppes (mdWrap) qui permettent de renseigner les mtadonnes descriptives ou administratives dans le format XML qui parat le plus adapt. Ainsi il est possible de dcrire lobjet principal ou les objets le composant dans les diffrents formats de mtadonnes existants. Ce systme introduit une grande souplesse pour utiliser le format de mtadonnes correspondant aux besoins. Le modle RDF Mis au point au W3C dans le cadre des activits du Web smantique, RDF
Guide des Bonnes Pratiques / TGE Adonis / v 1.0

(Resource Description Framework) nest pas proprement parl un schma de mtadonnes. Il constitue un modle de description des donnes structures, inspir de la logique des prdicats de premier ordre et de la thorie des graphes. Sa capacit tre gnralis et sa souplesse offrent des perspectives intressantes dans la description de ressources. En particulier, il nimpose pas aux diffrents producteurs de se mettre daccord strictement sur une structure de mtadonnes ou de se limiter un plus petit dnominateur commun pour assurer linteroprabilit. Ainsi, il permet aux producteurs de complter les mtadonnes en Dublin Core par dautres vocabulaires trs simplement.

Les ressources
Open Archives Initiative : http://www.openarchives.org OAI-PMH : http://www.openarchives.org/OAI/openarchivesprotocol.html Dublin Core : http://dublincore.org Unicode : http://www.unicode.org METS : http://www.loc.gov/standards/mets RDF : http://www.w3.org/RDF

la suite de ces quelques commentaires gnraux et rfrences globales, nous allons aborder, type par type, les diffrents documents qui peuvent composer votre projet de numrisation.

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

10

Les donnes textuelles


Les types de donnes
Les donnes textuelles peuvent reflter des contenus trs variables : Textes linaires Textes structurs Textes typs (pome en vers, thtre, etc.) Liste de mots Dictionnaires Etc.

Il sagit donc aussi bien de textes bruts intressants par leur contenu que de ressources linguistiques qui sont dj organises par une logique scientifique ou documentaire.

La numrisation
Les sources textuelles peuvent tre de format trs diffrent. On ne numrise pas de la mme faon un atlas linguistique, un manuscrit mdival ou une collection douvrages relis, au format identique ou non. Une chaine de traitement spcifique doit tre mise en place selon chaque format. Elle est toujours base sur la captation par une image du contenu (pour le traitement de cette image, voir la partie Images fixes ). Pour le dire rapidement, on numrise en format image la page dun ouvrage, la feuille de manuscrit etc. Selon les besoins et la qualit de loriginal numris, une OCR (Optical character recognition) pourra tre effectue sur le contenu pour transformer le contenu de limage en du texte ditable. Cette ocrisation nest pas pertinente pour du texte avec une langue non reconnue par le logiciel ORC, ou avec une criture manuscrite difficilement dchiffrable par ce mme logiciel. Des programmes de reconnaissance par effet dentrainement existent. Il est alors possible de tester la capacit du logiciel sur une petite partie du corpus sur laquelle un apprentissage des formes rencontres est effectu. Puis, selon la rgularit du graphisme, il est possible dappliquer cet apprentissage sur lensemble du corpus numris. Cette mthode est efficace pour de gros volumes, mais une vrification manuelle reste souhaitable, sinon ncessaire. LOCR simple ou par effet dentrainement ne remplacera jamais une relecture attentive et donc humaine .

Les mtadonnes
Pour permettre une exploitation ultrieure, il est ncessaire : a) De choisir un format structur et construit,

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

11

b) Daccoler ce format structur un modle de donnes ou une documentation sur les diffrentes catgories cres. En dautres termes, une fois que vous avez numris et ventuellement ocris vos documents textes, il vous faut en plus dcrire le contenu (crer des descriptifs) de vos textes qui permettent de les organiser, de les classer, des les moissonner et de les exploiter : crer des mtadonnes. Ces mtadonnes sont le plus souvent, comme ce document la dj expliqu, exprimes dans le format XML et suivant un schma/encodages prdfinis (Dublin Core par exemple). Un schma ou encodage dfinit les champs ncessaires pour dcrire vos documents. Diffrentes initiatives dencodage existent, dont la principale est aussi celle que nous recommandons pour les textes : la TEI. La TEI La TEI (Text encoding initiative) est un modle XML pour ldition structure et lchange de tout type de texte. La TEI a t lance en 1987 et elle est supporte par un consortium TEI. Un conseil TEI est charg de lamlioration du modle et des aspects techniques de cette initiative qui en est sa 5e version (P5). Elle est plus souple quun schma XML classique car elle propose un ensemble de recommandations ( Guidelines ) et dlments particuliers rassembls dans des modules distincts ( Tag sets ) qui sadaptent des besoins particuliers. Elle est largement utilise en sciences humaines et sociales et sert aussi pour indiquer la structure smantique dun contenu.

Les recommandations
R01) Pour le texte, il est indispensable de coder en UTF-8 (voir plus haut) pour garantir le bon stockage de tous les caractres du contenu. R02) Pour un balisage en TEI, suivre les Guidelines for Electronic Text Encoding and Interchange, les adapter son corpus et documenter ses choix.

Les ressources
TEI : http://www.tei-c.org Le centre de ressources numriques TELMA (Traitement lectronique des manuscrits et des archives) : http://www.cn-telma.fr Le centre de ressources numriques CNTRL (Centre national de ressources textuelles et lexicales) : http://www.cnrtl.fr

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

12

Les donnes iconographiques - images fixes


Les types de donnes
Les donnes iconographiques fixes recouvrent les :

photographies (diapositives, ngatif, tirages positifs) documents visuels fixes : o documents 2D numriss o illustrations o plans, croquis, dessins etc. o cartes anciennes ou plus rcentes, excluant les cartes construites automatiquement partir de coordonnes et donnes gographiques

Numrisation et stockage
Les images numriques fixes entrent dans deux catgories principales : les images matricielles (ou pixelises ) et les images vectorielles ( orientes objet ). Les images matricielles prennent la forme dune grille ou matrice, o chaque lment dimage (pixel) a un emplacement unique dans la matrice et une valeur de couleur indpendante pouvant tre modifie sparment. Les fichiers vectoriels fournissent un ensemble dinstructions mathmatiques utilises par un programme de dessin pour construire une image. En gnral, le processus de numrisation gnre une image matricielle, les images vectorielles tant plus souvent le produit dun logiciel de dessin. Par exemple, Photoshop ou Gimp crent et lisent en rgle gnrale des images matricielles, alors que Illustrator cre et lit des images vectorielles. Les images vectorielles peuvent tre converties en images matricielles. Linverse nest que difficilement possible. Lors de la cration et du stockage dimages matricielles, deux facteurs doivent tre pris en considration : le format de fichier et les paramtres de qualit. Les images matricielles devraient en principe tre stockes sous une forme non comprime gnre par le processus de numrisation, sans aucun retraitement. Les images matricielles doivent tre cres et enregistres sous lun des formats suivants : Tagged Image File Format (TIFF), Portable Network Graphics (PNG), Graphical Interchange Format (GIF) ou JPEG Still Picture Interchange File Format (JPEG/SPIFF). Deux paramtres fondamentaux doivent tre pris en compte : La rsolution spatiale : la frquence laquelle des chantillons de loriginal sont capturs par le dispositif de numrisation, exprime sous la forme dun nombre dchantillons par pouce (spi) ou plus communment sous la forme de pixels par pouce (ppp dans limage numrique qui en rsulte). Il sagit l de la densit dinformation (le nombre de points) enregistre par unit de surface. Plus cette densit est haute et plus limage numrise est de bonne qualit. La densit pour les pages web est normalement de 72ppp. Limpression se sert normalement de densits oscillant entre 300 et 600ppp. 13

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

Il est important de noter que plus loriginal est petit, et plus la densit (les ppp) devra tre leve. La rsolution des couleurs (profondeur de bits) : le nombre de couleurs (ou de niveaux de luminosit/gris) disponibles pour reprsenter diffrentes couleurs (ou tons de gris) dans loriginal, exprim en nombre de bits. Par exemple, une rsolution de couleurs de 8 bits signifie que 256 couleurs diffrentes sont disponibles.

La slection des paramtres de qualit ncessaires la numrisation dune ressource est dtermine par la taille de loriginal, la quantit de dtails prsents dans loriginal et les utilisations prvues de limage numrique. Numriser une diapositive de 35mm exige une rsolution plus leve que dans le cas dune lithographie de 6x4 car la diapositive est plus petite et plus dtaille. Si lune des utilisations de limage dune aquarelle requiert de pouvoir analyser dinfimes dtails de coups de pinceaux, la rsolution ncessaire est plus leve que pour le seul affichage de limage lcran. Plus la qualit de limage numrise est haute, et plus le fichier sera lourd, mais plus, galement, vous pourrez agrandir limage sans perdre de la qualit visuelle. Les images devraient tre cres la rsolution adapte et la profondeur de bits la plus leve possible, un cout acceptable et en demeurant pratiques et maniables au vu des utilisations envisages. Chaque quipe projet doit identifier le niveau minimal de qualit et de densit dinformations dont elle a besoin. A titre dexemple, une rsolution de 600 points par pouce (ppp) et une profondeur de bits de 24 bits couleur ou de 8 bits chelle de niveaux de gris devraient tre envisages pour les impressions photographiques. Une rsolution de 2400 ppp devrait tre applique pour des diapositives de 35 mm afin de capturer la plus grande densit dinformations. (Source : EMII DCF) Dans certains cas, par exemple lors de lutilisation dappareils photo numriques de moindre qualit, il peut tre indiqu de stocker les images sous un format JPEG/SPIFF, comme alternative au format TIFF. Les images seront alors plus petites et de plus basses qualit. De telles images peuvent tre utiles pour la prsentation de photographies dvnements pour un site Internet, par exemple. Mais lutilisation de tels appareils photos nest pas recommande pour la numrisation de contenu grande chelle.

Les mtadonnes
La photographie elle-mme nest pas encore une information exploitable dans le domaine du numrique. Pour ce faire il faut ajouter des mtadonnes. Plusieurs mthodes existent qui peuvent tre complmentaires. Soit les mtadonnes sont incrustes dans le fichier de limage, soit elles accompagnent le fichier dimage dans un fichier parallle. Les mtadonnes EXIF L'Exchangeable Image File (Exif) est un format cre en octobre 1995 par le Japan Electronic Industry Development Association (JEIDA). La version 2.1 des spcifications date du 12 juin 1998 et la version 2.2 a t publie en avril 2002.

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

14

Le format Exif, bien que ntant pas tabli par une organisation internationale de standardisation, reste un format incontournable puisque la majorit des constructeurs dappareils photographiques numriques lutilisent. Il peut tre galement exprim selon le standard MIX en XML. Ce format dfinit un schma de mtadonnes permettant le stockage des informations techniques concernant les paramtres de prise de vue et les rglages des appareils photographiques numriques lors de la capture numrique. Ces donnes sont fournies automatiquement par l'appareil photographique numrique et sont contenues dans le fichier image lui-mme. Voici la liste des principaux champs Exif :

Tag name : Description MakerNote : Donnes constructeur File Size : Taille du fichier Mime Type : Type MIME du fichier (ex : image/jpeg) ExposureTime : Temps d'exposition en s FocalLength : Distance focale en mm ExifImageWidth : Dimensions de l'image ExifImageLength X-Resolution : Rsolution de limage Y-Resolution Date and Time (Original) : Date et heure de l'original DateTimeDigitized : Date et heure de numrisation Tags Relating to GPS : Toutes les donnes relatives aux coordonnes GPS.

Quelques logiciels open source ou gratuits permettant d'afficher, diter et extraire les mtadonnes Exif : Exifer Exif Reader ExifTool ExifPro Image Viewer Exiv2 IrfanView Photo Studio XnView

Mtadonnes IPTC L'International Press Telecommunications Council (IPTC) est une organisation internationale cre par les agences de presse en 1965, dont la mission est d'tablir un standard normalis de stockage des mtadonnes relatives aux images de presse pour en faciliter l'change. IPTC/IIM Les travaux de l'IPTC ont abouti la mise en place d'un schma normalis des mtadonnes des images de presse : l'IPTC/IIM.
Guide des Bonnes Pratiques / TGE Adonis / v 1.0

15

XMP Adobe a cr en 2001, un schma qui utilise une expression en RDF simplifi de champs totalement paramtrables et donc extensible des besoins particuliers. Mais ce schma XMP est proprit d'Adobe. IPCT-Core 1.1 IPTC Core redfinit en XMP les mtadonnes IPTC/IIM, c'est--dire les champs IPTC habituels plus quelques champs nouveaux. IPTC-Core n'est pas une norme ouverte, mais un standard de fait. (Cf. http://www.iptc.org/cms/site/index.html?channel=CH0089) Quelques logiciels open source ou gratuits permettant d'afficher, diter et extraire les mtadonnes IPTC, XMP et IPCT-Core : Exifer ExifTool Exiv2 IrfanView PhotoThumb IPTCExt Rodeo Info (Mac OSX) XnView

Les recommandations

R01) Formats et jeux de donnes : Il est prfrable et conseill de faire deux jeux de donnes : 1. un au format TIFF non compress pour la conservation, 2. un au format JPG en qualit maximale pour une exploitation sur le web. De manire gnrale, les images photographiques ou documents numriss doivent tre crs au format TIFF. Vous pouvez numriser lensemble de vos images en haute rsolution et format TIFF, dupliquer lensemble puis utiliser un logiciel comme mogrify pour crer votre second jeu dimages (http://www.imagemagick.org). R02) Taille des donnes : Une numrisation 300 dpi est le minimum pour le format TIFF. Pour le jeu destin au web, au regard des possibilits de stockage actuel et de dbit (2009), la taille d'exploitation web peut tre quivalente celle des TIFF. (La rsolution de limage standard pour le web tant de 72 ppp, vous pourrez agrandir votre image en ligne dun facteur 4 environ sans perdre de qualit). R03) Les mtadonnes descriptives des images peuvent tre exprimes selon les standards : 1. EXIF (mtadonnes techniques), 2. IPTC-Core (mtadonnes descriptives). Nous encourageons cependant la structuration des mtadonnes selon les vocabulaires DC Element Set (15 champs, voir plus haut) ou du DC:Terms dans des fichiers indpendants aux fichiers images eux-mmes : 16

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

dans un fichier XML spar et nomm selon le nom de fichier de l'image dont seule lextension (les derniers trois caractres) change : (NomDuFichierDelImage.xml).

Les ressources

Centre de ressources numriques CN2SV (Centre National pour la numrisation de sources visuelles) : http://www.cn2sv.cnrs.fr/

Didacticiel dimagerie numrique de Cornell University : http://www.library.cornell.edu/preservation/tutorialfrench/contents.html RC MINERVA : http://www.minervaeurope.org/interoperability/digitisationguidelines.h tm


IPTC :

http://www.iptc.org/cms/site/index.html;jsessionid=a6fFGl6cnmYe?cha nnel=CH0089
Exif : http://www.exif.org IPTC : http://www.iptc.org DC : Terms : http://dublincore.org/documents/dcmi-terms

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

17

Les donnes iconographiques - images animes et films


Les types de donnes
Tous les supports vidos :

Bande 2 Pouce Quadruplex, Bande Pouce, Vido Cassette Pouce, Vido Cassette Pouce substandard , Vido Cassette Pouce professionnelle, Vido Cassette 8 mm, Vido Cassette Pouce, Vidodisque.

Tous les films argentiques :


8 mm, Super 8 mm, 9,5 mm, 16 mm, 35 mm.

Dangerosit de certains matriaux


En matire de scurit en vue de la numrisation, il est important, pour les films argentiques d'en connaitre la composition. En effet les films nitrate de cellulose, qui peuvent s'auto-enflammer, sont identifier avec la plus grande prcaution. Nous renvoyons le lecteur au document crire un cahier des charges de numrisation de collections sonores, audiovisuelles et filmiques de la BNF, paragraphe 3.2 : Une analyse visuelle et olfactive (syndrome du vinaigre) de la bote et de son contenu permettent de se faire une ide de l'tat de conservation du document : poussire, moisissures, tat des tiquettes et de leur colle, ratures synonymes dune rutilisation dun support enregistrable sont autant dindices de problmes ventuels et de la ncessit dun dpoussirage ou dun nettoyage, voire plus, avant lecture. On prendra garde galement aux dangers inhrents certains supports, comme les films nitrate de cellulose, susceptibles de sauto-enflammer. En cas de doutes, et afin dviter tout risque de contamination croise, il devra tre fait appel un spcialiste pour un diagnostic prcis.

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

18

Les mtadonnes
MPEG-7 La norme MPEG-7 dcrit les caractristiques de contenu audio et vido de telle sorte que les utilisateurs puissent rechercher, parcourir et extraire ce contenu de manire effective et efficace. Elle combine : des mtadonnes sur le contenu (titre, crateur, droits, renseignements sur les personnes, les objets et les vnements reprsents dans le fichier multimdia, etc.) ; des mtadonnes techniques sur le fichier.

MPEG-7 est une norme ISO labore par le MPEG (Moving Picture Experts Group - Groupe d'experts sur les images animes). Au regard des difficults d'implmentation de la norme MPEG-7, nous formulons une RC plus bas.

La numrisation
Prparation du corpus Il convient dans un premier temps de dterminer : La datation des donnes La nature des donnes : o Extraits de films, missions, o Films complets, o Rushes. Il s'agit de points importants qui vont entraner des structurations de corpus diffrents. La numrisation elle-mme En matire de numrisation, il convient de produire : Une version de conservation : o Numrisation avec compression sans pertes : MJPEG MJPEG 2000 MPEG2 4 :2 :2 o Choix de codecs, cest--dire un type dencodage : MPEG2 MP@ML ou MPEG4 (H264). Le choix du codec a des influences sur la qualit de lencodage/compression et la taille du fichier final. Certains codecs, propritaires, sont viter. Pour plus dinformations vous pouvez consulter http://en.wikipedia.org/wiki/Codec et les pages associes. Une version pour diffusion web : Issue de la version de conservation, la version pour le web pourra tre en : REAL (realplayer) QuickTime FLV (flash)

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

19

Les recommandations
Nous faisons toujours rfrence au document crire un cahier des charges de numrisation de collections sonores, audiovisuelles et filmiques dit par la BNF.

RC01) Formats et jeux de donnes pour la conservation : MJPEG, MJPEG 2000 (dbit > 25 mgb/s). RC02) Formats et jeux de donnes pour le web : FLV, Quicktime et REAL. RC03) Mtadonnes : Tout comme pour les images fixes, nous encourageons la structuration des mtadonnes selon les vocabulaires DC Element Set (15 champs) ou du DC:Terms, enregistrs dans un fichier XML spar et nomm selon le nom de fichier de l'image dont seule lextension (les derniers trois caractres) change : (NomDuFichierDelImage.xml).

Les ressources

crire un cahier des charges de numrisation de collections sonores, audiovisuelles et filmiques :

http://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/d ocuments/cahier_charges_numerisation.pdf

Institut national de l'audiovisuel (INA) : http://www.ina.fr Logiciel dannotation de films, Ligne de Temps de l'IRI :

http://www.iri.centrepompidou.fr/fr/atelier.html

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

20

Donnes sonores
Les types de donnes
Nous entendons par donnes sonores, l'ensemble des donnes audios : enregistrements de parole, de conversations ou de musiques.

Les mtadonnes
(Cf. aussi la section gnrale sur les mtadonnes plus haut) La sonorit concerne diffrents types de donnes : les donnes qui ne sont pas ou pas seulement proprement parler linguistiques (musique, bruits divers etc.) les donnes qui peuvent faire luvre dun traitement linguistique.

Parfois, un mme document contient les deux types de donnes. Lorsquil ne sagit pas de faire un traitement linguistique des donnes, les mmes recommandations que pour les images animes sont galement de vigueur (cf. ci-dessus mais voir aussi la recommandation RC01 ci-dessous). Pour les corpus linguistiques, on suivra galement les recommandations suivantes. Open Language Archive Community (OLAC) OLAC est une organisation internationale regroupant un certain nombre d'institutions et d'individus proccups par le partage et la diffusion de ressources de nature linguistique. Le but d'OLAC est d'organiser cette communaut afin qu'elle puisse changer facilement des documents. Pour cela OLAC a fait deux choix stratgiques ds son dmarrage en 2000: celui du DublinCore qualifi auquel il a ajout 5 attributs lis des vocabulaires contrls pour en prciser le sens et l'adapter la pratique de la communaut, et celui de l'OAI pour la diffusion de ces mtadonnes. Les ajouts au Dublin-Core sont les suivants: Un attribut language peut tre ajout aux lments subject et language . Sa valeur doit tre prise dans le catalogue Ethnologue. Un attribut linguistic-field peut tre ajout l'lment subject . Il doit prendre sa valeur dans une liste ferme (phonetics, phonology, pragmatics, psycholinguistics...). Un attribut discours-type peut tre ajout aux lments type et subject (liste ferme). Un attribut linguistic-type peut tre ajout l'lment type (liste ferme). Un attribut role peut tre ajout aux lments contributor et creator . Il doit prendre sa valeur dans une liste ferme (recorder, researcher, signer, singer, speaker, transcriber, translator...)

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

21

Pour organiser la communaut, OLAC tient aussi les rles d'agrgateur (OAI) et de fournisseur de service, puisqu'il maintient une liste de fournisseurs de ressources qu'il vrifie puis qu'il moissonne rgulirement et sur laquelle il offre un moteur de recherche.

Les recommandations
Nous faisons l aussi rfrence au document crire un cahier des charges de numrisation de collections sonores, audiovisuelles et filmiques dit par la BNF. Les prconisations sont les suivantes pour les donnes audio : RC01) Version pour conservation : Numrisation sans compression, Format de fichier "normalis" : WAV ou BWF, Quantification : 16, 24 bits ou plus, Frquence dchantillonnage : 44.1, 48, 96, 192 kHz ou plus, Copie dite droite : absence de traitement, Importance du choix du convertisseur analogique / numrique (tests pralables). RC02) Version pour diffusion web : Format de fichier : MP3, OGG. Dbit ajuster en fonction du mode de diffusion envisag.

Les ressources

Centre de ressources numriques CRDO (centre de ressources pour la description de loral Aix) : http://crdo.fr

Centre de ressources numriques CRDO (centre de ressources pour la description de loral Paris : http://crdo.risc.cnrs.fr/exist/crdo Projet TELEMETA : http://www.imageson.org/document1045.html crire un cahier des charges de numrisation de collections sonores, audiovisuelles et filmiques : http://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/d ocuments/cahier_charges_numerisation.pdf
OLAC : http://www.language-archives.org/

La bibliographie

Corpus oraux, Guide des bonnes pratiques, O. Baude (dir.), PUO, 2006.

http://www.cnrseditions.fr/Linguistique/5584-Corpus-oraux-OlivierBaude.html.

Guide des Bonnes Pratiques / TGE Adonis / v 1.0

22

You might also like