Les dictionnaires sur la Debian (1)

Dernière modification

Résumé : Ajout d'un lien vers http://www.cosc.canterbury.ac.nz/help/dict/Dict.cgi et http://www.mova.org/dict/dict-www.tar.gz

Ajouté(e) :

> * http://www.mova.org/dict/dict-www.tar.gz


ENTRAVAUX

L'ensemble des paquets concernant les dictionnaires est assez confus, pour ne pas dire un vrai bordel. Il y a plusieurs logiciels utilisant des formats de base de données non compatibles.

Aperçu des logiciels

Stardict

Un logiciel qui semble doté de nombreuses fonctionnalités (en particulier des plugins qui permettent de l'interfacer avec d'autres programmes) mais en contrepartie son installation impose une série de dépendances assez conséquente:

  fantasio:/usr/share/dictd# apt-get install stardict-xmlittre
  Les NOUVEAUX paquets suivants seront installés :
  docbook-xml espeak espeak-data libespeak1 libportaudio2 libscrollkeeper0
  scrollkeeper sgml-data stardict stardict-common stardict-gtk stardict-plugin
  stardict-plugin-espeak stardict-plugin-festival stardict-xmlittre
  0 mis à jour, 15 nouvellement installés, 0 à enlever et 185 non mis à jour.
  Il est nécessaire de prendre 34,1Mo dans les archives.
  Après cette opération, 44,5Mo d'espace disque supplémentaires seront utilisés.

Mais par contre, la version en ligne de commande - sdcv - ne prend que 156Ko et ne demande pas de dépendances.

Il y a peu de bases de données dans les paquets (un dictionnaire anglais-tchèque :-/ et le Littré, quand même) mais des dictionnaires intéressants sont disponibles sur le site du logiciel [1] :

Dict/Dictd

Un logiciel construit sur un modèle client-serveur. Un client peut donc interroger un serveur situé sur une autre machine, via des requêtes de la forme dict://dict.org/. Des serveurs publics sur internet (qui dispensent donc d'installer les bases de données de manière locale) sont répertoriés sur http://luetzschena-stahmeln.de/dictd/index.php?freedictonly

Sur le site du projet (http://www.dict.org/w/), les liens ftp: permettant de télécharger les archives sont malformés. L'ensemble est en fait consultable à ftp://ftp.dict.org/dict et les dictionnaires pré-formattés sont dans le sous-répertoire /pre.

On trouve une description des dictionnaires sur http://www.dict.org/w/databases/dict . Tous semblent disponibles par ailleurs sous forme de paquets Debian.

Pour les dictionnaires bilingues. Essayer:

  $ apt-cache search dict-freedict

Pour les autres, on retrouve

  gv@fantasio:~$ apt-cache search dict | grep ^dict- | grep -v freedict 
  dict-bouvier - John Bouvier's Law Dictionary for the USA
  dict-devil - The Devil's Dictionary by Ambrose Bierce
  dict-easton - Easton's 1897 Bible Dictionary
  dict-elements - Data regarding the Elements
  dict-foldoc - FOLDOC dictionary database
  dict-gazetteer - U.S. Gazetteer (1990)
  dict-gazetteer2k - Placeholder package to install entire Gazetteer 2000
  dict-gazetteer2k-counties - Counties Database for the 2000 US Gazetteer
  dict-gazetteer2k-places - Places Database for the 2000 US Gazetteer
  dict-gazetteer2k-zips - ZIP and ZCTA database for the 2000 US Gazetteer
  dict-hitchcock - Hitchcock's Bible Names Dictionary
  dict-stardic - An English to Chinese Dictionary
  dict-wn - electronic lexical database of English language for dict
  dict-xdict - An English to Chinese Dictionary
  dict-jargon - FIchier de jargon 4.4.4
  dict-vera - Dictionnaire des acronymes relatifs à l'informatique
  dict-gcide - Un dictionnaire anglais complet
  dict-de-en - Dictionnaire de traduction allemand-anglais pour dictd
  dict-moby-thesaurus - Le plus vaste et le plus complet des 
  dictionnaires de synonymes

En plus de dict, il existe d'autres clients comme opendict (en Python), dictem (un client pour Emacs), fantasdic (pour Gnome), etc.

Le script cgi qui anime la page de consultation sur le site est téléchargeable également [2].

Voir aussi http://freedict.org/fr/

Wordtrans

Les formats de bases de données

Les dictionnaires au format DICT comprennent un fichier de données compressé avec gzip, et un fichier d'index:

  web1913.index
  web1913.dict.dz

Le fichier de données est un simple fichier plat indenté.

  Kinkajou \Kin"ka*jou`\, n. [F. kinkajou, quincajou, from the
     native American name.] (Zo["o]l.)
     A nocturnal carnivorous mammal ({Cercoleptes caudivolvulus})
     of South America, about as large as a full-grown cat. It has
     a prehensile tail and lives in trees. It is the only
     representative of a distinct family ({Cercoleptid[ae]})
     allied to the raccoons. Called also {potto}, and {honey
     bear}.

Il comprend au début quelques données d'identification et de copyright qui le concernent (les renseignements concernant tous les dictionnaires consultables sur http://www.dict.org/bin/Dict sont par exemple visibles sur ce lien [3]).

Le protocole d'interrogation des serveurs fait l'objet d'une RFC [4].

Voir aussi

http://doc.ubuntu-fr.org/stardict#edition_et_conversion_des_dictionnaires

http://polyglotte.tuxfamily.org/doku.php?id=logiciels:polyglotte:conversion_dicos

Convertir un dump du Wiktionnaire en DICT gràce à un scipt Python: http://code.google.com/p/wik2dict/source/browse/#svn/trunk/wik2dict

http://wiki.yobi.be/wiki/Dict_Applications#dict_.28e.g._Freedict.29_to_Wordtrans

Des librairies pour Perl

et pour Ruby

Autres clients

Où trouver les dictionnaires

Quelques dictionnaires en ligne

Une sélection