Programmation orientÃ©e statistique
==================================

L'idÃ©e de ce cours est d'apprendre Ã  travailler avec diffÃ©rents outils
informatiques "libres" pour traiter des donnÃ©es et construire des
applications scientifiques. Par applications scientifiques, on
entendra de petits utilitaires, le plus souvent exÃ©cutables Ã  partir
de la ligne de commande, destinÃ©s Ã  transformer, traiter et
reprÃ©senter graphiquement des donnÃ©es, Ã  partir de modÃ¨les
statistiques. 

L'idÃ©e gÃ©nÃ©rale est qu'il existe de nombreux petits outils disponibles
sur n'importe quelle machine un*x, et qui lorsqu'ils sont combinÃ©s
efficacement permettent d'effectuer trÃ¨s rapidement des traitements
autrement impensables. Notre Ã©diteur de choix sera Emacs
(www.gnu.org/software/emacs/) qui se distingue des autres Ã©diteurs par
la puissance de ses modes spÃ©cifiques aux outils informatiques
prÃ©sentÃ©s dans ce cours. MÃªme si sa prise en main peut s'avÃ©rer
dÃ©licate au premier abord, avec un peu de patience on arrive trÃ¨s vite
Ã  optimiser son travail d'Ã©dition de fichiers, de compilation de
programme et de debugging.

Pour les traitements "lourds" et couteux en temps de calcul, on
utilisera le langage C, la librarie scientifique GNU GSL et la
bibliothÃ¨que apophenia (apophenia.sourceforge.net/) qui offre les
structures de donnÃ©es appropriÃ©es pour manipuler des donnÃ©es (fichiers
plats ou base de donnÃ©es). Les sorties graphiques se feront Ã  l'aide
de gnuplot. On utilisera gdb pour le deboggage et la compilation
reposera sur l'utilitaire make. L'interface avec les bases de donnÃ©es
reposera essentiellement sur sqlite, qui est beaucoup plus facile Ã 
gÃ©rer depuis des programmes C. En revanche, on parlera Ã©galeemnt de
postgresql puisqu'il existe de nombreuses librairies R et Python
permettant l'accÃ¨s Ã  des bases de donnÃ©es de ce type.

Pour les shell scripts, on utilisera Perl et Bash, ainsi que les
utilitaires standard disponibles sur les machine un*x-like : cat, cut,
sed, awk... La librairie plotutils (www.gnu.org/software/plotutils/)
permet en outre de produire rapidement de petits graphiques Ã  partir
de donnÃ©es "pipÃ©es" en ligne de commande ou Ã  partir de shell scripts.

Python pourra Ãªtre utilisÃ© en mode interactif ou pour construire de
petites chaÃ®nes de traitement de calcul numÃ©rique. La bibliothÃ¨que
NumPY (numpy.scipy.org/) fournit un ensemble de structures de donnÃ©es
et de procÃ©dures de calcul matriciel qui permettront de nous passer
des environnements plus complexes comme Matlab.

Enfin, pour les traitement statistiques plus Ã©laborÃ©s, et pour gÃ©nÃ©rer
des graphiques prÃªts Ã  Ãªtre insÃ©rÃ©s dans un rapport Latex, on
utilisera le langage R (www.cran.r-project.org). Ses possibilitÃ©s
graphiques dÃ©passent en effet de loin n'importe quel logiciel
disponible sur le marchÃ©, et l'essentiel des modÃ¨les statistiques sont
immÃ©diatement disponibles dans les packages de base. On installera
toutefois certains packages additionnels.

La production d'un rapport automatique ou statique sera effectuÃ© avec
Latex et Sweave (www.stat.uni-muenchen.de/~leisch/Sweave/). Les
prÃ©sentations interactives pourront Ãªtre rÃ©alisÃ©es en Beamer
(latex-beamer.sourceforge.net/).

On n'abordera pas la conception d'interface graphique Ã©voluÃ©es, mais
le mieux serait dans ce cas de se tourner vers Java (avec JNI). De
mÃªme, on ne traitera pas de la programmation orientÃ©e objet, mÃªme si
en prÃ©sentant Python et R on aura inÃ©vitablement quelques approches de
la question. Finalement, on ne parlera pas non plus de compilation
croisÃ©e, ni de l'articulation entre diffÃ©rents langages de
programmation, avec swig (www.swig.org/) par exemple, mÃªme si cela
apparaÃ®t une option indispensable pour optimiser certains bouts de
code.



Plan provisoire :

+ Familiarisation avec la ligne de commande et Bash
+ Introduction Ã  Emacs
+ Sed, awk, tcl/tk, et outils GNU
+ Perl
+ Base de donnÃ©es : sqlite, mysql, postgresql
+ Introduction Ã  C
+ Traitements avancÃ©s avec C et apophenia
+ Calcul numÃ©rique avec Python/NumPY
+ Programmation R
+ Production de rapport automatique avec Latex et Sweave
+ Exemple de projets Ã  rÃ©aliser