Développements à venir

Le principal défi auquel BiblIndex est confronté est le suivant: trouver un équilibre entre quantitatif et qualitatif. Il faut rendre accessible dans des délais raisonnables un corpus élargi : plus le nombre de citations répertoriées sera grand, plus les champs de recherche couverts seront larges, et plus l’index permettra des analyses statistiques pertinentes et novatrices. Mais il faut aussi garantir la qualité et l’homogénéité des relevés, en élaborant des techniques de repérage très fines et cohérentes. La première exigence passe par l’intégration massive d’index scripturaires de nouvelles œuvres ; la seconde par l’analyse fine et chronophage de l’intertextualité biblique au fil de la lecture du texte patristique. Modèle de données et interfaces doivent rester compatibles avec les deux approches. Aussi cette dichotomie entre quantitatif et qualitatif est-elle au cœur de chacun des axes du travail en cours, dont le développement se fait de façon itérative, dans un va-et-vient continuel entre informaticiens et patristiciens :

l’élargissement du corpus, par la saisie et la vérification des références existantes, et dès que possible par l’acquisition de nouvelles données par des spécialistes des textes concernés ;
la création d’une large communauté par le développement d’un site de travail collaboratif ;
le repérage automatisé de l’intertextualité biblique dans les textes ;
la réflexion sur les modalités de visualisation des données ;
le travail directement effectué sur les textes bibliques et patristiques, et son couplage avec les références chiffrées existantes.

Steven R. Harmon a clairement pointé les insuffisances de la couverture géographique et chronologique de Biblia Patristica ¹. Pour y remédier le plus rapidement possible, nous avons pris le parti, plutôt que de faire de la vérification systématique des données d’archives non publiées par le CADP un préalable à leur intégration, de les saisir comme elles étaient, en précisant à l’internaute qui les consulte qu’il s’agit de données provisoires. Parallèlement à cela, bien sûr, le minutieux travail de vérification se poursuit² : référence après référence, il permet à une donnée en ligne de ne plus apparaître en rouge, « non vérifiée », mais en noir. Jusqu’à présent, toutes les données récupérées ont été préparées selon des directives uniformes³ : vérifiées ou non, leur homogénéité est donc assurée.

En complément des relevés déjà accessibles en ligne évoqués plus haut, environ 600.000 références, contenues dans les 15 mètres linéaires d’archives manuscrites du CADP et repérées sur quelque 3.000 œuvres, essentiellement écrites en grec, mais aussi en latin et en syriaque, entre le iv^e et le xiv^e siècle, ont été saisies numériquement entre 2011 et 2017. On peut dresser un premier aperçu du corpus constitué par ce million de données réunies : les trois premiers siècles ont été intégralement traités ; l’essentiel du iv^e siècle est couvert. Pour le v^e s., les œuvres exégétiques de Jérôme qui manquaient encore ont été intégrées, Cyrille d’Alexandrie et Théodoret de Cyr ont été intégralement traités, ce qui est également le cas pour des auteurs plus tardifs comme Procope de Gaza, Grégoire le Grand (vi^e s.), Maxime le Confesseur (vii^e s.). À ces auteurs majeurs s’ajoutent de nombreuses chaînes exégétiques, des œuvres de Pseudo-Chrysostome, des textes liturgiques, notamment byzantins, etc.⁴

Maintenant que l’intégralité de ces archives du CADP a été exploitée – même si un gros travail de vérification reste encore à effectuer –, BiblIndex construit un programme systématique de traitement des œuvres manquantes, reprenant à son compte l’objectif d’exhaustivité des relevés de Biblia Patristica, en commençant par les iv^e et v^e siècles. Le premier chantier, qui a démarré en août 2017, concerne les œuvres d’Augustin, très demandées par les internautes. Des directives spécifiques à BiblIndex ont été rédigées⁵, qui sont en grande partie compatibles avec celles du CADP.

Un effort tout particulier est prévu pour intégrer l’immense domaine du christianisme oriental, et tout d’abord syriaque, jusqu’ici inexploré pour les citations bibliques. Le rapport à la Bible des textes syriaques est en effet très intéressant à cause de la proximité linguistique entre l’hébreu et le syriaque. Répertorier leurs citations permettra des avancées significatives pour identifier ou reconstituer l’origine des versions : pour l’Ancien Testament, les targums juifs, pour le Nouveau, d’une part le Diatessaron, et d’autre part la Vieille Syriaque, soit la curetonienne soit la sinaïtique et enfin la Peshitta du iv^e siècle, que l’on peut comparer à la Vulgate latine. Les dix volumes de traduction du syriaque dans la collection Sources Chrétiennes, avec leurs index bibliques, constituent une base de départ pour le travail, à élargir, en particulier avec l’œuvre d’Éphrem éditée au Corpus Scriptorum Christianorum Orientalium et qui doit être progressivement traduite dans la collection. Les sources syriaques postérieures au v^e siècle sont aussi très importantes comme témoins des œuvres grecques, parfois perdues dans leur langue originale (par ex. Sévère d’Antioche et Théodore de Mopsueste)⁶.

À cela s’ajouteront des ressources extérieures en cours de constitution, en particulier le relevé des citations dans les œuvres de Bernard de Clairvaux (environ 35.000 références) ; nous espérons aussi pouvoir mener à bien un partenariat avec la Faculté de Théologie de l’Université Aristote de Thessalonique⁷, qui a réalisé, grâce à une équipe nombreuse ayant travaillé plus de 30 ans sous la direction des professeurs S. Sakkos et P. Koutlemanis, un index scripturaire, aujourd’hui disponible sous forme numérisée, d’environ 350.000 références, qui couvre l’ensemble de la Patrologie grecque de Migne, et que son actuel responsable, le Pr. Athanasios Paparnakis, propose de rendre accessible via BiblIndex⁸. Un autre partenariat est en cours d’élaboration avec le projet PAVONe (Platform of the Arabic Versions of the New Testament) de l’Université de Balamand (Liban), qui recense non seulement tous les manuscrits arabes du Nouveau Testament, mais aussi les citations du Nouveau Testament présentes dans les lectionnaires et dans la littérature chrétienne – et musulmane – du premier millénaire. Par ailleurs, les index scripturaires de tous les volumes de la collection Sources Chrétiennes non encore pris en compte par le CADP seront ajoutés, en premier lieu les volumes récents dont l’index ne nécessitera qu’une révision technique. À plus long terme seront envisagées l’association avec d’autres bases de données, ouvrant à d’autres aires culturelles et religieuses: judaïsme⁹, textes samaritains, Islam.

L’architecture est entièrement modélisée, une bonne partie des données est déjà prête à l’import. Les rendre accessibles en ligne au plus vite, et pouvoir ensuite ajouter facilement de nouvelles données au fur et à mesure de leur préparation, sont des objectifs absolument prioritaires pour le projet. Malheureusement, depuis des années, la faiblesse des moyens techniques mis à la disposition du projet, due à l’insuffisance des financements reçus pour ce poste de dépenses et à l’impossibilité d’obtenir des postes spécifiques du CNRS, l’interdit pour le moment. Diverses recherches de financements extérieurs sont en cours.

Compte tenu de l’ampleur du travail de relevé et de vérification à accomplir pour parvenir à l’exhaustivité et à une relative homogénéité des données, il est évident que la petite dizaine de membres de l’équipe des Sources Chrétiennes est insuffisante. Deux pistes sont explorées pour accélérer le processus.

La première est la mise en place d’une plateforme de travail collaboratif, où chaque internaute, utilisateur de BiblIndex et spécialiste d’un texte ou d’un domaine, pourrait au fil de ses requêtes participer à l’amélioration des données, en suggérant des corrections via un système de validation contrôlé. Tout chercheur préparant l’édition d’un texte pourrait également, au fil de son travail, contribuer à améliorer les relevés existants ou fournir des données nouvelles. Les maquettes de cette plateforme sont prêtes, et n’attendent elles aussi que les financements pour devenir réelles…

La seconde est l’application aux corpus patristiques de techniques de détection semi-automatique des coïncidences entre textes. Ces outils d’aide à la recherche des citations ont vocation à intervenir en amont du travail des patristiciens et biblistes, pour fournir à ces derniers une version pré-balisée du texte à analyser.

En 2013, un post-doctorat dans le cadre du LIRIS a été mené en ce sens par Samuel Gesche¹⁰. Un état de l’art très précis dans le domaine de la lemmatisation en langues anciennes a d’abord été établi : de nombreux travaux sont en effet en cours dans les différents instituts. BiblIndex peut ainsi s’appuyer sur des versions lemmatisées morphologiquement des textes bibliques grec et latin ; pour le syriaque, le travail sera fait en collaboration avec le projet EEP Talstra Centre for Bible and Computer (VU Amsterdam). Dans la mesure où une connaissance fine du système linguistique de chacune des langues anciennes est indispensable pour préparer les outils de lemmatisation¹¹, le travail a été mené en collaboration étroite entre l’informaticien et les patristiciens. Un lemmatiseur spécifique au grec ancien patristique, encore à parfaire, a été préparé. Par ailleurs, sur la base d’un corpus échantillon lemmatisé [constitué du texte de Clément d’Alexandrie, Quel riche sera sauvé (SC 537) et des œuvres complètes de Philon d’Alexandrie côté patristique, du texte lemmatisé de la Septante et du Nouveau Testament Grec côté biblique], un outil de détection des citations, paramétrable, a été développé. Il n’est pour l’heure efficace que lorsque le passage patristique et le passage biblique comptent au moins un lemme commun, mais c’est déjà un bon début ! Maria Moritz (Institute of Computer Science, University of Göttingen) a repris ce travail sur le même corpus de test, augmenté par des échantillons de textes de Bernard de Clairvaux, ce qui a donné lieu à une publication en 2016¹². L’utilisation du logiciel TRACER, développé par Marco Büchler dans le cadre du groupe de recherche e-TRAP (electronic Text Reuse Acquisition Project) à Göttingen, permet en effet de repérer aussi un certain nombre d’allusions paraphrastiques. Il faudra encore fournir beaucoup de données d’apprentissage pour que les performances du logiciel sur les textes patristiques soient suffisantes, et nous envisageons parallèlement de compléter la construction jusqu’ici purement morphologique de nos lemmes par des regroupements en champs sémantiques, en créant de vastes dictionnaires de synonymes, multilingues ; c’est un domaine de recherche extrêmement prometteur. Les journées de recherche de l’International Workshop on Computer Aided Processing of Intertextuality in Ancient Languages, organisé à Lyon comme colloque conclusif de l’ANR BiblIndex, l’ont bien montré : elles ont rassemblé des représentants de très nombreux projets européens travaillant sur l’intertextualité dans des corpus anciens. Les actes de cette rencontre ont été élargis, pour donner naissance à un numéro spécial de la revue Journal on Data Mining and Digital Humanities (JDMDH), paru en 2017.

Un autre chantier concerne la visualisation des citations repérées, aussi bien en amont dans les interfaces qu’utiliseront les analystes – un gros travail a déjà été mené par le LIRIS pour la visualisation en défilement parallèle de textes bibliques et patristiques – qu’en aval dans celles que consultent les internautes – formulaires d’interrogation basique du corpus, formulaires de résultats devant permettre des tris multiples¹³, etc. Des maquettes très précises ont été réalisées pour l’ensemble de ces interfaces, qui n’attendent plus, elles aussi, que l’argent pour financer leur implémentation.

Plus spécifiquement, le Laboratoire d’Informatique de Grenoble (LIG) a préparé des maquettes et un prototype d’interfaces multidimensionnelles¹⁴ pour permettre des visualisations du corpus très difficiles, voire impossibles autrement, à partir de requêtes temporelles, spatiales ou spatio-temporelles. L’un des enjeux était de rendre compte des caractéristiques de l’information en termes de qualité (incertitude, incomplétude ou imprécision) et de densité, au moyen d’une sémiologie graphique et cartographique adaptée, tout en tenant compte de la diversité de profils des utilisateurs finaux. À terme, il faudra pouvoir sélectionner des dossiers bibliques, c’est-à-dire des ensembles de citations scripturaires qui fonctionnent en constellation pour une thématique, par zone géographique et pour une période donnée. La sélection des zones ou des périodes s’effectuera au moyen de requêtes visuelles (clic sur une carte ou sur un graphique temporel au moyen d’un curseur). Ces fonctionnalités pourront faire émerger des processus de répartition ou de diffusion des textes bibliques difficilement perceptibles à travers une simple interface textuelle: quel canon, quel texte, était reçu, à telle époque, à Antioche, en Afrique du Nord, etc. ?

L’interdisciplinarité est donc au cœur du projet BiblIndex et nécessite l’intervention d’un grand nombre de spécialistes de domaines variés. Au sein de notre laboratoire de SHS HiSoMA, nous nous concentrons sur les phases du travail qui relèvent essentiellement de nos compétences, à savoir la préparation des textes bibliques et patristiques en vue des phases ultérieures de leurs visualisations.

Les grands axes du travail en cours

L’élargissement massif du corpus

La création d’un site collaboratif et la détection automatisée de l’intertextualité

La visualisation des résultats