Le droit est un domaine de spécialistes et, pour optimiser l'accès à l'information juridique, le CAIJ a besoin de classer finement chaque texte. Après avoir écarté l'hypothèse d'une approche manuelle qui aurait pris plusieurs années, et évalué sans succès des outils classiques de text-mining, le CAIJ a choisi la solution Antidot Content Classifier. En quelques semaines le projet était finalisé et les objectifs de qualité dépassés.
Professions juridiques : des besoins informationnels par domaine de droit
A l'instar de la médecine, le métier juridique est fortement spécialisé. Les professions juridiques travaillent dans un domaine particulier du droit : un avocat en droit des entreprises ne plaide pas une affaire en droit de la famille. Par conséquent ils ne consultent pas la même documentation : les codes de loi, les jurisprudences auxquels ils se réfèrent et les sujets de droits sur lesquels ils veillent doivent être adaptés à leur domaine d'exercice.
Créé en 2001, le CAIJ – Centre d'Accès à l'Information Juridique – a pour mission de faciliter l'accès à l'information juridique pour l'ensemble des membres du Barreau et de la magistrature du Québec.
Pour ce faire, il opère un réseau de 40 bibliothèques, offre un service de recherche et de formation, et propose plus de 1,7 million de ressources via sa bibliothèque virtuelle www.caij.qc.ca. Il est la plus grande source d'information juridique au Québec.
Pour fournir à chacun l'information qui l'intéresse, le CAIJ utilise une nomenclature de classement des domaines du droit. Elle compte 600 termes, dont 60 de premier niveau. Problème : les 1,7 millions de jurisprudences qui constituent le fonds documentaire ne sont pas étiquetées avec ce plan de classement. Et les 10.000 nouvelles qui arrivent chaque mois non plus…
Entreprendre un chantier de catégorisation manuelle prendrait plus
de 200 années hommes. Heureusement, des solutions automatiques
existent.
La classification par Machine Learning à la rescousse
Le CAIJ avait essayé des outils traditionnels de classification automatique de documents, à base d'analyse linguistique. Trois écueils majeurs se sont présentés :
- le paramétrage du système nécessite des connaissances poussées en traitement du langage,
- la qualité plafonne vite à un niveau inacceptable pour les utilisateurs exigeants que sont les juristes,
- le coût de maintenance dans le temps est trop élevé car il faut continuellement ajouter de nouvelles règles.
Le CAIJ a alors cherché une approche plus efficace et a opté pour la solution Antidot Content Classifier qui se base sur les approches modernes de Machine Learning.
Grâce à sa stratégie d'Active Learning, Antidot Content
Classifier minimise l'investissement humain tout en maximisant la
qualité de l'apprentissage.
Un projet bien cadré
La première étape du projet consiste à rassembler un corpus d'entraînement (quelques documents taggés manuellement) pour ensuite apprendre à la machine à faire de même. La solution Antidot Content Classifier se distingue des autres solutions du marché par la qualité de ses algorithmes et par son atelier d'entraînement.
Cette interface guide les utilisateurs métiers dans la constitution de la meilleure base d'entraînement possible. Le système fournit aussi des rapports de qualité pour mesurer continuellement l'impact des améliorations apportées. Grâce à Antidot Content Classifier, le CAIJ a pu obtenir très rapidement des résultats de grande qualité en impliquant uniquement des intervenants métiers dans le « paramétrage ». Et pour couronner le tout, garantir une qualité d'étiquetage élevée ne nécessite que très peu de paramétrage.
Témoignage du Centre d'Accès à l'Information Juridique du Québec
Antidot a su comprendre notre besoin et nous accompagner pas à
pas dans la réalisation de notre projet. Leur parfaite compréhension
de nos attentes leur a permis de nous aiguiller dans la mise en œuvre de
notre solution qui se positionne désormais comme un maillon clé au
sein de notre organisation. Maintenant, accéder rapidement en ligne aux
jurisprudences est une simple formalité. A ce point s'ajoutent les
bénéfices liés à l'enrichissement rapide et continu de notre fonds
documentaire rendu possible grâce aux puissantes fonctionnalités de la plateforme. Nous sommes donc en mesure de proposer une information exhaustive et de répondre parfaitement à notre mission.
Sonia Loubier, Directrice des technologies de l'information du CAIJ