Catégorisation automatique avec Elasticsearch

2022-02-11T14:40:00Z

14:4014:47
14:40 — 14:47 (UTC)

Catégorisation automatique avec Elasticsearch

Comme la plupart des applications de traitement de texte, la catégorisation automatique est habituellement implémentée avec des algorithmes de Machine Learning et des modèles entraînés sur des données pertinentes. Ces modèles embarquent les données statistiques des données d'entraînement qui plus tard permettront au système de faire correspondre un nouveau document avec une catégorie. Mais les données statistiques des documents texte sont déjà disponibles dans Elasticsearch. L’index inversé au cœur d’Apache Lucene porte intrinsèquement ce modèle. Si on considérait que l’index des documents d'entraînement est notre modèle ? Dans ce cas, une simple requête sur cet index nous permettrait d’obtenir la catégorie ou les catégories susceptibles de s’appliquer à un nouveau document. Dans cette présentation nous allons démontrer cette approche et conclure qu’elle permet de catégoriser facilement tout document non structuré avec Elasticsearch.

Lightning talk Introductory and overview Enterprise search Cloud
Raed Ben Haj Gacem
Développeur Elasticsearch | Adelean
Indexer des transcriptions de fichiers média