Jubatus est le nom scientifique du guépard (Acinonyx jubatus). C'est aussi le nom d'une nouvelle technologie d'analyse en temps réel de très gros volumes de données développé par Nippon Telegraph and Telephone (
NTT), l'un des leaders japonais des technologies de l'information connu récemment pour avoir doublé la vitesse et détenir le record de transmission par fibre optique, et par
Preferred Research, la branche R&D de Prefered Infrastructure, une entreprise japonaise d'informatique et télécom du
Hongo Campus de l'Université de Tokyo.
Classiquement, les systèmes d'analyse de données reposent sur un traitement séquentiel "par lots" (
batch). Un tel type de traitement n'est pas assez efficace pour les applications massives temps-réel, puisque le batch demande à un serveur d'attendre que toutes les données précédemment reçues soient traitées avant de commencer sa propre analyse.
Les systèmes précédents qui traitent de ce problème d'"explosion des données" sont par exemple
Hadoop [1], un framework de développement communautaire supporté par Yahoo!, permettent de diviser des données en clusters selon un procédé de type
MapReduce (système conçu par Google) et de les proposer indépendemment à différents serveurs.
Le principe de
Jubatus est une analyse continue "distribuée" entre les serveurs. Pour surmonter le problème de la communication entre les serveurs, Jubatus agrège de manière particulièrement flexible des résultats intermédiaires (appelé MIX). Au lieu d'effectuer une comparaison des résultats d'analyse uniquement à la fin de chaque itération, le système optimise le moment où cette opération sera réalisée de façon à augmenter la productivité de chaque serveur et la rapidité de début de calcul. Le système repose sur une architecture dite "pluggable" : les moteurs et modules d'analyse disposent d'interfaces communes. Ils peuvent alors être simplement utilisés comme "briques logicielles".
L'objectif de
Jubatus est clairement l'analyse temps réel des informations Internet, avec des projets sur l'étude et la catégorisation instantannée des messages des réseaux sociaux types à des fins de filtrage ou de "recherche floue", dans la détection immédiate de tentatives terroristes ou de cyber-attaques.
Le framework sera prochainement mis à disposition du public en open-source, avec l'espoir ouvertement affirmé de créer une communauté d'utilisateurs