Indexation automatique de documents vidéo


Premiers résultats

Les algorithmes développés dans le cadre de ce projet ont été testés sur 22 séquences vidéo, toutes acquises à 5 ou 6 Hz. Les images sont au format CIF. Le taux moyen de détection de transitions atteint 90.4% pour un taux moyen de fausses alarmes de 1.5%. Un tableau résumé des résultats est disponible.
Séquence Nb de transitions % transitions détectées % fausses alarmes Commentaires
hard rock 7 coupures - 1 fondu 87.5 0 1 fondu non détecté
broderie 5 coupures - 1 fondu 83.3 0 1 fondu non détecté
kart 9 coupures - 1 fondu 80 11.1 1 fondu, 1 coupure non détectés, 1 fausse détection due à un flash, séquence difficile
tennis 6 coupures 100 0 En fait une coupure a lieu sur la dernière image de la séquence et du fait de l'algorithme elle n'est pas détectée.
vieux tennis 4 coupures 100 0
secte 8 coupures - 1 fondu 88.9 0 1 fondu non détecté
lille 3 coupures - 3 balayages 66.6 0 2 balayages non détectés
interview d'invité 4 coupures 100 0
6 minutes 5 coupures 100 16.6 (37.5) 1 fausse détection due au bandeau M6, 2 fausses détections dues à un flash
travaux 11 coupures - 1 fondu 100 0 (7.7) 1 fondu détecté comme séquence à part entière
affaire 2 coupures - 1 fondu 100 0
colère 14 coupures - 1 fondu 100 0
procès 3 coupures - 1 fondu 100 0 (20) 1 fondu détecté comme séquence à part entière
brèves 13 coupures - 1 fondu 100 0
visite 5 coupures 80 0 (33.3) 1 coupure non détectée, 2 fausses détections dues à un flash
abidjan 61 coupures 96.7 3.2 2 coupures loupées, 1 fausse détection
nantes 5 coupures - 1 fondu 83.3 0 1 fondu non détecté
paris 21 coupures - 3 fondus - 1 page tournée - 1 transition bizarre  84.6 (65.4) 0 (5.5) 5 coupures, 2 fondus, 1 page tournée et 1 transition bizarre loupées. 1 seule fausse alarme due à un fondu détecté comme séquence à part entière. Les coupures loupées correspondent au cas extrème de coupures successives non traitées par l'algorithme. Un seuil un peu plus bas (0.05) donne 1 fondu et 4 coupures non détectées, mais plus de fausses alarmes (2 fondus détectés comme séquence à part entière, et objet en mouvement et en gros plan (2)).
acadie 32 coupures - 5 fondus 86.5 (83.8) 0 1 coupure et 5 fondus non détectés. La coupure se trouve dans la situation improbable de deux coupures successives.
senghor 8 coupures - 5 fondus 61.5 0 5 fondus non détectés
jtv1 40 coupures 100 0 (6.9) Les 3 fausses alarmes sont dues à des morceaux de fondus pris comme séquence à part entière. Il ne s'agit pas de fondus réels puisque la séquence est une simulation de journal télévisé, créée en accolant des morceaux de prises de vue d'un vrai journal.
TOTAL 90.4 (89.4) 1.5 (5.9) Le pourcentage de coupures détectées est de 98.3 (97.1)
Tab.1 Résumé des résultats obtenus pour les 22 séquences test.


Au vu de ces résultats, il apparaît que notre algorithme est suffisant dans le cas de transitions simples (coupures), par contre un effort reste à fournir pour ce qui est des fondus, qui ne sont en règle générale pas détectés.

D'autre part dans la majorité des cas, le choix d'un seuil plus bas permet de récupérer la plupart des transitions perdues, au détriment d'un nombre plus élevé de fausses alarmes, qui sont facilement détectables dans la mesure où les relations obtenues entre prises de vue, permettent de "recoller" ces morceaux de séquences.
C'est par exemple le cas dans la séquence Paris pour les fausses détections dues à un objet en gros plan et en mouvement dans l'image.

Il est aussi intéressant de remarquer que l'établissement des relations entre prises de vue permet également de régler le cas des flashes (cf. séquence 6 Minutes), puisque les deux morceaux de la prise de vue séparés par le flash sont détectés en relation.

Les deux exemples ci-dessous illustrent le découpage et la hiérachisation de deux séquences, 6 Minutes et Paris. Nous donnons successivement les images clés des deux séquences (6 Minutes et Paris), puis les changements détectés internes à chaque prise de vue (6 Minutes et Paris) et enfin les relations entre prises de vue (6 Minutes et Paris).

Pour l'exemple de la séquence 6 Minutes, quatre prises de vue sont classifiées comme contenant du changement. Ces décisions sont dues respectivement au mouvement du bandeau M6 (prise de vue 1), à la disparition d'une incrustation de texte (prise de vue 4), à l'apparition d'un objet de grande taille au premier plan (prise de vue 7) et enfin à un mouvement de la caméra (prise de vue 8). Les mêmes causes sont à l'origine de détection de changements dans la séquence Paris.

Fig.4 Images clés de la séquence 6 Minutes - CopyrightM6/CMM/ENSMP Back to top 
Shot 0 1 2 3 4 5 6 7 8
Change no yes no no yes no no yes yes
 
Fig.5 Résultats de la détection des changements dans une même prise de vue, séquence 6 MinutesBack to top 
Relations
shot 1 - shot 2
shot 4 - shot 6
 
Fig.6 Résultats de la détection des relations entre prises de vue, séquence 6 MinutesBack to top 
Fig.7 Images clés de la séquence Paris - CopyrightCMM/ENSMP  Back to top 
Shot 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Change no no yes yes no no no yes yes no no yes yes no no no no yes no no no yes yes yes no no no
 
Fig.8 Résultats de la détection des changements dans une même prise de vue, séquence Paris Back to top 
Relations
shot 2 - shot 8
shot 3 - shot 15
shot 4 - shot 5
shot 17 - shot 18
shot 19 - shot 20
shot 24 - shot 25
shot 25 - shot 26
 
Fig.9 Résultats de la détection des relations entre prises de vue, séquence Paris Back to top  

Toutes les images originales de cette page sont issues de journaux télévisés TF1, FR3, A2 ou M6 et par conséquent tombent sous leur copyright. Toutes les autres images ou photographies sont la propriété du CMM. Ces documents sont protégés par la législation sur les droits d'auteur et toute copie ou usage non autorisé sont strictement interdits.
Dernière mise à jour : 26 - 11 - 98
demarty@cmm.ensmp.fr