Intelligence artificielle

A.I. Pour le tournage – Vers la science des données

A.I. Pour le tournage - Vers la science des données


Reconnaissance des types de prises de vues cinématographiques avec un ResNet-50

Publié à l'origine à https://rsomani95.github.io.Cliquez sur le lien pour une version plus formatée et interactive du message avec beaucoup plus d'images.

GitHub: https://github.com/rsomani95/shot-type-classifier

-Qu'est-ce que le langage visuel et pourquoi est-ce important?

- Réseaux neurologiques 101 (à lire si vous ne savez pas ce que sont les réseaux de neurones)

-Le Dataset

- - Les sources de données

- - Types de tir

-Méthodologie

-Résultats

- - Performance d'entraînement

- - Matrice de confusion

- - Cartes thermiques (Point culminant de la poste)

- - Robustesse

-Conclusion

UNEAnalyser le cinéma est un processus qui prend du temps. Dans le seul domaine de la cinématographie, de nombreux facteurs sont à prendre en compte, tels que l’échelle de prise de vue, la composition, les mouvements de l’appareil photo, les couleurs, la lumière, etc. On ne peut regarder que beaucoup de choses, et encore moins que l’on peut analyser en profondeur.

C’est là que les réseaux de neurones sont très prometteurs. Ils peuvent reconnaître des motifs dans les images qui n’étaient pas possibles il ya moins d’une décennie, offrant ainsi une vitesse inimaginable dans l’analyse du cinéma.

J’ai développé un réseau de neurones qui se concentre sur un élément fondamental de la grammaire visuelle: les types de tir. Il est capable de reconnaître 6 types de tir uniques, et est~ 91% précis. Le modèle pré-entraîné, le jeu de données de validation (l'ensemble des images servant à déterminer son exactitude), le code utilisé pour former le réseau et un peu plus de code permettant de classer vos propres images sont disponibles gratuitement ici.

Lorsque vous écrivez quelque chose - un courrier électronique, une dissertation, un rapport, un article, etc., vous utilisez les règles de la grammaire pour faire valoir votre point. Votre choix de mots, la manière dont vous construisez la phrase, l'utilisation correcte de la ponctuation et, surtout, ce que vous avez à dire, contribuent tous à l'efficacité de votre message.

Le cinéma traite de la manière dont les idées et les émotions sont exprimées à travers une forme visuelle. C’est un langage visuel, et comme toute langue écrite, votre choix de mots (ce que vous mettez dans le plan / le cadre), la manière dont vous construisez la phrase (la séquence de plans), l’utilisation correcte de la ponctuation (édition et continuité) et ce que vous avez à dire (l'histoire) sont des facteurs clés pour créer un cinéma efficace. La comparaison ne s’applique pas de manière rigide, mais constitue un bon point de départ pour commencer à penser au cinéma en tant que langage.

L'élément le plus fondamental de cette langue est un coup de feu. Lors de la prise de vue, de nombreux facteurs doivent être pris en compte: quelle doit être la taille du sujet, si la caméra doit être placée au-dessus ou au-dessous du sujet, combien de temps doit être la photo, si l'appareil reste immobile ou si le sujet bouge, et s'il bouge , comment devrait-il bouger? Si le sujet suit le sujet, observez-le à partir d'un certain point en tournant à droite / à gauche ou de haut en bas. Si le mouvement est lisse ou saccadé. Il existe d’autres facteurs visuels majeurs, tels que la couleur et l’éclairage, mais nous nous limiterons à ces facteurs. Un cinéaste choisit comment construire un plan en fonction de ce qu'il / elle veut transmettre, puis les juxtapose efficacement pour faire passer le message.

Considérons cette scène de Interstellaire. Pour vous mettre en contexte, une équipe de deux chercheurs et un pilote atterrissent sur une planète mystérieuse pour collecter des données cruciales sur les débris d’une mission précédente. Cette planète est très différente de la Terre - elle est recouverte d’un océan sans fin et sa gravité est 130% plus forte que celle de la Terre.

Cette scène comprend 89 prises de vue. La durée moyenne de chaque prise de vue est de 2,66 secondes.

Pour presque tous les plans montrant Cooper (Matthew McConaughey) à l'intérieur du vaisseau spatial, Nolan utilise Plan rapproché, montrant Cooper à partir de la poitrine. Cela nous permet de voir clairement les expressions de son visage, ainsi qu’un peu du vaisseau spatial dans lequel il se trouve et ses mouvements du haut du corps. Notez que la caméra n’est pas stable à 100%. La caméra bouge légèrement en fonction des mouvements de Cooper, ce qui nous permet de nous sentir plus impliqués dans cette scène.

Un Extreme Wide Shot met l'emplacement de la scène en perspective. Les personnages n'occupent presque pas de place et l'accent est mis uniquement sur l'emplacement. Notez que cette prise de vue est également beaucoup plus longue que les autres, permettant ainsi à la grandeur de l’immersion de s’implanter.

Ce sont les principaux types de plans utilisés dans cette scène. Quelques autres types de prises de vues cinématographiques seront traités plus tard.

Passons à mouvement de la caméra. Tout au long de cette scène, la caméra est presque jamais immobile. Que ce soit le vaisseau spatial touché par la vague, une marche lente dans l’océan ou une course désespérée d’un point à un autre, la caméra se synchronise presque parfaitement avec les personnages. C’est ce qui vous fait sentir la tension comme si vous étiez dans la scène.

UNE incliner vers le haut est utilisé de manière appropriée pour révéler la vague du point de vue de Dr. Brand (Anne Hatheway). Lorsque la caméra monte pour révéler la hauteur de la vague, la gravité de la situation s'accumule (sans jeu de mots). C'est l'un des plans les plus longs de la scène, avec 7,5 secondes. Pensez-vous qu'il aurait autant d'impact si la caméra était immobile et placée de telle sorte que vous puissiez voir la vague dans son intégralité?

La décision derrière les différents éléments d’une prise de vue: échelle de prise de vue (prise de vue longue, plan large, etc.), mouvement de la caméra, angles de la caméra, durée de la prise de vue, composition de la prise de vue, couleur et éclairage est basée sur le message que le cinéaste souhaite transmettre. Ces plans sont ensuite juxtaposés de manière significative pour transmettre une histoire visuelle cohérente.

L’analyse faite ci-dessus est loin d’être exhaustive, mais (espérons-le) met en lumière la complexité de la création d’un cinéma efficace. Le lecteur curieux voudra peut-être aller plus loin et examiner comment d’autres facteurs tels que la composition, l’édition et la couleur influencent la narration visuelle.

Décomposer cette scène a pris quelques heures de travail. Au lieu d’être répétitif, c’est là que les réseaux de neurones sont très prometteurs. Avec des algorithmes intelligents permettant de trouver des motifs similaires à ceux présentés ci-dessus en quelques secondes, votre cadre de référence ne peut plus être limité à ce que vous ou vos collègues avez regardé, mais à tout le cinéma.

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close