Qu’est-ce qui rend un film rentable?
Explorer l’intersection des films et de l’apprentissage automatique
Nous voulions construire un modèle pour prédire les revenus au box-office d’un film inédit. Nous l’avons fait en extrayant des données sur des films sortis précédemment et en formant notre modèle à prédire les revenus. Nous avons acquis nos données auprès de Kaggle:
La prévision des recettes au box-office dans l’industrie cinématographique fait partie intégrante de la prise de décision financière au niveau du producteur. La production d’une estimation précise des revenus des films peut aider à budgéter les films et à collecter des fonds auprès des investisseurs. Dans cette plongée, nous avons l’intention de construire un modèle de calcul qui peut raisonnablement expliquer la variabilité des revenus du box-office (variable cible), compte tenu de certaines données sur un film avant sa sortie.
Nous avons initialement trouvé notre inspiration pour le projet à partir d’un ensemble de données Kaggle qui était un ensemble de données collectées à l’aide de l’API Movies Database et MovieLens.
Ci-dessous, vous pouvez voir une comparaison du nombre total de films regroupés par genre avec le montant contenu dans les 20% des revenus les plus élevés. Par exemple, environ 10% des films d’animation de l’ensemble de données font partie des 20% des films les plus classés par revenus. Cela nous montre que les documentaires ont un indice relatif très favorable (plus de 50% dans la partie supérieure des revenus).
Régresseur XGBoost
- Après avoir utilisé GridSearchCV et d’autres ajustements manuels des modèles, nous avons atteint une valeur r au carré de 0,7788
- En utilisant les hyperparamètres suivants: n_estimators = 10000, learning_rate = 0,01, colsample_bytree = 0,9, max_depth = 6, min_child_weight = 0,6, sous-échantillon = 0,9
Régression linéaire
Régresseur SGD
AdaBoost Regressor
KerasRegressor (NN séquentiel)
- Valeur R au carré de 0,3778
- 3 couches cachées, 100 époques de lot 10
Afin de mieux améliorer notre modèle, nous envisagerions d’inclure les fonctionnalités / attributs suivants pour mieux prévoir les revenus au box-office d’un film:
- Pouvons-nous incorporer une variable qui estime la «puissance des étoiles», capturant quantitativement la qualité des acteurs / actrices dans le film?
- Pouvons-nous inclure plus d’informations sur la stratégie marketing du film? Par exemple, les couleurs utilisées dans l’affiche du film, la durée de la bande-annonce du film ou les commandites?