Skip to content
L'hyperparamètre d'optimisation pour cette algorithme est la fonction pour mesurer la qualité d'un noeud (criterion). Le RMS Titanic, le plus grand et le plus majestueux des paquebots jamais construits, effectuait son voyage inaugural entre Southampton, en Angleterre, et New York, aux États-Unis, lorsqu'il a . Si cela ne suffisait pas, le Titan et le Titanic disposaient tous les deux du même nombre de canots de sauvetage, ils étaient capables tous les deux d'atteindre une vitesse supérieure à 30 km/h et mesuraient pratiquement la même taille. L'Institut des Archives Sonores & Frémeaux & Associés donnent à écouter, pour la première fois au monde, les enregistrements originaux d'un des plus grands symboles du 20e si 7 ans, passagers de 3eme classe. Cette liste a été envoyée par TSF et transmise par l'agence Reuter de New-York. }, Cannot retrieve contributors at this time, # on affiche la liste des variables de la base, # descriptions des variables qualitatives, # comparaison des modalités de la variable Sex sur les autres variables, # on affiche la nouvelle liste des variables d'apprentissage (features) et la classe (target), # convertion de la variable Pclass, Sex et Embarked en type quantitatif binaire, # on remplace les valeurs nan par la moyenne, # les valeurs nulles ont été remplacés par la moyenne, # fonction split qui sépare et retourne deux DataFrames selon la valeur de p (=train_size), # - p : taille de train_size (par défaut p=0.6), # test de la fonction split (taille 60%, 40%), # sert à évaluer la performance du modèle, # importation de la fonction train_test_split, # fonction split qui sépare et retourne 2 DataFrames selon la valeur de p (=train_size), # - train_test_split : fonction scikit-learn qui renvoie X_train, X_test, Y_train et Y_test, # j'utilise la fonction train_test_split de scikit-learn, # fonction pour calculer le log2 utilisé dans la fonction entropie, # fonction entropie qui retourne la valeur de l'entropie, # - n1 : nombre de valeurs dans la classe 0 (Survived=0), # - n2 : nombre de valeurs dans la classe 1 (Survived=1), # test de la fonction entropie sur la classe Survived, # fonction gain d'entropie qui retourne la valeur du gain d'entropie d'un attribut, # - S : nb observations dans chaque classe, # test de la fonction gain d'entropie sur le Sexe, # test de la fonction gain d'entropie sur Pclass, # test de la fonction gain d'entropie sur Embarked, # nombre de survivants pour la classe Cherbourg, # nombre de décès pour la classe Queenstown, # nombre de survivants pour la classe Queenstown, # nombre de décès pour la classe Southampton, # nombre de survivants pour la classe Southampton, # création du classifieur (bayésien naïf), # apprentissage du classfieur sur les données train, # prédiction de la classe Survived avec la base de test, # probabilité d'appartenance à une classe, # affichage des paramètres de la méthode GaussianNB avec get_params, # fonction pour calculer le taux de prédiction sur la base test (prédiction juste), # - label : vecteurs des valeurs attendues (Y_test), # - pred : vecteurs des prédiction de X_test, 'Taux de prédiction du classifieur bayésien naïf : {:.1%}', # création du classifieur (arbre de décision), # affichage des paramètres de la méthode des arbres de décision avec get_params, # paramètre de réglage pour le nombre de plus proches voisins, # création du classifieur (k plus proches voisins), # affichage des paramètres de la méthode des k plus proches voisins avec get_params, 'Taux de prédiction du classifieur k plus proches voisins : {:.1%}', # création du classifieur (regression logistique), # affichage des paramètres de la méthode de la regression logistique avec get_params, 'Taux de prédiction du classifieur regression logistique : {:.1%}', # appel de la fonction split (p=0.5 car 50% des données dans train et test), # paramètre du classifieur à faire varier qui est la valeur de lissage de la variance (var_smoothing), 'La valeur de lissage de la variance optimale est', 'Le meilleur taux de prédiction est : {:.1%}', # paramètre du classifieur à faire varier (différentes fonctions de séparation d'une variable), # tests du nombre de plus proches voisins (1 à 40 voisins), # appel de la fonction split (p=0.5 car 50% des données dans chaque split), # paramètre du classifieur à faire varier (différents types d'algorithmes pour l'optimisation), # nombre d'échantillons/plis pour la validation croisée du modèle, # création du classifieur (bayésien naïf) avec le meilleur hyperparamètre, 'Taux de prédiction pour chaque échantillon :', # création du classifieur (arbre de décision) avec le meilleur hyperparamètre, # création du classifieur (k plus proches voisins) avec le meilleur hyperparamètre, # création du classifieur (régression logistique) avec le meilleur hyperparamètre, 'Diagramme en barre des taux de précision', 'Taux de précision moyen pour bayésien naïf : {:.1%}', 'Taux de précision moyen pour arbre de décision : {:.1%}', 'Taux de précision moyen pour k plus proches voisins : {:.1%}', 'Taux de précision moyen pour régression logistique : {:.1%}', # nombre d'échantillons pour la validation croisée du modèle, # liste des taux de prédiction pour 5 plis, 'Taux de prédiction moyen du classifieur de Perceptron : {:.1%}', 'Taux de précision de la méthode Perceptron'. La 4ème, la plus proche de la poupe, était en réalité une cheminée factice, qui n'avait qu'une fonction esthétique et ne rejetait donc aucune fumée. L'entraînement du classifieur supervisé se construit à partir de la fonction fit sur la base d'entraînement (X_train,Y_train). Le Titanic immortalisé ici en avril 1912. Dans ce TP, on utilisera la base titanic. La liste des victimes suisses Dans son édition du 16 avril 1912, le Journal de Genève annonce que le Titanic est Lors de la recherche des paramètres optimaux, je calculerais le taux de précision suivant différentes valeurs de criterion (fonction pour mesurer la qualité d'une scission qui est soit gini ou entropy). (source : journal "Le Matin" du 17 avril 1912). Une des images montrant des icebergs dans la zone du naufrage. Indiquer ci-dessous le nom des descripteurs retenus et pour ceux qui poursuivre N.S.I écrire le code python utilisé. vertical-align: middle; Des courriers autour du naufrage du Titanic, il en existe quelques-uns mais des photos beaucoup moins. avec parents et enfants, souvent très jeunes, frères et soeurs. Retirer les colonnes qui vous semblent inutiles pour l'apprentissage à l'aide de, Certaines variables sont nominatives et scikit learn ne traite que des variables numériques. . Affichez ensuite un diagramme de 4 barres correspondant aux 4 méthodes où chaque barre représente le taux moyen de prédiction issu de la validation croisée pour une méthode (toujours avec les paramètres optimaux). Du coup, c'est lui qui a demandé à ce qu'on fasse tourner les moteurs à fond, et c'est lui qui a fait réduire le nombre de canots de sauvetage de 48 à 16 pour aller encore plus vite. Retenez les valeurs de paramètres donnant le meilleur taux. (source : journal Le Matin du 17 avril 1912). L'Institut des Archives Sonores & Frémeaux & Associés donnent à écouter, pour la première fois au monde, les enregistrements originaux d'un des plus grands symboles du 20e siècle : le naufrage du Titanic et présente, d'une manière scénarisée sur deux compact-disques, les témoignages historiques des survivants. Les colonnes qui me semblent inutiles pour la base d'apprentissage sont PassengerId, SibSp (=nombre d’époux, de frères ou de soeurs présents à bord), Parch (=nombre de parents ou d’enfants présents à bord), Name, Ticket et Cabin. Pour cela, vous aurez besoin des fonctions: S'aider de l'aide en ligne (http://scikit-learn.org) pour l'utilisation de la méthode. On souhaite présenter graphiquement le résultat de la validation croisée ainsi que la comparaison des performances des méthodes.