kaggle入门之Titanic生存预测

比赛说明

RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。

造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。

在这个挑战中,我们要求您完成对哪些人可能存活的分析。特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。

目标

你的工作是预测一名乘客是否能够幸免于泰坦尼克号沉没。
对于测试集中的每个,您必须预测变量的0或1值。

提交文件格式

您应该提交一个csv文件,其中包含418个条目和一个标题行。如果您有额外的列(超出PassengerId和Survived)或行,您的提交将显示错误。

该文件应该有两列:

    • PassengerId(按任意顺序排序)
    • 幸存(包含你的二元预测:1为幸存,0为死者)

data概观

数据分为两组:

  • 训练集(train.csv)
  • 测试集(test.csv)

训练集应该用于构建您的机器学习模型。对于训练集,我们为每位乘客提供结果(也称为“基本事实”)。您的模型将基于乘客性别和班级等“功能”。您还可以使用特征工程来创建新功能。

应该使用测试集来查看模型在看不见的数据上的表现。对于测试装置,我们不为每位乘客提供基本事实。预测这些结果是你的职责。对于测试装置中的每位乘客,使用您训练过的模型来预测他们是否能够在泰坦尼克号沉没中幸存下来。

我们还包括gender_submission.csv,这是一组假设所有且仅有女性乘客生存的预测,作为提交文件应该是什么样子的示例。

数据字典

变量 定义
生存 生存 0 =否,1 =是
pclass 票务舱 1 = 1,2 = 2,3 = 3
性别 性别  
年龄 年龄多年  
sibsp 泰坦尼克号上的兄弟姐妹/配偶#  
泰坦尼克号上的父母/孩子们  
票号  
票价 乘客票价  
小屋号码  
开始 登船港口 C =瑟堡,Q =皇后镇,S =南安普敦

可变注释

pclass:社会经济地位的代理(SES)
1st = Upper
2nd = Middle
3rd = Lower

年龄较低:如果小于1,年龄是小数。如果估计年龄,是否为xx.5

sibsp:数据集定义这样的家庭关系...... 
兄弟姐妹=兄弟,姐妹,同父异母的弟弟,义妹
配偶=丈夫,妻子(包二奶和未婚夫被忽略)

烘干:将数据集定义这样的家庭关系...... 
父=母亲,父亲
儿童=女儿,儿子,继女,继子
有些孩子只带着保姆旅行,因此对他们来说parch = 0

原文地址:https://www.cnblogs.com/liuyuanq/p/11331068.html

时间: 2024-10-09 06:52:07

kaggle入门之Titanic生存预测的相关文章

【tensorflow2.0】处理结构化数据-titanic生存预测

1.准备数据 import numpy as np import pandas as pd import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.keras import models,layers dftrain_raw = pd.read_csv('./data/titanic/train.csv') dftest_raw = pd.read_csv('./data/titanic/test.csv')

kaggle入门题Titanic

集成开发环境:Pycharm python版本:2.7(anaconda库) 用到的库:科学计算库numpy,数据分析包pandas,画图包matplotlib,机器学习库sklearn 大体步骤分为三步: 1.数据分析 2.交叉验证 3.预测并输出结果 导入库函数 import numpy as np import pandas as pa import matplotlib.pyplot as pl from sklearn.linear_model import LogisticRegre

[kaggle入门] Titanic Machine Learning from Disaster

Titanic Data Science Solutions¶ https://www.kaggle.com/startupsci/titanic-data-science-solutions 数据挖掘竞赛七个步骤:¶ Question or problem definition. Acquire training and testing data. Wrangle, prepare, cleanse the data. Analyze, identify patterns, and explo

机器学习第一步——用逻辑回归及随机森林实现泰坦尼克号的生存预测

1.实验背景 本次实验是Kaggle上的一个入门比赛——Titanic: Machine Learning from Disaster.比赛选择了泰坦尼克号海难作为背景,并提供了样本数据及测试数据,要求我们根据样本数据内容建立一个预测模型,对于测试数据中每个人是否获救做个预测.样本数据包括891条乘客信息及获救情况,测试数据有418条乘客信息.样本数据的样例如下: Passenger:乘客唯一识别id Survived:是否存活,0为否,1为是 Pclass:船舱等级,1.2.3等 Name:姓

泰坦尼克号生存预测

从Kaggle官网下载数据:train .test. 赛事描述: 泰坦尼克号的沉没是历史上最臭名昭著的沉船之一.1912年4月15日,泰坦尼克号在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难.这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规.船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用.虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来.比如妇女.儿童和上层阶级. 在此次比赛中,我们需要参赛者预测哪一类人更有可能存活

泰坦尼克号生存预测分析

此文发表在简书,复制过来,在下方放上链接. https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克号生存预测 1.背景与挖掘目标 “泰坦尼克号”的沉没是历史上最臭名昭著的海难之一.1912年4月15日,泰坦尼克号在处女航中与冰山相撞后沉没,2224名乘客和机组人员中有1502人死亡.这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全条例. 造成沉船事故的原因之一是没有足够的救生艇供乘客和机组人员使用.虽然在沉没中幸存了一些运气,但一些人比其他人更容易生存,如

泰坦尼克号生存预测(python)

1 数据探索 对数据进行一个整体的理解 1.1 查看数据都有一些什么特征 import pandas as pd import seaborn as sns %matplotlib inline titanic = pd.read_csv('G:\\titanic\\train.csv')titanic.sample(10) 获取数据的10行记录进行观察,初步了解数据的组成,可以看到Age.Cabin里面是存在缺失值的,在进一步理解数据的统计量后再进行数据处理,观察各特征的最大最小值等,可以发现

kaggle初探之titanic

环境部署 环境部署需要安装python,这里已经配置好,略过 首先登陆kaggle 下载titanic数据 https://www.kaggle.com/c/titanic/data 点击Download ALL 查看数据 gender test.csv train.csv 开始建模 import pandas as pd import os from sklearn.feature_extraction import DictVectorizer #导入随机森林 from sklearn.en

大数据竞赛平台——Kaggle 入门

大数据竞赛平台--Kaggle 入门篇 这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程.如有错误,请指正! 1.Kaggle简介 Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/ 企业或者研究者可以将数据.问题描述.期望的指标发布到Kaggle上