kaggle首秀之intel癌症预测（续篇）

之前写了这篇文章。现在把他搬到知乎live上了。书非借不能读也，因此搞了点小费用，如果你觉得贵，加我微信我给你发红包返回给你。

最近的空余时间拿去搞kaggle了，好久没更新文章了。今天写写kaggle首秀的一段baseline吧。

这个题目是intel的癌症预测。我之前本来是想打谷歌的视频多标签分类的，但是那个数据量大，需要用谷歌云，然后呢，需要用双币信用卡注册，结果我的双币信用卡没有开通国外账户，考虑到安全性（去年我一个同事的信用卡直接在澳大利亚被盗刷），就换成了这个比赛了。

这个比赛很简单，就是图片分类，根据医院的癌症检测图片，将其分成1-2-3类。

好像很简单？我一开始也是这样认为的。结果发现有很多坑。我有好几次提交都是倒数。完全找不到北。究其原因：这个数据量其实比较小，然后就是图片样本空间较丰富，还有就是三个种类有时候分类的界限其实没那么清晰的。

弱弱的我卯足了劲玩了一个晚上的花招，周末开始搞的，今天提交了一个版本。排到了第18名，算是一个baseline吧。目前好像有几百个队伍的样子。

一个截图：

网站上也说从1.005提升到0.75813是一个great job。姑且算作一个baseline吧。

知乎的链接

https://www.zhihu.com/lives/868157097320280064

时间： 2024-10-27 11:50:05

kaggle首秀之intel癌症预测（续篇）的相关文章

由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享

pandas内存优化分享缘由最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依然存在下面的问题: 对于个人来说,没有足够的资源让这些框架发挥其优势: 从处理数据的库丰富程度上,还是pandas等更具有优势: 很多时候并不是pandas无法处理,只是数据未经优化: 所以这里还是考

kaggle入门之Titanic生存预测

比赛说明 RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一.1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡.这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定. 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇.尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会. 在这个挑战中,我们要求您完成对哪些人可能存活的分析.特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧. 目标

Kaggle项目泰坦尼克号预测生存情况（上）-------数据预处理

假期闲着无聊,做了一下Kaggle练手的项目--预测泰坦尼克号乘客的存活情况.对于一些函数和算法,刚开始也是懵懵懂懂的,但通过自己查资料,还是明白了许多,我会把参考资料的网址放在需要查看的地方. ------------------------------------ 我们的整个流程如下: ①数据预处理:数据清洗.可视化.标签化 ②分割训练数据 ③随机森林分类器及其参数调节数据预处理:数据清洗.可视化.标签化首先,先导入需要的模块并读取数据 #导入包,读取数据 import numpy as

数据挖掘竞赛kaggle初战——泰坦尼克号生还预测

1.题目这道题目的地址在https://www.kaggle.com/c/titanic,题目要求大致是给出一部分泰坦尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测另一部分人员最后是否生还.题目练习的要点是语言和数据分析的基础内容(比如python.numpy.pandas等)以及二分类算法. 数据集包含3个文件:train.csv(训练数据).test.csv(测试数据).gender_submission.csv(最后提交结果的示例,告诉大家提交的文件长什

Hadoop十年解读与发展预测

编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后.本文是Cloudera资深工程师讲解Hadoop,让您一篇文章就能了解Hadoop的过去和未来. “昔我十年前,与君始相识.” ——白居易,<酬元九对新栽竹有

Kaggle比赛：从何着手？

介绍参加Kaggle比赛,我必须有哪些技能呢? 你有没有面对过这样的问题?最少在我大二的时候,我有过.过去我仅仅想象Kaggle比赛的困难度,我就感觉害怕.这种恐惧跟我怕水的感觉相似.怕水,让我无法参加一些游泳课程.然而,后来,我得到的教训是只要你不真的跨进水里,你就不知道水有多深.相同的哲学对Kaggle也一样适用.没有试过之前不要下结论. Kaggle,数据科学的家园,为竞赛参与者,客户解决方案和招聘求职提供了一个全球性的平台.这是Kaggle的特殊吸引力,它提供的竞赛不仅让你站到不同的高

[Machine Learning] 国外程序员整理的机器学习资源大全

本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). 1. C++ 1.1 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统. 1.2 机器学习 MLPack DLib ecogg shark 2. Closure Closure Toolbox—Clojure语言库与工具的分类目录 3

Advice for Applying Machine Learning & Machine Learning System Design----- Stanford Machine Learning（by Andrew NG）Course Notes

Adviceforapplyingmachinelearning Deciding what to try next 现在我们已学习了线性回归.逻辑回归.神经网络等机器学习算法,接下来我们要做的是高效地利用这些算法去解决实际问题,尽量不要把时间浪费在没有多大意义的尝试上,Advice for applying machine learning & Machinelearning system design 这两课介绍的就是在设计机器学习系统的时候,我们该怎么做? 假设我们实现了一个正则化的线性回

监督学习和无监督学习

监督学习给出一个算法,需要部分数据集已经有正确答案.比如给定房价数据集.监督学习又叫回归问题例子:房价预测,癌症预测无监督学习样本集未作标记,把一组未标记的数据分成多个聚类例子:组织计算机集群,社交网络分析鸡尾酒会问题从背景噪声中提取有效信息. [W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x'); 线性回归比如房价如下: $x_{1}^{(i)}$表示第i个房子的居住面积,$x_{2}^{(i)}$表示第i个房子的卧室数目,因