做统计特征需要注意的事项

1、要清楚的知道如果有两个样本他们的特征相似,是否就真的代表他们在现实世界中对预测结果的影响是相似的,否则这个就不是特征。

2、要避免陷入自己计算自己的怪圈,会导致过拟合。

3、采用一个样本的统计特征会比这个样本的本身的特征来预测效果要好。

4、要相信人类才是这个世界的最高智慧,建立模型的时候合理思考究竟是什么对预测的结果会有影响,这些影响是怎么组织起来的,这些思考是建立模型的关键。

5、合理的计算方式来自于对于原始数据合理的理解。

原文地址:http://blog.51cto.com/yixianwei/2144900

时间: 2024-08-02 00:31:54

做统计特征需要注意的事项的相关文章

变量类型|数据类型|统计特征|

生物统计学-描述统计 首先必须明确:生物实验的总体是无穷个,而研究人员做生物实验得到的数据永远是样本.因为不同类别的变量指向不同的统计方法,所以必须首先明确变量类型. 变量类型有: 其中,类别变量的本质是字符串,数值变量的本质是数值型,所以,虽然有些类别变量表现为数字,但将它们做运算的结果是没有任何意义的. 数据类型的分类依据有: 获取方式(观测数据:实验数据).衡量尺度(数值型数据:顺序数据:分类数据).属性(定性数据:定量数据).数学性质(离散数据:连续数据).....: 其中,二次数据需注

shell统计特征数量

今天太懒了,不想一个特征一个特征去统计,随手写了个脚本 #!/bin/bash dir_bas=$(cd $(dirname ${0});pwd) A=`cat $dir_bas/feat` feat_bas=$1 total=0 for B in $A do echo $B count=`grep "$B" $feat_bas | wc -l` echo $count ((total=$count+$total)) done echo "total feat num is

新手做自媒体要注意哪些事项?新手做自媒体必备技巧

现在随着互联网和移动互联网的发展,很多也都喜欢看那些偶尔弹出的自媒体新闻.这也造成了大量的人开始进入自媒体这个行业.但是这也就出现了 一种情况,很多新手不懂的,就盲目的进入这个行业.领域不会选择.规则不懂,不知道怎么去写文章,只知道去搬运.这样很容易就造成违规甚至封号, 那么你这一切的努力只是白费的.新手你在做自媒体之前,一定要先了解一些注意事项! 第一:领域的选择,一般做自媒体选择领域一定,太过于冷门的领域不要选择,太过热门的领域也不要选择.冷门的领域看的人少,热门的领域做的人 又比较多,你一

使用Python做单机特征工程

目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 无量纲化与正则化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper 3.2.1 递归特征消除法 3.3 Embedded 3.3.1 基于惩罚项的特征选择法 3.3.2 基于

使用sklearn做单机特征工程

目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper 3.2.1 递归特征消除法 3.3 Embedded 3.3.1 基于惩罚项的特征选择法 3.3.2 基于树

如何实现用DataGridView来做统计表格

1.如何默认创建一个DataGridview为默认单元格数(n行m列) // dataGridViewG1 // this.dataGridViewG1.AllowUserToAddRows = false; this.dataGridViewG1.AllowUserToDeleteRows = false; this.dataGridViewG1.ColumnHeadersHeightSizeMode = System.Windows.Forms.DataGridViewColumnHeade

关于Java类Calendar做统计时 获取日期的一些常见操作

1.获取本周的周一到周日 //通过调整日历,获得本天所属周的周一和周日 SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal=new GregorianCalendar(); cal.setFirstDayOfWeek(Calendar.MONDAY); cal.setTime(new Date()); cal.set(Calendar.DAY_OF_WEEK, cal.getFirstDayOf

shell做统计发邮件

实现的功能 1.连接数据库 2.执行SQL 3.结果发邮件 4.使用crontab定时执行 使用到的shell命令 1.date 本次用到的是date的格式,并从当前时间的前一天 #当前时间输出格式2019-12-12 12:12:12 date "+%Y-%m-%d %H:%M:%S" #当前时间前一天时间 date -d '-1days'+"%Y-%m-%d %H:%M:%S" 2.mysql 3.sendmail 4.cat /etc/shells 查看系统中

特征的生命周期

前言:传统的数据挖掘中都是在提取特征上做文章,而这又很大程度上取决于工程师自身的特征工程能力以及业务处理中的多年经验,所以想写一篇文章总结下这其中有脉可循的规律 摘要: 1.特征的可用性评估 2.特征的修剪 3.特征的可视化 4.特征的监控 5.特征的维护 内容: 1.特征的可用性评估 如果特征的缺失率高,并且不是重要性特征,可以直接弃用 如果特征方差小,说明特征的区分性并不高,可以删去这部分特征 2.特征的修剪: 识别对于模型有害的离群值/异常值(3倍标准差),或者只取数据分布中占80%的数据