机器学习特征表达——日期与时间特征做离散处理(数字到分类的映射),稀疏类分组(相似特征归档),创建虚拟变量(提取新特征) 本质就是要么多变少,或少变多

特征表达

接下来要谈到的特征工程类型虽然简单却影响巨大。我们将其称为特征表达。

你的数据并不一定总是理想格式。你需要考虑是否有必要通过另一种形式进行特征表达以获取有用信息。

  • 日期与时间特征: 我们假设你拥有purchase_datetime特征。从中提取purchase_day_of_week与purchase_hour_of_day两项特征可能会更有用。你还可以进行观察聚类以创建诸如purchases_over_last_30_days这类特征。
  • 数字到分类的映射: 假设你拥有years_in_school特征。你可以基于它创建新的grade特征,并分类为“小学”、“初中”和“高中”。
  • 稀疏类分组:假设你拥有一个包含多个类别的特征,但样本量较小。你可以尝试对相似类进行分组,将相似的类别分到一组,然后将剩下的类划分至单一的“其他”类中。
  • 创建虚拟变量 根据你所选取的机器学习实现方法,你可能需要手动地将各分类特征转化为虚拟变量。请务必在稀疏类分组之后再创建虚拟变量。

见:http://www.infoq.com/cn/news/2017/08/Analysis-practices-Feature-Engin

时间: 2024-10-27 03:42:40

机器学习特征表达——日期与时间特征做离散处理(数字到分类的映射),稀疏类分组(相似特征归档),创建虚拟变量(提取新特征) 本质就是要么多变少,或少变多的相关文章

取得日期、时间的各个位置的数字

直接看代码  最直接 //日期处理 NSDate *now = [NSDate date]; NSCalendar *calendar = [NSCalendar currentCalendar]; NSDateComponents *comonents = [calendar components:NSYearCalendarUnit|NSMonthCalendarUnit|NSDayCalendarUnit|NSHourCalendarUnit|NSMinuteCalendarUnit fr

java初级应用----格式化---日期与时间格式化

问题描述: 实际编程过程中,常常要输出日期与时间,也需要对日期与时间进行格式化输出. 日期与时间都可以转化成String对象,所以可以使用String类中的format()函数对日期与时间字符串进行格式化. 编程思路: 1)明确String类中format()函数有两种重载形式: public static String format(String format, Object ... args) 功能:使得字符串按照参数所指定的格式被格式化,并且格式化之后的新字符串使用本地默认的语言环境 @p

[Swift通天遁地]二、表格表单-(16)在表单行内嵌入日期和时间拾取器

本文将演示如何在表单行内嵌拾取器. 在项目导航区,打开视图控制器的代码文件[ViewController.swift] 现在开始编写代码,实现在表单行内嵌入日期和时间拾取器. 1 import UIKit 2 //首先在当前类文件中, 3 //引入以及安装的第三方类库 4 import Eureka 5 6 //修改当前视图控制器类的父类的名称 7 class ViewController: FormViewController { 8 9 override func viewDidLoad()

特征工程之特征表达

? ? ? ? ? 在特征工程之特征选择中,我们讲到了特征选择的一些要点.本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理.主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面. 一.缺失值处理 ? ? ? ? ? 特征有缺失值是非常常见的,大部分机器学习模型在拟合前需要所有的特征都有值,不能是空或者NULL.那么如果有缺失值我们需要怎么处理呢? ? ?首先我们会看是该特征是连续值还是离

笔记(用Python做些事情)--变量(日期和时间)

一个是datetime:日期:Datetime.date.today() 日期和时间:datetime.datetime.now() 1000天之后是哪一天:datatime.timedelta(days=1) 打印格式的问题:Isoformat(),strftime('%m/%d/%Y') 字符串转换:strptime() 一个是time:Datetime.time(12,11,30) Time.time() #实际时间 Time.clock() #cpu时间 Time.sleep() #以秒

用R语言做数据分析(9)——日期与时间格式1

R语言是开源的,同时可以运行在各种平台上(Linux.Windows.MacOS等).R的许多软件包是由R语言. LaTeX.Java及最常用C语言和Fortran撰写.本篇为大家介绍的是R语言日期格式数据.#日期型数据在R中自带的日期形式为:as.Date();以数值形式存储:对于规则的格式,则不需要用format指定格式:如果输入的格式不规则,可以通过format指定的格式读入:标准格式:年-月-日或者年/月/日:如果不是以上二种格式,则会提供错误:as.Date('23-2013-1')错

ios新特征 ARC详解

IOS ARC 分类: IOS ARC2013-01-17 09:16 2069人阅读 评论(0) 收藏 举报 目录(?)[+] 关闭工程的ARC(Automatic Reference Counting) 顺带附上ARC教程 本文部分实例取自iOS 5 Toturail一书中关于ARC的教程和公开内容,仅用于技术交流和讨论.请不要将本文的部分或全部内容用于商用,谢谢合作. 欢迎转载本文,但是转载请注明本文出处:http://www.onevcat.com/2012/06/arc-hand-by

HTML5表单新特征简介与举例

一.前言一撇 其实关于HTML5的表单特征早在去年你必须知道的28个HTML5特征.窍门和技术一文中就有所介绍(在第十一项),不过,有些遗憾的是,此部分的介绍是以视频形式展示的,其实,是视频还好啦,关键是TouTuBe视频,需要越狱观看.得,像我这样安分守已的良民,除了看空姐,其他情况都是懒得fan墙的,所以这部分视频展示的内容,其实就是个空. 所以,这里打个补丁,把这部分内容完善下.本文的大致内容有: # input type=number / # input type=range / # i

Dual Path Networks(DPN)——一种结合了ResNet和DenseNet优势的新型卷积网络结构。深度残差网络通过残差旁支通路再利用特征,但残差通道不善于探索新特征。密集连接网络通过密集连接通路探索新特征,但有高冗余度。

如何评价Dual Path Networks(DPN)? 论文链接:https://arxiv.org/pdf/1707.01629v1.pdf在ImagNet-1k数据集上,浅DPN超过了最好的ResNeXt-101(64×4d),具有26%更小的模型尺寸,25%的计算成本和8%的更低的内存消耗 5 个回答 xiaozhi CV.ML.DL 1.针对视觉识别任务的"网络工程"一直是研究的重点,其重在设计更为高效的网络拓扑结构,一方面考虑更好的特征表示学习,另一方面尽可能减少计算复杂度