第一个极小的机器学习的应用

现在给出一个Web统计信息，他们存储着每小时的访问次数。每一行包含连续的小时和信息，以及该小时Web的访问次数。现在要解决的问题是，估计在何时访问量达到基础设施的极限。极限数据是每小时100000次访问。

1.读取数据：

# 获取数据
filepath = r‘C:\Users\TD\Desktop\data\Machine Learning\1400OS_01_Codes\data\web_traffic.tsv‘
data = sp.genfromtxt(filepath,delimiter = ‘\t‘)
x = data[:,0]
y = data[:,1]

其中，x表示小时，y表示访问量。

2.预处理和清洗数据：

print sp.sum(sp.isnan(y))

结果显示含有8个控值，为了方便，在此处理缺失值办法是直接剔除。

x = x[~sp.isnan(y)]
y = y[~sp.isnan(y)]

接下来，画出散点图，观察数据的规律：

# 可视化，观察数据规律
plt.scatter(x,y)
plt.title(‘Web traffic over the last month‘)
plt.xlabel(‘Time‘)
plt.ylabel(‘Hits/hours‘)
plt.xticks([w*24*7 for w in range(5)],
		   [‘week {}‘.format(i) for i in range(5)])
plt.autoscale(tight = True)
plt.grid()
plt.show()

3 选择正确的模型和学习算法：

回答原始问题需要明确以下几点：

1）找到噪声数据后真正的模型

2）使用这个模型预测未来，一遍解决我们的问题

1.首先需要明白模型与实际数据区别。模型可以理解为对复杂现实世界简化的理论近似。它总会包含一些劣质的类容，这个就叫做近似误差。我们用真实数据与模型预测的数据之间的平方距离来计算这个误差，对于一个训练好的模型f，按照下面函数来计算误差：

def error(f,x,y):
	return sp.sum((f(x)-y)**2)

时间： 2024-10-11 09:44:22

第一个极小的机器学习的应用的相关文章

第一章一个极小的机器学习应用构建第一个模型

误差计算使用预测值到真实值距离的平方来计算误差 def error(f,x,y): return sp.sum((f(x)-y)**2) 从一条简单的直线开始 scipy中的polyfit(多项式拟合)函数用户解决这个问题. 给定数据x和y,以及期望的多项式的阶(直线的阶是1)可以找到一个模型,能够最小化之前定义的误差函数 fp1,residuals,rank,sv,rcond = sp.polyfit(x,y,1,full=True) 该函数会把拟合函数所使用的参数返回,即fp1= [ 2.

深度学习（deeplearing）（5月完成）共三部分第一部分应用数学与机器学习（5.1-5.10）线性代数

第一章:线性代数: 学习一个新东西,首先要从概念开始,抓住其核心点机器学习相关问题中,数据集多是以矩阵的形式存在,而模型的参数如W也是以矩阵或向量的形式存在,所以一个模型从数学的角度来说,就是矩阵间的运算,而运算中矩阵相乘的运算又是最常用的运算.本章后半部分讲解了在机器学习中会用到的一些矩阵运算的概念,如范数.行列式. 特征分解.奇异值分解等一.基本单元:标量.向量.矩阵.张量二.

『Python』MachineLearning机器学习入门_极小的机器学习应用

一个小知识: 有意思的是,scipy囊括了numpy的命名空间,也就是说所有np.func都可以通过sp.func等价调用. 简介: 本部分对一个互联网公司的流量进行拟合处理,学习最基本的机器学习应用. 导入包&路径设置: import os import scipy as sp import matplotlib.pyplot as plt data_dir = os.path.join( os.path.dirname(os.path.realpath(__file__)), "..

机器学习-第一周

机器学习-第一周这是机器学习的第一周课程,涉及到的内容较少,主要是认识一下什么是机器学习以及机器学习两个主要的分类:有监督学习和无监督学习.另外,通过一个最基础的线性回归模型来介绍机器学习中的一些相关的概念. 本周内容思维导图 Introduce 什么是机器学习? A computer program is said to learn from experience E with respect to some task T and some performance measure P, if

机器学习基石第一讲笔记

近来觉得机器学习愈发重要.有人推荐了台大林轩田老师讲授的“机器学习基石”,感觉林老师讲得生动清楚,是很好的课程,值得一学. 第一讲介绍了机器学习是什么,使用机器学习的条件,机器学习的模型是怎样的. 1. 机器学习是一种处理复杂系统的方法,这里老师举了4个例子: (1) when human cannot program the system manually --navigating on Mars(2) when human cannot 'define the solution' easil

【机器学习实战】Machine Learning in Action 代码视频项目案例

MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网) 视频每周更新:如果你觉得有价值,请帮忙点 Star[后续组织学习活动:sklearn + tensorflow] ApacheCN - 学习机器学习群[629470233] 第一部分分类 1.) 机器学习基础 2.) k-近邻算法 3.) 决策树 4.) 基于概率论的分类方法:朴素

Andrew Ng的机器学习课程1（from coursera, 2014）

第一周:简介机器学习,有监督学习,无监督学习. 1-1 1-2 1-3 1-4 第二周: 2-1 2-2:介绍cost function定义. 2-3:在回归函数是一个经过原点的直线的情况下,演绎cost function最小化的计算. 2-4:在回归函数是一条直线时,通过等高线演绎cost function最小化的计算. 2-5:简介梯度下降算法,但没有介绍偏微分部分. 2-6:以目标函数是一个经过原点的函数为例演绎梯度下降算法. 2-7:结合线性回归假设和梯度下降算法,得到第一个机器学习算法

机器学习和数据挖掘推荐书单

有了这些书,再也不愁下了班没妹纸该咋办了.慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧! <机器学习实战>:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法.朴素贝叶斯算法.Logistic回归算法.支持向量机.AdaBoost集成方法.基于树的回归算法和分类回归树(CART)算法等.第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法.Apriori算法.FP-Growth算法.第四部分介绍了机器学习算法的一些附属

机器学习的5种“兵法"

大数据文摘作品,欢迎个人转发朋友圈,自媒体.媒体.机构转载务必申请授权,后台留言“机构名称+转载”,申请过授权的不必再次申请,只要按约定转载即可. 作者:Jason Brownlee 译者:Claire 于丽君璐璐畅校对:孙强罗双英在研究机器学习中,理论在其整个自上而下方法中试用于哪里呢? 在传统的机器学习教学中,丰富的数学理论知识对于理解机器学习是至关重要的,我的机器学习教学方法通常是教你如何端对端解决问题以及传输结构. 所以此方法哪里要用到理论知识了呢? 在此帖中你将了解我们是如何理

猜你喜欢

IPV4因特网划分网络

A类ip地址范围 1.0.0.0-126.0.0.0 可用的A类网络有126个 B类ip地址范围 128.0.0.0-191.255.255.255 可用的B类网络有16382个 C类ip地址 ...

Python -- set集合类

class set(object): def add(self, *args, **kwargs): # 添加一项 >>> a {'3', '1', '2'} >>> ...

java面向对象的冒泡排序，选择排序和插入排序的比较

这三种排序有俩个过程: 1.比较俩个数据. 2.交换俩个数据或复制其中一项. 这三种排序的时间级别冒泡排序:比较 (N-1)+(N-2)+...+2+1 = N*(N-1)/2=N2/2 交换 0 ...

依赖注入与对象间关系

依赖注入(DI)是控制反转(IoC)的一种方式.目前,在.NET和Java领域已经有相当多基于DI思想的对象容器,如:Spring,Unity等.本文试图避免重复性地介绍DI基础知识和DI容器的使用, ...

Python过渡性模块重载（递归重载模块）

0.说明因为正常情况下使用reload重载模块时只是重载顶层模块,对于模块内部的import语句并不会执行重载,也就是说,reload执行的重载只是针对底层的,即top level only. 有必 ...

Hadoop-2.X安装与配置

我们以单节点集群为例,演示如何安装在安装Hadoop2.6.0.ssh和jdk的安装在上一篇已介绍,这里不再赘述. 安装步骤: (1)将下载的Hadoop安装包放到指定的目录,比如放到您当前用户的ho ...

玩转Linux之Firefox的卸载与安装以及升级

这里演示Ubuntu12.04和Red Hat Enterprise Linux 6 Ubuntu12.04版: 注意:此处演示命令输入都是在root用户的情况下:即输入su然后根据提示输入密码回车r ...

js计算器

//body <div id="maindiv"> <lable class="lbname">计算器</lable> &l ...

参观迅达云成有感

2015年12月23日,今天我参观了"迅达云成"云计算公司. 这里首先感谢老男孩给我提供的这次机会,还有迅达云成的美女全程陪同及董总的详细讲解! 首先是贵公司美女带领我们参观了办公 ...

Linux rm的一次误用

今天在Linux下误用了一次rm -rf,经历惨痛,记录一下. 原因是我删除了一个文件到回收站,然后点错了将home下的所有东西都删到了回收站,然后我又从回收站拷贝回home目录而不是使用恢复,因为h ...

iOS开发之多线程重点总结

//1.异步并发的队列:是用得比较多的 - (void)touchesBegan:(NSSet *)touches withEvent:(UIEvent *)event { // dispatch_s ...

mine 数据

THE SALT MINE Salt Mine被用于在minion端收集任意数据,并被存放在master并扩散到其他minion,这些数据可以通过salt.modules.mine模块从minion端 ...

[solr] - 数据库导入

这里使用的是mysql测试. 1.先在mysql中建一个表:solr_test 2.插入几条测试数据: 3.用记事本打solrconfig.xml文件,在solrhome文件夹中.E:\solrhom ...

EF返回DataTable并且返回Json数据

public ActionResult GetData() { string data = Request.Form["Data"] ?? ""; using ...

Topshelf + ServiceModelEx + Nlog 从头构建WCF

前言 Topshelf可以很方便的构建windows service,而且在本地开发时也可以构建Console宿主,因此很方便WCF的开发. ServiceModelEx则提供了很多便利的方法来配置w ...

KMP字符串模式匹配详解

KMP字符串模式匹配通俗点说就是一种在一个字符串中定位另一个串的高效算法.简单匹配算法的时间复杂度为O(m*n);KMP匹配算法.可以证明它的时间复杂度为O(m+n).. 一.简单匹配算法先来看一个 ...

锚点的使用和总结

一个简单的锚点的例子 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> &l ...

linux epoll总结

什么是epoll epoll是什么?按照man手册的说法:是为处理大批量句柄而作了改进的poll.当然,这不是2.6内核才有的,它是在2.5.44内核中被引进的(epoll(4) is a new A ...

Freecodecamp 前端初级算法（个人向）

freecodecamp 初级算法地址戳这里 Reverse a String 翻转字符串 1 function reverseString(str) { 2 str=str.split(" ...

美HBO电视遭黑客入侵，《权力的游戏》等1.5TB视频数据被泄露

据外媒报道,有名的美HBO(Home Box Office)电视台遭受网络攻击,其中包括<权利的游戏>.<球手们><104号房>等未播出的内容.而最终结果显示,一共 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.