第一个极小的机器学习的应用

现在给出一个Web统计信息,他们存储着每小时的访问次数。每一行包含连续的小时和信息,以及该小时Web的访问次数。现在要解决的问题是,估计在何时访问量达到基础设施的极限。极限数据是每小时100000次访问。

1.读取数据:

# 获取数据
filepath = r‘C:\Users\TD\Desktop\data\Machine Learning\1400OS_01_Codes\data\web_traffic.tsv‘
data = sp.genfromtxt(filepath,delimiter = ‘\t‘)
x = data[:,0]
y = data[:,1]

其中,x表示小时,y表示访问量。

2.预处理和清洗数据:

print sp.sum(sp.isnan(y))

结果显示含有8个控值,为了方便,在此处理缺失值办法是直接剔除。

x = x[~sp.isnan(y)]
y = y[~sp.isnan(y)]

接下来,画出散点图,观察数据的规律:

# 可视化,观察数据规律
plt.scatter(x,y)
plt.title(‘Web traffic over the last month‘)
plt.xlabel(‘Time‘)
plt.ylabel(‘Hits/hours‘)
plt.xticks([w*24*7 for w in range(5)],
		   [‘week {}‘.format(i) for i in range(5)])
plt.autoscale(tight = True)
plt.grid()
plt.show()

3 选择正确的模型和学习算法:

回答原始问题需要明确以下几点:

1)找到噪声数据后真正的模型

2)使用这个模型预测未来,一遍解决我们的问题

1.首先需要明白模型与实际数据区别。模型可以理解为对复杂现实世界简化的理论近似。它总会包含一些劣质的类容,这个就叫做近似误差。我们用真实数据与模型预测的数据之间的平方距离来计算这个误差,对于一个训练好的模型f,按照下面函数来计算误差:

def error(f,x,y):
	return sp.sum((f(x)-y)**2)
时间: 2024-10-11 09:44:22

第一个极小的机器学习的应用的相关文章

第一章 一个极小的机器学习应用 构建第一个模型

误差计算 使用预测值到真实值距离的平方来计算误差 def error(f,x,y): return sp.sum((f(x)-y)**2) 从一条简单的直线开始 scipy中的polyfit(多项式拟合)函数用户解决这个问题. 给定数据x和y,以及期望的多项式的阶(直线的阶是1)可以找到一个模型,能够最小化之前定义的误差函数 fp1,residuals,rank,sv,rcond = sp.polyfit(x,y,1,full=True) 该函数会把拟合函数所使用的参数返回,即fp1= [ 2.

深度学习(deeplearing)(5月完成)共三部分 第一部分应用数学与机器学习(5.1-5.10)线性代数

第一章:线性代数: 学习一个新东西,首先要从概念开始,抓住其核心点 机器学习相关问题中,数据集多是以矩阵的形式存在,而模型的参数如W也是以矩阵或向量的形式存在,所以一个模型从数学的角度来说,就是矩阵间的运算,而运算中矩阵相乘的运算又是最常用的运算.本章后半部分讲解了在机器学习中会用到的一些矩阵运算的概念,如范数.行列式. 特征分解.奇异值分解等 一.基本单元:标量.向量.矩阵.张量 二.

『Python』MachineLearning机器学习入门_极小的机器学习应用

一个小知识: 有意思的是,scipy囊括了numpy的命名空间,也就是说所有np.func都可以通过sp.func等价调用. 简介: 本部分对一个互联网公司的流量进行拟合处理,学习最基本的机器学习应用. 导入包&路径设置: import os import scipy as sp import matplotlib.pyplot as plt data_dir = os.path.join( os.path.dirname(os.path.realpath(__file__)), "..

机器学习-第一周

机器学习-第一周 这是机器学习的第一周课程,涉及到的内容较少,主要是认识一下什么是机器学习以及机器学习两个主要的分类:有监督学习和无监督学习.另外,通过一个最基础的线性回归模型来介绍机器学习中的一些相关的概念. 本周内容思维导图 Introduce 什么是机器学习? A computer program is said to learn from experience E with respect to some task T and some performance measure P, if

机器学习基石第一讲笔记

近来觉得机器学习愈发重要.有人推荐了台大林轩田老师讲授的“机器学习基石”,感觉林老师讲得生动清楚,是很好的课程,值得一学. 第一讲介绍了机器学习是什么,使用机器学习的条件,机器学习的模型是怎样的. 1. 机器学习是一种处理复杂系统的方法,这里老师举了4个例子: (1) when human cannot program the system manually --navigating on Mars(2) when human cannot 'define the solution' easil

【机器学习实战】Machine Learning in Action 代码 视频 项目案例

MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网) 视频每周更新:如果你觉得有价值,请帮忙点 Star[后续组织学习活动:sklearn + tensorflow] ApacheCN - 学习机器学习群[629470233] 第一部分 分类 1.) 机器学习基础 2.) k-近邻算法 3.) 决策树 4.) 基于概率论的分类方法:朴素

Andrew Ng的机器学习课程1(from coursera, 2014)

第一周:简介机器学习,有监督学习,无监督学习. 1-1 1-2 1-3 1-4 第二周: 2-1 2-2:介绍cost function定义. 2-3:在回归函数是一个经过原点的直线的情况下,演绎cost function最小化的计算. 2-4:在回归函数是一条直线时,通过等高线演绎cost function最小化的计算. 2-5:简介梯度下降算法,但没有介绍偏微分部分. 2-6:以目标函数是一个经过原点的函数为例演绎梯度下降算法. 2-7:结合线性回归假设和梯度下降算法,得到第一个机器学习算法

机器学习和数据挖掘推荐书单

有了这些书,再也不愁下了班没妹纸该咋办了.慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧! <机器学习实战>:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法.朴素贝叶斯算法.Logistic回归算法.支持向量机.AdaBoost集成方法.基于树的回归算法和分类回归树(CART)算法等.第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法.Apriori算法.FP-Growth算法.第四部分介绍了机器学习算法的一些附属

机器学习的5种“兵法&quot;

大数据文摘作品,欢迎个人转发朋友圈,自媒体.媒体.机构转载务必申请授权,后台留言“机构名称+转载”,申请过授权的不必再次申请,只要按约定转载即可. 作者:Jason Brownlee 译者:Claire 于丽君 璐璐畅 校对:孙强 罗双英 在研究机器学习中,理论在其整个自上而下方法中试用于哪里呢? 在传统的机器学习教学中,丰富的数学理论知识对于理解机器学习是至关重要的,我的机器学习教学方法通常是教你如何端对端解决问题以及传输结构. 所以此方法哪里要用到理论知识了呢? 在此帖中你将了解我们是如何理