Big Data Analytics and Data Mining 第一天.

  今天是上课的第一天。真心很感激导师能让我出来学习。今天突然觉得自己要好好学习英语。并不是上课的时候我看不懂裴教授的课件。而是觉得如果英语不好就很像乡巴佬那样,很难接触到高级的东西。
通过今天的听讲,我感觉对数据挖掘的理解更深刻些。 以前总觉得自己研究生的目标是要好好学习算法,好好学习相关的技术。
现在觉得除了要好好学习算法外,我也期待自己能做出一些研究。

  记录下今天讲课的内容。

  今天我觉得主要讲了三部分:

1,数据挖掘相关的概念及相关的学术期刊。

从广义上来定义数据挖掘:The art of data-driven thinking.
 machine learing
的目的是为了学习出来数据上的概率分布。但是裴教授又说无论是机器学习还是数据挖掘等学出来的模型都是错的,只是当前的模型比其他模型更有用。

  几个稍微不太符合正常人想法的结论:(1)在挖掘数据的过程中花时间最多的是数据的提取与预处理。(2)人类利用数据的增长速度大于数据存储能力的增长速度。(3)关键字的搜索区域与飓风的运行轨迹有很强的关系
(4)当数据量达到一定程度的时候,算法的正确率可以可以适当降低要求 ???

  数据挖掘最好的三个会议:KDD,ICDM,SIAM-Data.一个据说相对好发表的杂志是KDD Explorations、

2,云计算。

我听完之后就觉得这个东西是:租用别人的计算服务来完成自己的task。然后动态的可以做各种适配的调整。

什么时候用cloud?
(1)使用寿命不是特别长。(2)使用多少资源预测不出来。(3)不是非常关键的环节。

  3,统计部分。

Significance的定义:如果一个result偶然很难发生,那么它就是Significance。

空假设的概念,第一类、第二类错误。

最大似然估计。 这个回去后得好好看看。 欧姆剃须刀.

实验设计要有三个原则:(1)反复(提高鲁棒性)。(2)sample(尽可能避免bias)(3)忘了

Big Data Analytics and Data Mining 第一天.,布布扣,bubuko.com

时间: 2024-12-08 21:02:07

Big Data Analytics and Data Mining 第一天.的相关文章

Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)

ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g., health care and scientific sensors, user-generated data, Internet and financial companies, and supply chain systems) over the past two decades. The

Big Data Analytics for Security(Big Data Analytics for Security Intelligence)

http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE Security & Privacymagazine and is brought to you by InfoQ & IEEE Computer Society. Enterprises routinely collect terabytes of security-relevant da

12 Top Open Source Data Analytics Apps

1. Hadoop It would be impossible to talk about open source data analytics without mentioning Hadoop. This Apache Foundation project has become nearly synonymous with big data, and it enables large-scale distributed processing of extremely large data

IAB303 Data Analytics Assessment Task

Assessment TaskIAB303 Data Analyticsfor Business InsightSemester I 2019Assessment 2 – Data Analytics NotebookName Assessment 2 – Data Analytics NotebookDue Sun 28 Apr 11:59pmWeight 30% (indicative weighting)Submit Jupyter Notebook via BlackboardRatio

CIS 545 - Big Data Analytics

CIS 545 - Big Data Analytics - Fall 2019 Have you ever wondered about (1) what it takes to be a data scientist or "data person", and (2) how sowork?This homework is focused on (1) working with hierarchical data stored in dataframes, (2) traversi

ELK之kibana的web报错[request] Data too large, data for [<agg [2]>] would be larger than limit of

ELK架构:elasticsearch+kibana+filebeat 版本信息: elasticsearch 5.2.1 kibana 5.2.1 filebeat 6.0.0 (预览版) 今天在进行ELK测试的时候,在kibana上面discover无论那个index,发现均会报错: [request] Data too large, data for [<agg [2]>] would be larger than limit of 并且在elasticsearch的日志可以看到: or

初探 spring data(一)--- spring data 概述

由于自己一个项目要用多到Sql与NoSql两种截然不同的数据结构,但在编程上我希望统一接口API,让不同类型的数据库能在相同的编程接口模式下运作.于是找了一个spring的官网,发现一个spring data的项目.Spring Data 统一所有访问数据库的接口,为开发者提供一个更加简便的开发方式  Spring Data 官网 下面是几个核心的项目介绍 Spring Data Commons - 每个Spring Data 项目的核心基础 (因此每一个Spring Data项目都使用统一的接

SQL data reader reading data performance test

/*Author: Jiangong SUN*/ As I've manipulated a lot of data using SQL data reader in recent project. And people says it's not good to access the data by column name. So I've made an performance test in reading data from SQL data reader. Firstly, I've

Ajax retrieve JSON data and Html data from MVC Controllers in ASP.NET MVC

一. 准备好后台测试数据,过程略 二.客户端处理 @{ ViewBag.Title = "Index"; } <h2>Ajax Demo</h2> <div style="width: 600px; "> <div style="background-color:lightgray"> <h2>Meals</h2> </div> <p>Click th