基于K-means Clustering聚类算法对电商商户进行级别划分(含Octave仿真)

在从事电商做频道运营时,每到关键时间节点,大促前,季度末等等,我们要做的一件事情就是品牌池打分,更新所有店铺的等级。例如,所以的商户分入SKA,KA,普通店铺,新店铺这4个级别,对于不同级别的商户,会给予不同程度的流量扶持或广告策略。通常来讲,在一定时间段内,评估的维度可以有:UV,收订金额,好评率,销退金额,广告位点击率,转化率,pc端流量、手机端流量、客单价......等n多个维度,那么如何在这n多个维度中找到一种算法,来将我们的品牌划分到4个级别中呢?今天所讨论的K-means聚类算法是其中一种,基于某电商频道296个品牌的周销量真实数据,我们来进行品牌池划分。

首先, K-means聚类算法可以描述为如下几步:

1、随机选取K个质心(centroids);

2、计算每个数据点距离K个质心的距离,选择距离最小的一个质心作为该数据点的所属组。例如,某数据点距离#3质心最近,那么它就属于#3组。

3、更新质心的坐标,将每个组的数据点坐标相加求平均值,得出新的质心位置并更新。

4、重复第二和第三步n次。

其中,K和n是提前指定的。

为了将K-means运行过程可视化,我们只取296的品牌的2个维度:UV与收订金额。主控代码如下:

%% ================= Part 1: load data ====================
fprintf(‘load parameters.\n\n‘);
pkg load io;
tmp = xlsread(‘data.xlsx‘);
id=tmp(:,1);
X=tmp(:,2:3);

%% =================== Part 2: set parameters ======================
K = 4;
max_iters = 10;

%% =================== Part 3: K-Means Clustering ======================
fprintf(‘\nRunning K-Means clustering on example dataset.\n\n‘);
initial_centroids = kMeansInitCentroids(X,K);
% Run K-Means algorithm. The ‘true‘ at the end tells our function to plot
% the progress of K-Means
[centroids, idx] = runkMeans(X, initial_centroids, max_iters, true);
fprintf(‘\nK-Means Done.\n\n‘);

K-Means Clustering Algorithm核心代码:

function [centroids, idx] = runkMeans(X, initial_centroids, ...
                                      max_iters, plot_progress)
[m n] = size(X);
K = size(initial_centroids, 1);
centroids = initial_centroids;
previous_centroids = centroids;
idx = zeros(m, 1);

% Run K-Means
for i=1:max_iters

    % Output progress
    fprintf(‘K-Means iteration %d/%d...\n‘, i, max_iters);
    if exist(‘OCTAVE_VERSION‘)
        fflush(stdout);
    end

    % For each example in X, assign it to the closest centroid
    idx = findClosestCentroids(X, centroids);

    % Given the memberships, compute new centroids
    centroids = computeCentroids(X, idx, K);
end
end

选择最近质心的算法:

function idx = findClosestCentroids(X, centroids)
K = size(centroids, 1);
idx = zeros(size(X,1), 1);
m = size(X,1);

for(i = 1:m)
  distance = -1;
  index = -1;
  for(j=1:K)
    e = X(i,:)-centroids(j,:);
    d_tmp = e*e‘;
    if(distance == -1)
      distance = d_tmp;
      index = j;
    else
      if (d_tmp<distance)
        distance = d_tmp;
        index = j;
      endif
    endif
  endfor
  idx(i) = index;
endfor
end

重新计算质心及初始化质心的算法:

function centroids = computeCentroids(X, idx, K)
[m n] = size(X);
centroids = zeros(K, n);

num = zeros(K,1);

for(i = 1:m)
  c = idx(i,:);
  centroids(c,:) += X(i,:);
  num(c,:)++;
endfor

centroids = centroids./num;

function centroids = kMeansInitCentroids(X, K)
centroids = zeros(K, size(X, 2));
randidx = randperm(size(X, 1));
centroids = X(randidx(1:K), :);
end

经过十次迭代后,分组的结果如下:

在我本地的原始数据表格中,共有约20个维度来衡量每个店铺的运行情况,根据K-means聚类算法可以很轻松的将它们归类,虽然无法将其进行可视化操作,但原理与二维K-means完全相同。

时间: 2024-09-28 23:43:53

基于K-means Clustering聚类算法对电商商户进行级别划分(含Octave仿真)的相关文章

基于位置信息的聚类算法介绍及模型选择

百度百科 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类.由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异."物以类聚,人以群分",在自然科学和社会科学中,存在着大量的分类问题.聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法.聚类分析起源于分类学,但是聚类不等于分类.聚类与分类的不同在于,聚类所要求划分的类是未知的. 分类和聚类算法一直以来都是数据挖掘,机器学习领域的热门课题,因此产生了众多的

R语言最优聚类数目k改进kmean聚类算法

原文链接:http://tecdat.cn/?p=7237 在本文中,我们将探讨应用聚类算法(例如k均值和期望最大化)来确定集群的最佳数量时所遇到的问题之一.从数据集本身来看,确定集群数量的最佳值的问题通常不是很清楚.在本文中,我们将介绍几种技术,可用于帮助确定给定数据集的最佳k值.  我们将在当前的R Studio环境中下载数据集: StudentKnowledgeData <-read_csv(“ YourdownloadFolderPath / StudentKnowledgeData.c

实现基于LVS负载均衡集群的电商网站架构

具体如何实现电商网站请参看博客:http://13150617.blog.51cto.com/13140617/1978954 实验一.实现基于NAT模式的LVS负载均衡: 准备三台主机:一台Director(桥接网卡.仅主机网卡): DIP:192.168.199.145 VIP:172.17.111.117 一台后台服务器(仅主机):RIP:192.168.199.146  配置有电商网站 一台后台服务器(仅主机):RIP:192.168.199.143  配置有电商网站 步骤: 一.Dir

下载基于.NET架构的农产品大数据电商平台全程实录(MVC、Web API、WCF、Redis、Solr)

转一播放码,需要少许费用,联系QQ:380539674180多节,课程下载地址:http://pan.baidu.com/s/1o7MIuU2一.果多芬电商系统前台部分讲解:  第一讲 果多芬电商平台概述及开发环境搭建  第二讲 数据库设计说明及注意事项  第三讲 项目用到的工具开发  第四讲 电商项目搭建及调试  第五讲 电商项目统一异常.认证.日志处理  第六讲 电商项目公共部分功能实现  第七讲 网站首页开发:两种菜单前台展示  第八讲 网站首页开发:两种菜单后台支撑及部分视图优化  第九

K神讲故事:领导做电商

背景:很久以前,有个小领导B,想做一个淘宝一样的电商.就找了一套shopaaa的开源系统,然后招开发来改系统. 1.开发X 很快就招到了第一个人开发X,X来上班的第一天. 领导B说:来,加个团购.再加个众筹. 开发X:...... 领导B:很简单,不就是一个页面吗. 3天能搞定吧. 不行啊,那一周呢. 一周还搞不定,,,我一个月8k招你来干嘛! 卷铺盖,走人. 开发X就离职了. 2.架构Y 过了2周,领导B花了1万3重招一个架构Y. 然后领导B跟Y说:我们这个电商系统,支付多个商户开店吧 架构Y

企业实战-实现基于LVS负载均衡集群的电商网站架构

实现LVS-DR工作模式: 环境准备:一台centos系统做DR.两台实现过基于LNMP的电子商务网站 机器名称 IP配置 服务角色 备注 lvs-server VIP:172.17.252.110 DIP:172.17.250.223 负载均衡器 开启路由功能 (VIP桥接) rs01 RIP:172.17.251.245 后端服务器 网关指向DIP(桥接) rs02 RIP:172.17.252.87 后端服务器 网关指向DIP(桥接) 实验步骤: 一.安装: 1.yum install i

基于rabbitMQ 消息延时队列方案 模拟电商超时未支付订单处理场景

前言 传统处理超时订单 采取定时任务轮训数据库订单,并且批量处理.其弊端也是显而易见的:对服务器.数据库性会有很大的要求,并且当处理大量订单起来会很力不从心,而且实时性也不是特别好 当然传统的手法还可以再优化一下,即存入订单的时候就算出订单的过期时间插入数据库,设置定时任务查询数据库的时候就只需要查询过期了的订单,然后再做其他的业务操作 jdk延迟队列 DelayQueue 采取jdk自带的延迟队列能很好的优化传统的处理方案,但是该方案的弊.端也是非常致命的,所有的消息数据都是存于内存之中,一旦

简单易学的机器学习算法——基于密度的聚类算法DBSCAN

一.基于密度的聚类算法的概述 最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks>引起了大家的关注(在我的博文"论文中的机器学习算法--基于密度峰值的聚类算法"中也进行了中文的描述).于是我就想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. 基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域.与基于距离的聚

机器学习:Python实现聚类算法(三)之总结

考虑到学习知识的顺序及效率问题,所以后续的几种聚类方法不再详细讲解原理,也不再写python实现的源代码,只介绍下算法的基本思路,使大家对每种算法有个直观的印象,从而可以更好的理解函数中参数的意义及作用,而重点是放在如何使用及使用的场景. (题外话: 今天看到一篇博文:刚接触机器学习这一个月我都做了什么?  里面对机器学习阶段的划分很不错,就目前而言我们只要做到前两阶段即可) 因为前两篇博客已经介绍了两种算法,所以这里的算法编号从3开始. 3.Mean-shift 1)概述 Mean-shift