关联分析FPGrowth算法在JavaWeb项目中的应用

关联分析(关联挖掘)是指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。比如,67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些商品频繁地被顾客同时购买,可以帮助零售商制定营销策略。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对顾客进行分类。

FPGrowth算法是韩嘉炜等人在2000年提出的关联分析算法,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构,基于上述数据结构加快整个关联规则挖掘过程。采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-Tree),但仍保留项集关联信息。该算法和Apriori算法最大的不同有两点:第一,不产生候选集,第二,只需要两次遍历数据库,大大提高了效率。

一、前言

首先理解频繁项集中的以下概念:

频繁项:在多个集合中,频繁出现的元素项。

频繁项集:在一系列集合中每项都含有某些相同的元素,这些元素形成一个子集,满足一定阀值就是频繁项集。

K项集:K个频繁项组成的一个集合。

下面用一个例子(事务数据库)说明支持度与置信度,每一行为一个事务,事务由若干个互不相同的项构成,任意几个项的组合称为一个项集。

A  E  F  G
A  F  G
A  B  E  F  G
E  F  G

支持度:在所有项集中出现的可能性。如项集{A,F,G}的支持数为3,支持度为3/4。支持数大于阈值minSuport的项集称为频繁项集。{F,G}的支持数为4,支持度为4/4。{A}的支持数为3,支持度为3/4。
置信度:频繁项与某项的并集的支持度与频繁项集支持度的比值。如{F,G}-->{A}的置信度则为{A,F,G}的支持数除以{F,G}的支持数,即3/4。{A}-->{F,G}的置信度则为{A,F,G}的支持数除以{A}的支持数,即3/3。

综上所述,理论上可以通过FPGrowth算法从频繁集中挖掘相关规则,再通过置信度筛选出规则用于推荐功能。在本人这个JavaWeb项目中,使用FPGrowth算法基于所有用户搜索历史记录,结合当前搜索记录推荐用户可能感兴趣的(置信度大于阈值的搜索记录)、以及其他用户搜索过的(频繁项集中非当前搜索记录)。上述仅是个人观点,如有错误之处还请不吝赐教。

二、正文

1、用户搜索记录实体类:

 1 package entity;
 2
 3 /**
 4  * 用户搜索历史记录
 5  * @author: yjl
 6  * @date: 2018/5/24
 7  */
 8 public class TQueryHistory {
 9
10     private Integer id;
11
12     private String userAccount;    //用户账号
13
14     private String queryCorpName;  //用户搜索的企业
15
16     public TQueryHistory() {
17     }
18
19     public TQueryHistory(String userAccount, String queryCorpName) {
20         this.userAccount = userAccount;
21         this.queryCorpName = queryCorpName;
22     }
23
24     public TQueryHistory(Integer id, String userAccount, String queryCorpName) {
25         this.id = id;
26         this.userAccount = userAccount;
27         this.queryCorpName = queryCorpName;
28     }
29
30     public Integer getId() {
31         return id;
32     }
33
34     public void setId(Integer id) {
35         this.id = id;
36     }
37
38     public String getUserAccount() {
39         return userAccount;
40     }
41
42     public void setUserAccount(String userAccount) {
43         this.userAccount = userAccount;
44     }
45
46     public String getQueryCorpName() {
47         return queryCorpName;
48     }
49
50     public void setQueryCorpName(String queryCorpName) {
51         this.queryCorpName = queryCorpName;
52     }
53
54
55     @Override
56     public String toString() {
57         return "TQueryHistory{" +
58                 "id=" + id +
59                 ", userAccount=‘" + userAccount + ‘\‘‘ +
60                 ", queryCorpName=‘" + queryCorpName + ‘\‘‘ +
61                 ‘}‘;
62     }
63 }

2、FPGrowth挖掘相关规则前的数据准备,类似于上述的事务数据库,corpName为用户当前搜索的企业,最后得到的interestedCorpList与otherSearchCorpList集合分别表示用户感兴趣的企业、其他用户搜索过的企业,若集合数量不足可以根据企业行业等属性补充:

 1 //获取所有用户的搜索记录
 2 List<TQueryHistory> allQueryHistory = searchCorpService.getAllQueryHistory();
 3
 4 //根据用户账号分类
 5 Map<String, Integer> accountMap = new HashMap();
 6 for(TQueryHistory tQueryHistory: allQueryHistory){
 7     accountMap.put(tQueryHistory.getUserAccount(),0);
 8 }
 9
10 //根据已分类账号分配
11 Map<String,List<String>> newQueryHistoryMap = new HashMap<>();
12 for(Map.Entry<String,Integer> entry: accountMap.entrySet()){
13     String account = entry.getKey();
14     List<String> accountTQueryHistoryList = new ArrayList<>();
15     for(TQueryHistory tQueryHistory: allQueryHistory){
16         if(tQueryHistory.getUserAccount().equals(account)){
17             accountTQueryHistoryList.add(tQueryHistory.getQueryCorpName());
18         }
19     }
20     newQueryHistoryMap.put(account,accountTQueryHistoryList);
21 }
22
23 //遍历Map将企业名称写入文件,并传至FPTree
24 String outfile = "QueryHistory.txt";
25 BufferedWriter bw = new BufferedWriter(new FileWriter(outfile));
26 for(Map.Entry<String,List<String>> entry: newQueryHistoryMap.entrySet()){
27     List<String> corpNameList = entry.getValue();
28
29     bw.write(joinList(corpNameList));
30     bw.newLine();
31 }
32 bw.close();
33
34 //Map取值分别放入对应的集合
35 Map<String, List<String>> corpMap = FPTree.introQueryHistory(outfile,corpName);
36 List<String> interestedCorpList = new ArrayList<>();
37 List<String> otherSearchCorpList = new ArrayList<>();
38 for(Map.Entry<String,List<String>> entry: corpMap.entrySet()){
39     if("interestedCorpList".equals(entry.getKey())){
40         interestedCorpList = entry.getValue();
41     }
42     if("otherSearchCorpList".equals(entry.getKey())){
43         otherSearchCorpList = entry.getValue();
44     }
45 }
 1 //设置文件写入规则
 2 private static String joinList(List<String> list) {
 3     if (list == null || list.size() == 0) {
 4         return "";
 5     }
 6     StringBuilder sb = new StringBuilder();
 7     for (String ele : list) {
 8         sb.append(ele);
 9         sb.append(",");
10     }
11     return sb.substring(0, sb.length() - 1);
12 }

3、FPStrongAssociationRule类为强关联规则变量:

 1 package util;
 2
 3 import java.util.List;
 4
 5 public class FPStrongAssociationRule {
 6
 7     public List<String> condition;
 8
 9     public String result;
10
11     public int support;
12
13     public double confidence;
14
15 }

4、FPTreeNode类为FPTree的相关变量:

  1 package util;
  2
  3 import java.util.ArrayList;
  4 import java.util.List;
  5
  6 public class FPTreeNode {
  7
  8     private String name;                    //节点名称
  9     private int count;                      //频数
 10     private FPTreeNode parent;              //父节点
 11     private List<FPTreeNode> children;      //子节点
 12     private FPTreeNode nextHomonym;         //下一个节点(由表头项维护的那个链表)
 13     private FPTreeNode tail;                //末节点(由表头项维护的那个链表)
 14
 15
 16
 17     public FPTreeNode() {
 18     }
 19
 20     public FPTreeNode(String name) {
 21         this.name = name;
 22     }
 23
 24     public String getName() {
 25         return this.name;
 26     }
 27
 28     public void setName(String name) {
 29         this.name = name;
 30     }
 31
 32     public int getCount() {
 33         return this.count;
 34     }
 35
 36     public void setCount(int count) {
 37         this.count = count;
 38     }
 39
 40     public FPTreeNode getParent() {
 41         return this.parent;
 42     }
 43
 44     public void setParent(FPTreeNode parent) {
 45         this.parent = parent;
 46     }
 47
 48     public List<FPTreeNode> getChildren() {
 49         return this.children;
 50     }
 51
 52     public void setChildren(List<FPTreeNode> children) {
 53         this.children = children;
 54     }
 55
 56     public FPTreeNode getNextHomonym() {
 57         return this.nextHomonym;
 58     }
 59
 60     public void setNextHomonym(FPTreeNode nextHomonym) {
 61         this.nextHomonym = nextHomonym;
 62     }
 63
 64     public FPTreeNode getTail() {
 65         return tail;
 66     }
 67
 68     public void setTail(FPTreeNode tail) {
 69         this.tail = tail;
 70     }
 71
 72     //添加子节点
 73     public void addChild(FPTreeNode child) {
 74         if (getChildren() == null) {
 75             List<FPTreeNode> list = new ArrayList<>();
 76             list.add(child);
 77             setChildren(list);
 78         } else {
 79             getChildren().add(child);
 80         }
 81     }
 82
 83     //查询子节点
 84     public FPTreeNode findChild(String name) {
 85         List<FPTreeNode> children = getChildren();
 86         if (children != null) {
 87             for (FPTreeNode child : children) {
 88                 if (child.getName().equals(name)) {
 89                     return child;
 90                 }
 91             }
 92         }
 93         return null;
 94     }
 95
 96
 97     public void countIncrement(int n) {
 98         this.count += n;
 99     }
100
101
102     @Override
103     public String toString() {
104         return name;
105     }
106 }

5、FPTree类为FPGrowth算法挖掘规则,introQueryHistory函数根据传入所有用户的搜索记录以及当前搜索的企业,得到用户可能感兴趣的企业以及其他用户搜索过的企业,以及限制每个集合中的企业数量:

  1 package util;
  2
  3 import java.io.BufferedReader;
  4 import java.io.FileReader;
  5 import java.io.IOException;
  6 import java.text.DecimalFormat;
  7 import java.util.*;
  8 import java.util.Map.Entry;
  9
 10 public class FPTree {
 11
 12     private int minSuport;      //频繁模式的最小支持数
 13     private double confident;   //关联规则的最小置信度
 14     private int totalSize;      //事务项的总数
 15     private Map<List<String>, Integer> frequentMap = new HashMap<>();  //存储每个频繁项及其对应的计数
 16     private Set<String> decideAttr = null; //关联规则中,哪些项可作为被推导的结果,默认情况下所有项都可以作为被推导的结果
 17
 18
 19
 20     public void setMinSuport(int minSuport) {
 21         this.minSuport = minSuport;
 22     }
 23
 24     public void setConfident(double confident) {
 25         this.confident = confident;
 26     }
 27
 28     public void setDecideAttr(Set<String> decideAttr) { this.decideAttr = decideAttr;}
 29
 30
 31
 32     /**
 33      * 获取强关联规则
 34      * @return
 35      * @Description:
 36      */
 37     private List<FPStrongAssociationRule> getRules(List<String> list) {
 38         List<FPStrongAssociationRule> rect = new LinkedList<>();
 39         if (list.size() > 1) {
 40             for (int i = 0; i < list.size(); i++) {
 41                 String result = list.get(i);
 42                 if (decideAttr.contains(result)) {
 43                     List<String> condition = new ArrayList<>();
 44                     condition.addAll(list.subList(0, i));
 45                     condition.addAll(list.subList(i + 1, list.size()));
 46                     FPStrongAssociationRule rule = new FPStrongAssociationRule();
 47                     rule.condition = condition;
 48                     rule.result = result;
 49                     rect.add(rule);
 50                 }
 51             }
 52         }
 53         return rect;
 54     }
 55
 56
 57     /**
 58      * 从若干个文件中读入Transaction Record,同时把所有项设置为decideAttr
 59      * @return
 60      * @Description:
 61      */
 62     public List<List<String>> readTransRocords(String[] filenames) {
 63         Set<String> set = new HashSet<>();
 64         List<List<String>> transaction = null;
 65         if (filenames.length > 0) {
 66             transaction = new LinkedList<>();
 67             for (String filename : filenames) {
 68                 try {
 69                     FileReader fr = new FileReader(filename);
 70                     BufferedReader br = new BufferedReader(fr);
 71                     try {
 72                         String line;
 73                         // 一项事务占一行
 74                         while ((line = br.readLine()) != null) {
 75                             if (line.trim().length() > 0) {
 76                                 // 每个item之间用","分隔
 77                                 String[] str = line.split(",");
 78                                 //每一项事务中的重复项需要排重
 79                                 Set<String> record = new HashSet<>();
 80                                 for (String w : str) {
 81                                     record.add(w);
 82                                     set.add(w);
 83                                 }
 84                                 List<String> rl = new ArrayList<>();
 85                                 rl.addAll(record);
 86                                 transaction.add(rl);
 87                             }
 88                         }
 89                     } finally {
 90                         br.close();
 91                     }
 92                 } catch (IOException ex) {
 93                     System.out.println("Read transaction records failed." + ex.getMessage());
 94                     System.exit(1);
 95                 }
 96             }
 97         }
 98
 99         this.setDecideAttr(set);
100         return transaction;
101     }
102
103
104     /**
105      * 生成一个序列的各种子序列(序列是有顺序的)
106      * @param residualPath
107      * @param results
108      */
109     private void combine(LinkedList<FPTreeNode> residualPath, List<List<FPTreeNode>> results) {
110         if (residualPath.size() > 0) {
111             //如果residualPath太长,则会有太多的组合,内存会被耗尽的
112             FPTreeNode head = residualPath.poll();
113             List<List<FPTreeNode>> newResults = new ArrayList<>();
114             for (List<FPTreeNode> list : results) {
115                 List<FPTreeNode> listCopy = new ArrayList<>(list);
116                 newResults.add(listCopy);
117             }
118
119             for (List<FPTreeNode> newPath : newResults) {
120                 newPath.add(head);
121             }
122             results.addAll(newResults);
123             List<FPTreeNode> list = new ArrayList<>();
124             list.add(head);
125             results.add(list);
126             combine(residualPath, results);
127         }
128     }
129
130     /**
131      * 判断是否为单节点
132      * @param root
133      */
134     private boolean isSingleBranch(FPTreeNode root) {
135         boolean rect = true;
136         while (root.getChildren() != null) {
137             if (root.getChildren().size() > 1) {
138                 rect = false;
139                 break;
140             }
141             root = root.getChildren().get(0);
142         }
143         return rect;
144     }
145
146     /**
147      * 计算事务集中每一项的频数
148      * @param transRecords
149      * @return
150      */
151     private Map<String, Integer> getFrequency(List<List<String>> transRecords) {
152         Map<String, Integer> rect = new HashMap<>();
153         for (List<String> record : transRecords) {
154             for (String item : record) {
155                 Integer cnt = rect.get(item);
156                 if (cnt == null) {
157                     cnt = new Integer(0);
158                 }
159                 rect.put(item, ++cnt);
160             }
161         }
162         return rect;
163     }
164
165     /**
166      * 根据事务集合构建FPTree
167      * @param transRecords
168      * @Description:
169      */
170     public void buildFPTree(List<List<String>> transRecords) {
171         totalSize = transRecords.size();
172         //计算每项的频数
173         final Map<String, Integer> freqMap = getFrequency(transRecords);
174         //每条事务中的项按F1排序
175         for (List<String> transRecord : transRecords) {
176             Collections.sort(transRecord, (o1, o2) -> freqMap.get(o2) - freqMap.get(o1));
177         }
178         FPGrowth(transRecords, null);
179     }
180
181
182     /**
183      * FP树递归生长,从而得到所有的频繁模式
184      * @param cpb  条件模式基
185      * @param postModel   后缀模式
186      */
187     private void FPGrowth(List<List<String>> cpb, LinkedList<String> postModel) {
188         Map<String, Integer> freqMap = getFrequency(cpb);
189         Map<String, FPTreeNode> headers = new HashMap<>();
190         for (Entry<String, Integer> entry : freqMap.entrySet()) {
191             String name = entry.getKey();
192             int cnt = entry.getValue();
193             //每一次递归时都有可能出现一部分模式的频数低于阈值
194             if (cnt >= minSuport) {
195                 FPTreeNode node = new FPTreeNode(name);
196                 node.setCount(cnt);
197                 headers.put(name, node);
198             }
199         }
200
201         FPTreeNode treeRoot = buildSubTree(cpb,headers);
202         //如果只剩下虚根节点,则递归结束
203         if ((treeRoot.getChildren() == null) || (treeRoot.getChildren().size() == 0)) {
204             return;
205         }
206
207         //如果树是单枝的,则直接把“路径的各种组合+后缀模式”添加到频繁模式集中。这个技巧是可选的,即跳过此步进入下一轮递归也可以得到正确的结果
208         if (isSingleBranch(treeRoot)) {
209             LinkedList<FPTreeNode> path = new LinkedList<>();
210             FPTreeNode currNode = treeRoot;
211             while (currNode.getChildren() != null) {
212                 currNode = currNode.getChildren().get(0);
213                 path.add(currNode);
214             }
215             //调用combine时path不宜过长,否则会OutOfMemory
216             if (path.size() <= 20) {
217                 List<List<FPTreeNode>> results = new ArrayList<>();
218                 combine(path, results);
219                 for (List<FPTreeNode> list : results) {
220                     int cnt = 0;
221                     List<String> rule = new ArrayList<>();
222                     for (FPTreeNode node : list) {
223                         rule.add(node.getName());
224                         cnt = node.getCount();  //cnt最FPTree叶节点的计数
225                     }
226                     if (postModel != null) {
227                         rule.addAll(postModel);
228                     }
229                     frequentMap.put(rule, cnt);
230                 }
231                 return;
232             } else {
233                 System.err.println("length of path is too long: " + path.size());
234             }
235         }
236
237         for (FPTreeNode header : headers.values()) {
238             List<String> rule = new ArrayList<>();
239             rule.add(header.getName());
240             if (postModel != null) {
241                 rule.addAll(postModel);
242             }
243             //表头项+后缀模式  构成一条频繁模式(频繁模式内部也是按照F1排序的),频繁度为表头项的计数
244             frequentMap.put(rule, header.getCount());
245             //新的后缀模式:表头项+上一次的后缀模式(注意保持顺序,始终按F1的顺序排列)
246             LinkedList<String> newPostPattern = new LinkedList<>();
247             newPostPattern.add(header.getName());
248             if (postModel != null) {
249                 newPostPattern.addAll(postModel);
250             }
251             //新的条件模式基
252             List<List<String>> newCPB;
253             newCPB = new LinkedList<>();
254             FPTreeNode nextNode = header;
255             while ((nextNode = nextNode.getNextHomonym()) != null) {
256                 int counter = nextNode.getCount();
257                 //获得从虚根节点(不包括虚根节点)到当前节点(不包括当前节点)的路径,即一条条件模式基。注意保持顺序:你节点在前,子节点在后,即始终保持频率高的在前
258                 LinkedList<String> path = new LinkedList<>();
259                 FPTreeNode parent = nextNode;
260                 while ((parent = parent.getParent()).getName() != null) {//虚根节点的name为null
261                     path.push(parent.getName());//往表头插入
262                 }
263                 //事务要重复添加counter次
264                 while (counter-- > 0) {
265                     newCPB.add(path);
266                 }
267             }
268             FPGrowth(newCPB, newPostPattern);
269         }
270     }
271
272     /**
273      * 把所有事务插入到一个FP树当中
274      * @param transRecords
275      * @param headers
276      * @return
277      */
278     private FPTreeNode buildSubTree(List<List<String>> transRecords,final Map<String, FPTreeNode> headers) {
279         FPTreeNode root = new FPTreeNode();//虚根节点
280         for (List<String> transRecord : transRecords) {
281             LinkedList<String> record = new LinkedList<>(transRecord);
282             FPTreeNode subTreeRoot = root;
283             FPTreeNode tmpRoot;
284             if (root.getChildren() != null) {
285                 //延已有的分支,令各节点计数加1
286                 while (!record.isEmpty()
287                         && (tmpRoot = subTreeRoot.findChild(record.peek())) != null) {
288                     tmpRoot.countIncrement(1);
289                     subTreeRoot = tmpRoot;
290                     record.poll();
291                 }
292             }
293             //长出新的节点
294             addNodes(subTreeRoot, record, headers);
295         }
296         return root;
297     }
298
299     /**
300      * 往特定的节点下插入一串后代节点,同时维护表头项到同名节点的链表指针
301      * @param ancestor
302      * @param record
303      * @param headers
304      */
305     private void addNodes(FPTreeNode ancestor, LinkedList<String> record,
306                           final Map<String, FPTreeNode> headers) {
307         while (!record.isEmpty()) {
308             String item = record.poll();
309             //单个项的出现频数必须大于最小支持数,否则不允许插入FP树。达到最小支持度的项都在headers中。每一次递归根据条件模式基本建立新的FPTree时,把要把频数低于minSuport的排除在外,这也正是FPTree比穷举法快的真正原因
310             if (headers.containsKey(item)) {
311                 FPTreeNode leafnode = new FPTreeNode(item);
312                 leafnode.setCount(1);
313                 leafnode.setParent(ancestor);
314                 ancestor.addChild(leafnode);
315
316                 FPTreeNode header = headers.get(item);
317                 FPTreeNode tail=header.getTail();
318                 if(tail!=null){
319                     tail.setNextHomonym(leafnode);
320                 }else{
321                     header.setNextHomonym(leafnode);
322                 }
323                 header.setTail(leafnode);
324                 addNodes(leafnode, record, headers);
325             }
326
327         }
328     }
329
330     /**
331      * 获取所有的强规则
332      * @return
333      */
334     public List<FPStrongAssociationRule> getAssociateRule() {
335         assert totalSize > 0;
336         List<FPStrongAssociationRule> rect = new ArrayList<>();
337         //遍历所有频繁模式
338         for (Entry<List<String>, Integer> entry : frequentMap.entrySet()) {
339             List<String> items = entry.getKey();
340             int count1 = entry.getValue();
341             //一条频繁模式可以生成很多关联规则
342             List<FPStrongAssociationRule> rules = getRules(items);
343             //计算每一条关联规则的支持度和置信度
344             for (FPStrongAssociationRule rule : rules) {
345                 if (frequentMap.containsKey(rule.condition)) {
346                     int count2 = frequentMap.get(rule.condition);
347                     double confidence = 1.0 * count1 / count2;
348                     if (confidence >= this.confident) {
349                         rule.support = count1;
350                         rule.confidence = confidence;
351                         rect.add(rule);
352                     }
353                 } else {
354                     System.err.println(rule.condition + " is not a frequent pattern, however "
355                             + items + " is a frequent pattern");
356                 }
357             }
358         }
359         return rect;
360     }
361
362     /**
363      * 限制List集合中企业数目为5条
364      */
365     private static void limitFiveCorp(List<String> corpList) {
366         if(corpList.size() > 5){
367             Random randomId = new Random();
368             //对随机的5个企业名称排成原来的默认顺序
369             List<Integer> indexes = new ArrayList<>();
370             while(indexes.size() < 5) {
371                 int index = randomId.nextInt(corpList.size());
372                 if(!indexes.contains(index)) {
373                     indexes.add(index);
374                 }
375             }
376             Collections.sort(indexes);
377             //取出indexes对应的list放到newList
378             List<String> tempRelationsCorpList = new ArrayList<>();
379             for(int index : indexes) {
380                 tempRelationsCorpList.add(corpList.get(index));
381             }
382             corpList.clear();
383             corpList.addAll(tempRelationsCorpList);
384         }
385     }
386
387
388     public static Map<String, List<String>> introQueryHistory(String outfile,String corpName) {
389         FPTree fpTree = new FPTree();
390
391         //设置置信度与支持数
392         fpTree.setConfident(0.3);
393         fpTree.setMinSuport(3);
394
395         List<List<String>> trans = fpTree.readTransRocords(new String[] { outfile });
396         for(int i = 1;i < trans.size() - 1;i++){
397             System.out.println("第"+i+"行数据:"+ trans.get(i));
398         }
399
400         fpTree.buildFPTree(trans);
401
402         List<FPStrongAssociationRule> rules = fpTree.getAssociateRule();
403         DecimalFormat dfm = new DecimalFormat("#.##");
404
405         Map<String, String> interestedCorpMap = new HashMap<>();  //需要返回的关联企业(您可能感兴趣的公司)
406         Map<String, String> otherSearchCorpMap = new HashMap<>(); //需要返回的关联企业(其他人还搜过的公司)
407         //根据置信度查询关联企业用于返回感兴趣的公司
408         for (FPStrongAssociationRule rule : rules) {
409             System.out.println(rule.condition + "->" + rule.result + "\t" + dfm.format(rule.support) + "\t" + dfm.format(rule.confidence));
410             List<String> corpCondition = rule.condition;
411             for(int i = 0;i < corpCondition.size();i++){
412                 if(corpName.equals(corpCondition.get(i))){
413                     interestedCorpMap.put(rule.result,dfm.format(rule.confidence));
414                 }
415             }
416             if(corpName.equals(rule.result)){
417                 for(int i = 0;i < corpCondition.size();i++){
418                     if(!corpName.equals(corpCondition.get(i))){
419                         interestedCorpMap.put(corpCondition.get(i),dfm.format(rule.confidence));
420                     }
421                 }
422             }
423         }
424
425         //根据多项集查询关联企业用于返回其它搜过的公司
426         for (FPStrongAssociationRule rule : rules) {
427             List<String> corpCondition = rule.condition;
428             for (int i = 0; i < corpCondition.size(); i++) {
429                 if (corpName.equals(corpCondition.get(i)) && corpCondition.size() > 1) {
430                     for (int j = 0; j < corpCondition.size(); j++) {
431                         if (!corpName.equals(corpCondition.get(j))) {
432                             otherSearchCorpMap.put(corpCondition.get(j), "0.00");
433                         }
434                     }
435                 }
436             }
437         }
438
439
440         List<String> interestedCorpList = new ArrayList<>();
441         List<String> otherSearchCorpList = new ArrayList<>();
442         for(Map.Entry<String,String> entry: interestedCorpMap.entrySet()){
443             interestedCorpList.add(entry.getKey());
444         }
445         for(Map.Entry<String,String> entry: otherSearchCorpMap.entrySet()){
446             otherSearchCorpList.add(entry.getKey());
447         }
448
449         limitFiveCorp(interestedCorpList);
450         limitFiveCorp(otherSearchCorpList);
451
452         Map<String, List<String>> corpMap = new HashMap<>();
453         corpMap.put("interestedCorpList",interestedCorpList);
454         corpMap.put("otherSearchCorpList",otherSearchCorpList);
455
456         return corpMap;
457     }
458
459
460 }

附上控制台打印部分截图:

三、总结

在上面的代码中将整个事务数据库传给FPGrowth,在实际中这是不可取的,因为内存不可能容下整个事务数据库,我们可能需要从关系数据库中一条一条地读入来建立FP-Tree。但无论如何 FP-Tree是肯定需要放在内存中的,但内存如果容不下怎么办?另外FPGrowth仍然是非常耗时的,想提高速度怎么办?解决办法:分而治之,并行计算。

在实践中,关联规则挖掘可能并不像人们期望的那么有用。一方面是因为支持度置信度框架会产生过多的规则,并不是每一个规则都是有用的。另一方面大部分的关联规则并不像“啤酒与尿布”这种经典故事这么普遍。关联规则分析是需要技巧的,有时需要用更严格的统计学知识来控制规则的增殖。

本文部分学习参考了:http://www.cnblogs.com/zhangchaoyang/articles/2198946.html

          https://www.cnblogs.com/sddai/p/7486945.html

至此是关于关联分析FPGrowth算法在JavaWeb项目中的应用,上述仅是个人观点,仅供参考。

如有疏漏错误之处,还请不吝赐教!

原文地址:https://www.cnblogs.com/yijialong/p/9763813.html

时间: 2024-10-25 06:49:42

关联分析FPGrowth算法在JavaWeb项目中的应用的相关文章

JavaWeb 项目中的绝对路径和相对路径以及问题的解决方案

最近在做JavaWeb项目,总是出现各种的路径错误,而且发现不同情况下 /  所代表的含义不同,导致在调试路径上浪费了大量时间. 在JavaWeb项目中尽量使用绝对路径  因为使用绝对路径是绝对不会出错的,而使用相对路径可能会出现错误. 首先 说下在JavaWeb项目中的绝对路径和相对路径的含义 绝对路径: 相对于当前Web应用根路径的路径  也就是任何路径都必须要带上contextPath =  http://localhost:8080/WebProject/ 相对路径: 相对于当前目录的路

log4j在javaWeb项目中的使用

在前边的文章中对log4j的配置文件进行了说明,今天介绍如何在普通的javaWeb项目中使用log4j. 在日常的开发过程中,日志使用的很频繁,我们可以利用日志来跟踪程序的错误,程序运行时的输出参数等,很多情况下可能会使用System.out.println()这个方法,但是还有一种更加简洁的方式,那就是使用日志框架,今天就看看log4j这个日志框架如何在javaWeb的类中使用. 一.log4j的配置文件 我们要使用log4j必须要有log4j的配置文件,前面一篇文章提到,log4j的配置文件

javaWeb项目中web.xml的xsd( XML Schemas Definition)文件

<?xml version="1.0" encoding="UTF-8"?> <xsd:schema xmlns="http://www.w3.org/2001/XMLSchema" targetNamespace="http://java.sun.com/xml/ns/javaee" xmlns:javaee="http://java.sun.com/xml/ns/javaee" xml

Druid使用起步—在javaWeb项目中配置监控 连接池

当我们在javaWEB项目中使用到druid来作为我们的连接池的时候,一定不会忘了添加监控功能.下面我们就来看一下,在一个简单的web项目中(尚未使用任何框架)我们是如果来配置我们的web.xml来完成我们的监控配置 首先是过滤器filter的配置,在web.xml中添加如下配置 <servlet> <servlet-name>DruidStatView</servlet-name> <servlet-class>com.alibaba.druid.supp

对于JavaWeb项目中web.xml文件中Servlet的基本配置有一些小记录写在这里,并做参考,有新的及时更新

对于JavaWeb项目中web.xml文件中Servlet的基本配置有一些小记录写在这里,并做参考,有新的及时更新 <?xml version="1.0" encoding="UTF-8"?> <web-app> <!-- 在创建web项目时,若是系统自动生成,上面会有一串配置信息,因为不影响大局,这里没有列出--> <!-- 流程: 当在网页中使用/login时,发现不是网页,则会在web.xml找寻对应的名字,由url-

透彻分析和解决一切javaWeb项目乱码问题

前言 乱码是我们在程序开发中经常碰到且让人头疼的一件事,尤其是我们在做javaweb开发,如果我们没有清楚乱码产生的原理,碰到乱码问题了就容易摸不着头脑,无从下手. 乱码主要出现在两部分,如下: 第一,浏览器通过表单提交到后台,如果表单内容有中文,那么后台收到的数据可能会出现乱码. 第二,后端服务器需要返回给浏览器数据,如果数据中带有中文,那么浏览器上可能会显示乱码. 接下来我们逐一分析乱码产生的原因,以及如何解决乱码问题. 一.后端收到浏览器提交的中文乱码 这里又分为get请求和post请求.

【转】常见算法在实际项目中的应用

原文转自:http://blog.jobbole.com/52669/ 近日Emanuele Viola在Stackexchange上提了这样的一个问题,他希望有人能够列举一些目前软件.硬件中正在使用的算法的实际案例来证明算法的重要性,对于大家可能给到的回答,他还提出了几点要求: 使用这些算法的软件或者硬件应该是被广泛应用的: 例子需要具体,并给出确切的系统.算法的引用地址: 在经典的本科生或者博士的课程中应该教过这些算法或者数据结构: Vijay D的回复获得了最佳答案,他的具体回复内容如下:

使用 FP-growth 算法高效挖掘海量数据中的频繁项集

前言 对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到. 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的.在实际的大数据应用中,这么做就更不好了. 本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法. 它只会扫描数据集两次,能循序挖掘出频繁项集.因此这种算法在网页信息处理中占据着非常重要的地位. FP-growth 算法基本原理 将数据存储到一种成为 FP 树的数据结构中,这样的一棵树包含了数据集中满足最小支持度阈值的所有节点信

javaWeb项目中如何实现在线查看pdf文件

最近有需求要实现在网页直接查看pdf,word,excel文件.但是实际当中并没有很好的开源插件供我们使用,确实有一些付费的插件不错,也很好用,但是对于我来说都不适合. 现在只是单纯的找到了围魏救赵的方法. 就是先实现显示pdf文件,其他文件用别的方式去转成pdf.虽然这个方法确实不好,但是也是没有办法的办法了,如果以后能有更好的,那就再发布别的吧. 这里我就直接介绍pdf的显示方法. 直接上干货. 首先在E:\tomcat8\webapps这个目录下面拷贝下面这个文件 http://yunpa