PHP去重算法的优化过程

最近公司在做一个项目，需要对爬取到的数据进行去重，方法就是根据数据的id，去除掉id重复的数据。

下面是这个方法的演化过程。

// 去重
$arr_id = array();
$LeTVFeedList = array();
for ($i = 0; $i < count($arrFeedList); $i++){
    if(!in_array($arrFeedList[i][‘id‘], $arr_id)){
        $LeTVFeedList[] = $arrFeedList[i];
        $arr_id[] = $arrFeedList[i][‘id‘];
    }
}

从上面的算法中可以看到，上面的算法用了两个数组，两个循环，所以它的时间复杂度为O(n^2)，空间复杂度为O(2n)。上面的算法，我们可以从in_array()入手，考虑下面的因素。

用数组的id作数组下标，来存储爬取到的数据值。

// 去重
$tmp_arr = array();
for ($i = 0; $i < min(count($arrFeedList),10); $i++){
    $tmp_arr[$arrFeedList[$i][‘id‘]] = $arrFeedList[$i];
}
$arrLeTVFeedList = array();
foreach ($tmp_arr as $key => $value){
    $arrLeTVFeedList[] = $value;
}

这里用了两个循环，两个数组，时间复杂度是O(2n),空间复杂度是O(2n).

后来又对循环进行了优化，变成如下代码：

// 去重
$tmp_arr = array();
$arrLeTVFeedList = array();
foreach ($arrFeedList as $key => $value){
    if(!isset($tmp_arr[$key[‘id‘]])){
        $tmp_arr[$key[‘id‘]] = $value;
        $arrLeTVFeedList[] = $value;
    }
}

isset是速度要快于for循环，以上代码是最终版本

时间： 2025-01-10 02:06:05

PHP去重算法的优化过程的相关文章

高斯模糊算法的全面优化过程分享（二）。

相关链接: 高斯模糊算法的全面优化过程分享(一) 在高斯模糊算法的全面优化过程分享(一)一文中我们已经给出了一种相当高性能的高斯模糊过程,但是优化没有终点,经过上一个星期的发愤图强和测试,对该算法的效率提升又有了一个新的高度,这里把优化过程中的一些心得和收获用文字的形式记录下来. 第一个尝试直接使用内联汇编替代intrinsics代码(无效) 我在某篇博客里看到说intrinsics语法虽然简化了SSE编程的难度,但是他无法直接控制XMM0-XMM7寄存器,很多指令中间都会用内

【转】Paxos算法2-算法过程

——转自:{老码农的专栏} 1.编号处理根据P2c ,proposer在提案前会先咨询acceptor查看其批准的最大的编号和value,再决定提交哪个value.之前我们一直强调更高编号的proposal,而没有说明低编号的proposal该怎么处理. |--------低编号(L<N)--------|--------当前编号(N)--------|--------高编号(H>N)--------| P2c 的正确性是由当前编号N而产生了一些更高编号H来保证的,更低编号L在之前某个时刻,

算法的优化（C语言描述）

算法的优化算法的优化分为全局优化和局部优化两个层次.全局优化也称为结构优化,主要是从基本控制结构优化.算法.数据结构的选择上考虑:局部优化即为代码优化,包括使用尽量小的数据类型.优化表达式.优化赋值语句.优化函数参数.全局变量及宏的使用等内容. 一.全局优化 1.优化算法设计例如,在排序中用快速排序或者堆排序代替插入排序或冒泡排序:用较快的折半查找代替顺序查找法等,都可以极大地提高程序的执行效率. 2.优化数据结构例如在一堆随机存放的数中使用了大量的插入和删除指令,那么使用链表要快得多.数

[转] Paxos算法2-算法过程（实现）

请先参考前文:Paxos算法1 1.编号处理根据P2c ,proposer在提案前会先咨询acceptor查看其批准的最大的编号和value,再决定提交哪个value.之前我们一直强调更高编号的proposal,而没有说明低编号的proposal该怎么处理. |--------低编号(L<N)--------|--------当前编号(N)--------|--------高编号(H>N)--------| P2c 的正确性是由当前编号N而产生了一些更高编号H来保证的,更低编号L在之前某个时

最短路的几种算法及其优化（模板）

一.Dijkstra 算法 dijkstra算法适用于边权为正的情况,求单源最短路,适用于有向图和无向图模板伪代码: 清除所有点的标号设d[0]=0,其余d[i]=INF: 循环n次{ 在所有未标记的节点中,寻找d[i]最小的点x 给x做标记对于从x出发的所有边(x,y)更新d[y]=min(d[y],d[x]+w[x,y]); } memset(v,0,sizeof(v)); for(int i=0;i<n;++i) d[i]=(i==0?0:INF); for(int i=0;i<n

关于SPFA算法的优化方式

关于SPFA算法的优化方式这篇随笔讲解信息学奥林匹克竞赛中图论部分的求最短路算法SPFA的两种优化方式.学习这两种优化算法需要有SPFA朴素算法的学习经验.在本随笔中SPFA朴素算法的相关知识将不予赘述. 上课! No.1 SLF优化(Small Label First) 顾名思义,这种优化采用的方式是把较小元素提前. 就像dijkstra算法的堆优化一样.我们在求解最短路算法的时候是采取对图的遍历,每次求最小边的一个过程,为了寻找最小边,我们需要枚举每一条出边,如果我们一上来就找到这个边,那

最优化算法——常见优化算法分类及总结

之前做特征选择,实现过基于群智能算法进行最优化的搜索,看过一些群智能优化算法的论文,在此做一下总结. 在生活或者工作中存在各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成本下,如何使利润最大化"等.最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称. 工程设计中最优化问题(optimalization problem)的一般提法是要选择一组参数(变量),在满足一系列有关的限制条件(约束)下,使设计

高效网页去重算法-SimHash

记得以前有人问过我,网页去重算法有哪些,我不假思索的说出了余弦向量相似度匹配,但如果是数十亿级别的网页去重呢?这下糟糕了,因为每两个网页都需要计算一次向量内积,查重效率太低了!我当时就想:论查找效率肯定是要考虑hash算法,相同字符串的hashcode肯定相同,不同字符串的hashcode却是大不相同,这也不符合要求啊,会不会存在一种算法能够使相似字符串的code值也相同或相似呢,于是就找到了Google的网页去重算法-SimHash.我们在使用SimHash算法前需要根据文档量级选择SimHa

【夯实Mysql基础】记一次mysql语句的优化过程！

1. [事件起因] 今天在做项目的时候,发现提供给客户端的接口时间很慢,达到了2秒多,我第一时间,抓了接口,看了运行的sql,发现就是 2个sql慢,分别占了1秒多. 一个sql是链接了5个表同时使用了 2个 order by和 1个limit的分页 sql. 一个sql是上一个sql的count(*),即链接了5个表,当然没有limit了(取总数). 2. [着手优化] 1)[优化思路] 第一条是做client调用 service层的数据缓存第二条就是优化sql本身. 这里着重讲一下