大数据对于刚接触的工程师来说,都比较朦胧,其实你已经在用了,比如Goolge搜索引擎,当你想搜索你想要的东西时候,你并不知道后端是怎样的架构,也不知道是怎样来处理庞大PB级数据的,何况这些你也不需要知道,如果这些数据没有一个大规模的分布式计算集群,那可想而知,从PB级数据中获取一条记录,要耗费多长时间。
总之而言,大数据概念上分为两种:一种是从互联网抓取公开信息,记录在索引服务器,能快速检索你需要的数据,比如我想知道某行业内,什么东西讨论最多,哪些网站有违法信息,从而改变营销手段。另一种则是分布式处理海量数据,快速挖掘出有价值信息,比如像百度应用某方面日志,想知道哪些地区访问量高,历史走势等,通过分布式集群处理,几秒就能可视化出你想要的结果。
现代互联网,数据日益增长,过去数据已经是现在的九牛一毛,可见大数据在当今时代,是多么热论的一个话题!也是值得我们去关注的技术。
时间: 2024-10-14 10:59:57