Papers on github

Interesting Readings

  • Big Data Benchmark – Benchmark of Redshift, Hive, Shark, Impala and Stiger/Tez.
  • NoSQL Comparison – Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison.

Interesting Papers

2013 – 2014

  • 2014 – Stanford – Mining of Massive Datasets.
  • 2013 – AMPLab – Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices.
  • 2013 – AMPLab – MLbase: A Distributed Machine-learning System.
  • 2013 – AMPLab – Shark: SQL and Rich Analytics at Scale.
  • 2013 – AMPLab – GraphX: A Resilient Distributed Graph System on Spark.
  • 2013 – Google – HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm.
  • 2013 – Microsoft – Scalable Progressive Analytics on Big Data in the Cloud.
  • 2013 – Metamarkets – Druid: A Real-time Analytical Data Store.
  • 2013 – Google – Online, Asynchronous Schema Change in F1.
  • 2013 – Google – F1: A Distributed SQL Database That Scales.
  • 2013 – Google – MillWheel: Fault-Tolerant Stream Processing at Internet Scale.
  • 2013 – Facebook – Scuba: Diving into Data at Facebook.
  • 2013 – Facebook – Unicorn: A System for Searching the Social Graph.
  • 2013 – Facebook – Scaling Memcache at Facebook.

2011 – 2012

  • 2012 – Twitter – The Unified Logging Infrastructure for Data Analytics at Twitter.
  • 2012 – AMPLab – Blink and It’s Done: Interactive Queries on Very Large Data.
  • 2012 – AMPLab – Fast and Interactive Analytics over Hadoop Data with Spark.
  • 2012 – AMPLab – Shark: Fast Data Analysis Using Coarse-grained Distributed Memory.
  • 2012 – Microsoft – Paxos Replicated State Machines as the Basis of a High-Performance Data Store.
  • 2012 – Microsoft – Paxos Made Parallel.
  • 2012 – AMPLab – BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.
  • 2012 – Google – Processing a trillion cells per mouse click.
  • 2012 – Google – Spanner: Google’s Globally-Distributed Database.
  • 2011 – AMPLab – Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.
  • 2011 – AMPLab – Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.
  • 2011 – Google – Megastore: Providing Scalable, Highly Available Storage for Interactive Services.

2001 – 2010

  • 2010 – Facebook – Finding a needle in Haystack: Facebook’s photo storage.
  • 2010 – AMPLab – Spark: Cluster Computing with Working Sets.
  • 2010 – Google – Storage Architecture and Challenges.
  • 2010 – Google – Pregel: A System for Large-Scale Graph Processing.
  • 2010 – Google – Large-scale Incremental Processing Using Distributed Transactions and Noti?cations base of Percolator and Caffeine.
  • 2010 – Google – Dremel: Interactive Analysis of Web-Scale Datasets.
  • 2010 – Yahoo – S4: Distributed Stream Computing Platform.
  • 2009 – HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.
  • 2008 – AMPLab – Chukwa: A large-scale monitoring system.
  • 2007 – Amazon – Dynamo: Amazon’s Highly Available Key-value Store.
  • 2006 – Google – The Chubby lock service for loosely-coupled distributed systems.
  • 2006 – Google – Bigtable: A Distributed Storage System for Structured Data.
  • 2004 – Google – MapReduce: Simplied Data Processing on Large Clusters.
  • 2003 – Google – The Google File System.
时间: 2024-10-10 15:06:34

Papers on github的相关文章

机器学习、深度学习的理论与实战入门建议整理

引言 拿到这份文档时想必你的脑海中一直萦绕着这么一个问题,"机器学习/深度学习要怎么学呢?(怎么入门,又怎么进一步掌握?)".关于这个问题其实并没有一个标准答案,有的人可能适合自底向上的学,也就是先从理论和数学开始,然后是算法实现,最后再通过一些项目去解决生活中的实际问题:有的人则可能适合自顶向下的学,也就是在弄清楚什么是机器学习及为什么学机器学习后,先确定一个系统性的用机器学习来解决实际问题的程序,然后找到一个合适的工具,接着再在各种数据集上做练习以不断加强自己的实践能力与巩固对算法

Python3 爬虫(八) -- BeautifulSoup之再次爬取CSDN博文

序 我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务. 链接:Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文 上一篇,我们学习了BeautifulSoup这样一个优秀的Python库,必须有效利用起来.那么我们就利用BeautifulSoup4重新实现一次爬取csdn博文的任务. 由于我修改了博客配置,首页主题换了一下,我们基于新的主题查看网页,如下图所示: 同样的,确认要提取的信息,以及博文总页数. 分析网页源码

生成对抗网络资源 Adversarial Nets Papers

来源:https://github.com/zhangqianhui/AdversarialNetsPapers AdversarialNetsPapers The classical Papers about adversarial nets The First paper ? [Generative Adversarial Nets] [Paper] [Code](the first paper about it) Unclassified ? [Deep Generative Image

深度学习领域的Papers

https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap 深度学习论文阅读路线图 Deep Learning Papers Reading Roadmap https://zhuanlan.zhihu.com/p/23080129 重磅 | 128篇论文,21大领域,深度学习最值得看的资源全在这了(附一键下载) https://mp.weixin.qq.com/s/8cP3TIlE1IIzkawc69XOug

用python写一个GitHub Trending Api

GitHub 给了开发者相当丰富的 API 接口 https://developer.github.com/v3/,包括认证,搜索,活动等接口,但就是没有提供获取 Trending 的接口.因此,需要自己来实现这个api Github地址: https://github.com/ngauerh/GithubTrendingApi (求个star),一下请求方式均为get请求. 获取热门项目 请求地址: http://132.232.132.144:8009/api 请求结果: { "succes

GitHub限制上传大于100M的单个大文件

工作中遇到这个问题,一些美术资源..unitypackage文件大于100M,Push到GitHub时被拒绝.意思是Push到GitHub的每个文件的大小都要求小于100M. 搜了一下,很多解决办法只是把这些超过100M的大文件从本地版本库中移除,使得Push可以成功.但这并没有解决如何上传大文件到GitHub的问题. 解决办法是使用Git LFS. 用法参考:http://blog.csdn.net/tyro_java/article/details/53440666 按照以上方法设置好后,就

git 把本地创建的项目放到github上

很早之前就注册了Github,但对其使用一直懵懵懂懂,很不熟练.直到昨天做完百度前端技术学院的task,想把代码托管到Github上的时候发现自己对于Git的操作是如此之愚钝,所以今天决定把Git好好学习一遍,好让自己以后能更好地使用Github,主要还是通过Git教程 - 廖雪峰的官方网站来学习.简要步骤可以直接看最后的总结. Git的安装就不说了. 第一步:我们需要先创建一个本地的版本库(其实也就是一个文件夹). 你可以直接右击新建文件夹,也可以右击打开Git bash命令行窗口通过命令来创

如何上传代码到github?

如何上传代码到github? 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可: https://git-for-windows.github.io/ 1.进入Github首页,点击New repository新建一个项目  2.填写相应信息后点击create即可 Repository name: 仓库名称 Description(可选): 仓库描述介绍 Public,

GitHub中的html文件如何直接显示成网页形式

可以通过http://htmlpreview.github.io/这个网站实现 在地址栏中直接输入http://htmlpreview.github.io/+***.html