commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现

commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。

Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。

commoncrawl / commoncrawl

Watch414 Fork86

CommonCrawl Project Repository — More...

http://www.commoncrawl.org

Issues
#10 Add jar to maven central repository? by wiseman  2014-05-14
#9 sameer by sameerpany  2014-03-25
#7 Update binaries path in build.xml by andy-m  2012-10-30
#6 Fix group id for Maven by jseppanen  2012-04-03
#5 VerifyError by gsingers  2012-05-07

master分支代码最近更新:2013-02-14

下载zip

时间: 2024-12-17 18:17:02

commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现的相关文章

window10(64bit)+VS2010编译ACE_TAO源码库

1.下载 ACE+TAO下载地址:http://download.dre.vanderbilt.edu/previous_versions/ VS2010下载地址:https://pan.baidu.com/mbox/homepage?short=c1Z61lm 最新版本6.4.3是用vs2012以上版本编译,本文介绍的ACE_TAO的版本是6.2.6,它VS编译版本是10或11.另外,下载源码库最好不要带src后缀的,sources - only包只  包含源代码,您必须使用MPC生成自己的m

git 强制回滚【覆盖】远程 源码库

场景: 1.代码中没有删除密钥信息就提交到gitlab或者github 上了 2.想要删除gitlab或者github 上已经提交的源码和记录,避免其他人通过gitlab控制台看到密钥信息 操作: 1.通过 git log   确定需要回滚到 某个提交的 commit id 2.git reset --soft commit_id   //--soft 只回滚提交,不会删除提交记录,辛苦编写的代码功能还依然存在:--hard 则把提交记录和已经辛苦编写的代码彻底回滚删除 3.强制提交,覆盖远程g

源码级强力分析Hadoop的RPC机制

分析对象: hadoop版本:hadoop 0.20.203.0 必备技术点: 1. 动态代理(参考 :http://weixiaolu.iteye.com/blog/1477774 )2. Java NIO(参考 :http://weixiaolu.iteye.com/blog/1479656 )3. Java网络编程 目录: 一.RPC协议二.ipc.RPC源码分析三.ipc.Client源码分析四.ipc.Server源码分析 分析:  一.RPC协议 在分析协议之前,我觉得我们很有必要先

Eclipse导入Hadoop源码项目及编写Hadoop程序

一 Eclipse导入Hadoop源码项目 基本步骤: 1)在Eclipse新建一个java项目[hadoop-1.2.1] 2)将Hadoop压缩包解压目录src下的core,hdfs,mapred,tools,example四个目录copy到上述新建项目的src目录下 3)右击选择 Build Path,修改Java Build Path中[Source],删除src,添加src/core,src/hdfs,src/mapred,src/tools几个源码目录: 4)在项目中新建一个lib目

Vue.js 源码分析(二十三) 高级应用 自定义指令详解

除了核心功能默认内置的指令 (v-model 和 v-show),Vue 也允许注册自定义指令. 官网介绍的比较抽象,显得很高大上,我个人对自定义指令的理解是:当自定义指令作用在一些DOM元素或组件上时,该元素在初次渲染.插入到父节点.更新.解绑时可以执行一些特定的操作(钩子函数() 自定义指令有两种注册方式,一种是全局注册,使用Vue.directive(指令名,配置参数)注册,注册之后所有的Vue实例都可以使用,另一种是局部注册,在创建Vue实例时通过directives属性创建局部指令,局

曹工说Spring Boot源码(4)-- 我是怎么自定义ApplicationContext,从json文件读取bean definition的?

写在前面的话 相关背景及资源: 曹工说Spring Boot源码系列开讲了(1)-- Bean Definition到底是什么,附spring思维导图分享 工程代码地址 思维导图地址 工程结构图: 大体思路 总体来说,bean definition是什么,我们前面几讲,说了个大概了:目前,我们将聚焦于怎么获取bean definition. 我们这次做个实验,就是将bean definition(一共两个bean,有依赖关系,依赖是手动指定的)定义在json文件内,然后自定义一个applicat

hadoop mapreduce 自定义InputFormat

很久以前为了满足公司的需求写过一些自定义InputFormat,今天有时间拿出来记一下     需求是这样的,如果如果使用FileInputFormat作为输入,是按照行来读取日志的,也就是按照\n来区分每一条日志的,而由于一条日志中记录着一些错误信息,比如java的异常信息,这些信息本身就带有换行符,如果还是按照\n进行区分每一条日志的话明显是错误的,由于我们日志的特殊性,将以"]@\n"作为区分日志的标识.     接下来就来看看如何自定义InputFormat,还是不画类图了,我

hive源码阅读02-org.apache.hadoop.hive.ql.stats概述

org.apache.hadoop.hive.ql.stats包含的类与接口如下图所示: 其中: 接口: ClientStatsPublisher : 包含run方法,在hive中并没有其他类实现该方法,这个主要用于hive stats扩展使用.具体实现需要由 hive.client.stats.publishers这个参数决定,这个参数是用逗号隔开的stats publisher,这些stats publisher被每一个job调用. 该参数默认为空.其中client stats publis

整合Apache与SVN,让客户端可以用浏览器浏览源码库

之前迁移SVN,因时间问题,没进行Apache整合,只能用svn去访问而不像之前可以用http去访问,同事反应有点不习惯. 所以数据迁移完后,赶紧开始进行Apache与SVN的整合.也简单的记录一下: 1.安装Apache及SVN模块 #yum –y install httpd mod_dav_svn #httpd –version 查看下安装的Apache版本号 #ls /etc/httpd/modules/ | grep svn 查看Apache是否已加载进svn模块 mod_authz_s