SeimiAgent——基于QtWebkit的通用网页渲染代理服务

SeimiAgent

SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。SeimiAgent的加载渲染环境都是通用浏览器级的,所以不用担心他对动态页面的处理能力。目前SeimiAgent只支持返回渲染好的HTML文档,后续会增加图像快照已经PDF的支持,方便更为多样化的使用需求。

项目托管

GitHub SeimiAgent

下载

目前暂时只支持下面这两个平台的二进制版本的维护更新,其他平台暂时需要自行编译构建

快速开始

cd /dir/of/seimiAgent
./SeimiAgent -p 8000

执行命令后,SeimiAgent会起一个http服务并监听你所指定的端口,如例子中的8000端口,然后你就可以通过任何一种你熟悉的语言像SeimiAgent发送一个页面的加载渲染请求,并得到SeimiAgent渲染好的HTML文档进行后续处理。

支持的http参数

仅支持post请求

  • url 
    目标请求地址,必填项
  • renderTime 
    在所有资源都加载好了以后留给SeimiAgent去渲染处理的时间,如果是很复杂的动态页面这个时间可能就需要长一些,具体根据使用情况进行调整。非必填
  • proxy 
    告诉SeimiAgent使用什么代理,非必填,格式:http|https|socket://user:[email protected]:port
  • postParam 
    这个参数只接受Json格式的值,值的形式为key-value对,告诉SeimiAgent此次请求为post并使用你给定的参数。
  • useCookie 
    是否使用cookie,如果设置为1则为使用cookie

如何构建

这个过程会花费很长时间如果你觉着很有必要的话,一般情况下更推荐使用发布好的二进制可执行文件

依赖

  • ubuntu上
sudo apt-get install build-essential g++ flex bison gperf ruby perl libsqlite3-dev libfontconfig1-dev libicu-dev libfreetype6 libssl-dev libpng-dev libjpeg-dev python libx11-dev libxext-dev
  • centos上
yum -y install gcc gcc-c++ make flex bison gperf ruby openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel libpng-devel libjpeg-devel

执行

python build.py

接下来就等吧,国内网络不好可能还要重来(因为需要先从github上下载qtbase和qtwebkit这两个依赖,后续如果有时间会把qtbase和qtwebkit拷到国内仓库一份),4核I5大概半个小时以上,单核云主机一般2个小时左右,16核以上服务器编译一般在十分钟以内

More

更多文档还在准备中,感谢大家支持Seimi家族(SeimiCrawler,SeimiAgent)

时间: 2024-11-10 13:47:28

SeimiAgent——基于QtWebkit的通用网页渲染代理服务的相关文章

有关网页渲染,每个前端开发者都该知道的那点事

[编者按]其实,有关网页渲染的文章很多,但是相关信息比较分散,且论述并不是很完整.如果要想对这个主题有个大致的了解,我们还得学习很多知识.因此,Web开发者Alexander Skutin 决定写一篇文章.他相信,这篇文章不仅能帮助初学者,也能对那些想要刷新知识结构的高级前端开发者有所裨益.原文地址 译文如下: 网页渲染必须在很早的阶段进行,可以早到页面布局刚刚定型.因为样式和脚本都会对网页渲染产生关键性的影响.所以专业开发者必须了解一些技巧,从而避免在实践的过程中遇到性能问题. 这篇文章不会研

webkit技术--网页渲染原理

Webkit渲染 Webkit 是苹果发起的一个开源项目,后来谷歌用这个项目以 webkit 创建了一个新的项目 Chromium,我们平常用的 Chrome 浏览器一般都是基于 Chromium 开发出来的稳定版本.本文主要介绍浏览器的渲染引擎即 webkit内核.webkit 作为浏览器的渲染引擎能够将 html/css/js文本及相应的资源文件转换成图像结果. 1.内部模块结构图如下: 可以看出渲染引擎大致包括HTML解释器,CSS解释器,布局和JavaScript引擎等模块.这些模块可能

对网页渲染的初步认识

老实说,这篇博客是看了园子里的OneAPM官方技术博客关于有关网页渲染,每个前端开发者都该知道的那点事来写的,真心觉得不错,对于想做前段开发的程序员来说,是不可不知知的知识. 浏览器是如何完成网页渲染的? 网页渲染时,浏览器的动作有: 根据来自服务器的html代码形成文档对象模型(DOM) 加载并解析样式,形成CSS对象 在文档对象模型和CSS对象模型之上,创建一棵由一组待生成渲染的对象组成的渲染树(在Webkit(典型代表是Google Chrome)中这些对象被称为渲染器或渲染对象,而在Ge

影响网页渲染的关键!

经常有站长.开发者.运维疑惑:为什么我们的后台服务器很快,但是用户要看网页里面的内容却需要很长时间?我们在上一篇文章<怪兽大作战: 解析网站打开慢的原因>中简单介绍了影响网站打开速度的几个指标,感兴趣的同学可以再读一下.今天我们主要讲一下,是哪些因素拖慢了我们的首屏加载时间,也就是用户看到网页中内容时所等待的时间. 用过OneAPM的读者对这幅图肯定不陌生,一般来讲,如果服务器很快,机房所在线路很快,那么影响用户看到网页内容的主要时间,就是最后两个时间阶段:DOM处理以及网页渲染,在这两个阶段

影响网页渲染的关键

经常有站长.开发者.运维疑惑:为什么我们的后台服务器很快,但是用户要看网页里面的内容却需要很长时间?我们在上一篇文章<怪兽大作战: 解析网站打开慢的原因>中简单介绍了影响网站打开速度的几个指标,感兴趣的同学可以再读一下.今天我们主要讲一下,是哪些因素拖慢了我们的首屏加载时间,也就是用户看到网页中内容时所等待的时间. 用过OneAPM的读者对这幅图肯定不陌生,一般来讲,如果服务器很快,机房所在线路很快,那么影响用户看到网页内容的主要时间,就是最后两个时间阶段:DOM处理以及网页渲染,在这两个阶段

前端开发工程师应知应会之网页渲染(翻译)

作者:Alexander Skutin , 2014.5.26 . 由Max shirshin与2014年6月30日翻译(俄语 -> 英语) 现今我们应更加注重网页渲染,及其在web开发中的重要性.虽然很多文章都曾谈到这一主题,但大多是分散和割裂的.譬如为了对这个主题有更全面的认识需要去搜索很多的信息来源,而这也是笔者决定写这篇文章的原因.笔者相信本篇文章会有益于初级开发者,当然对希望能够更新和整理已有知识的中高级开发者同样能够有所裨益. 当页面布局定义完成后,页面渲染的过程与样式和脚本所承担的

Chromium网页渲染机制简要介绍和学习计划

作为一个浏览器,快速地将网页渲染出来是最重要的工作.Chromium为了做到这一点,费尽了心机,做了大量优化工作.这些优化工作是卓有成效的,代表了当今最先进的网页渲染技术.值得一提的是,这些渲染技术不仅适用于网页渲染,也可以应用在原生系统的UI渲染上.例如,在Android系统上,我们就可以看到两者在渲染技术上的相似之处.本文接下来就对Chromium的网页渲染机制进行简要介绍,并且制定学习计划. 老罗的新浪微博:http://weibo.com/shengyangluo,欢迎关注! Chrom

Chromium网页渲染调度器(Scheduler)实现分析

在采用线程化渲染方式渲染网页时,Chromium依赖一个调度器协调Main线程和Compositor线程的执行,同时也通过这个调度器决定它们什么时候该执行什么操作.调度器将Main线程和Compositor线程的当前状态记录在一个状态机中,然后通过这个状态机决定下一个要执行的操作.这个操作在满足当前设置条件下是最优的,因此可以使网页渲染更快更流畅.本文接下来就分析Chromium网页调度器的实现. 老罗的新浪微博:http://weibo.com/shengyangluo,欢迎关注! 调度器实现

基于类的通用视图

基于类的通用视图 前面我们说过了django的通用视图,不知道django通用视图的去看我前面的随笔,谢谢 django的通用视图帮我们省略了很多代码,但有时候django的通用视图并不能满足我们全部的需求,例如像重定义一些属性和方法的时候,或者我们想换种写法的时候,因此,django提供了基于类的通用视图,通过子类或者在url中传参的方法来配置我们的基于类的通用视图 通用视图和基于类的通用视图是两种不一样的写法,前面我们介绍的通用视图,所有的代码集中于url的配置文件中,而基于类的通用视图主要