Golang 网络爬虫框架gocolly/colly 二 jQuery selector

Golang 网络爬虫框架gocolly/colly 二 jQuery selector

colly框架依赖goquery库,goquery将jQuery的语法和特性引入到了go语言中。如果要灵活自如地采集数据,首先要了解jQuery选择器。以下内容是翻译jQuery官方网站

《Category: Selectors》章节内容:

Category: Selectors

Borrowing from CSS 1–3, and then adding its own, jQuery offers a powerful set of tools for matching a set of elements in a document.

To use any of the meta-characters ( such as  !"#$%&‘()*+,./:;<=>[email protected][\]^`{|}~ ) as a literal part of a name, it must be escaped with with two backslashes: \\. For example, an element with id="foo.bar", can use the selector $("#foo\\.bar"). The W3C CSS specification contains the complete set of rules regarding valid CSS selectors. Also useful is the blog entry by Mathias Bynens on CSS character escape sequences for identifiers.

类别:选择器

从CSS 1-3借用,然后添加它自己的,jQuery提供了一套强大的工具来匹配文档中的一组元素。要使用任何元字符(如 !"#$%&‘()*+,./:;<=>[email protected][\]^`{|}~ )作为名称的文字部分,例如,一个id =“foo.bar”的元素可以使用选择符$("#foo\\.bar")。W3C CSS规范包含了关于有效的CSS选择器的完整规则。Mathias Bynens的关于标识符CSS字符转义序列的博文也是很有用的。

Also in: Selectors > Basic

All Selector (“*”)

Selects all elements.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择所要元素

:animated Selector

Select all elements that are in the progress of an animation at the time the selector is run.

Also in: Selectors > Attribute

选择所有动画元素

Attribute Contains Prefix Selector [name|=”value”]

Selects elements that have the specified attribute with a value either equal to a given string or starting with that string followed by a hyphen (-).

Also in: Selectors > Attribute

属性包含前缀选择器 [name|=”value”]

选择具有指定属性的元素,其值等于给定的字符串,或者以该字符串开头,后跟连字符( - )。

Attribute Contains Selector [name*=”value”]

Selects elements that have the specified attribute with a value containing a given substring.

Also in: Selectors > Attribute

属性包含选择器 [name*=”value”]

选择具有指定属性的元素,其值包含给定子字符串。

Attribute Contains Word Selector [name~=”value”]

Selects elements that have the specified attribute with a value containing a given word, delimited by spaces.

Also in: Selectors > Attribute

属性包含字选择器[name~=”value”]

选择具有指定属性的元素,其值包含由空格分隔的给定单词。

Attribute Ends With Selector [name$=”value”]

Selects elements that have the specified attribute with a value ending exactly with a given string. The comparison is case sensitive.

Also in: Selectors > Attribute

属性结束选择器[name$=”value”]

选择具有指定属性的元素,其值以给定字符串结尾,精确匹配。比较区分大小写。

Attribute Equals Selector [name=”value”]

Selects elements that have the specified attribute with a value exactly equal to a certain value.

Also in: Selectors > Attribute | Selectors > jQuery Extensions

属性等于选择器[name=”value”]

选择具有指定属性的元素,其值恰好等于给定值。

Attribute Not Equal Selector [name!=”value”]

Select elements that either don’t have the specified attribute, or do have the specified attribute but not with a certain value.

Also in: Selectors > Attribute

属性不等于选择器[name!=”value”]

选择不具有指定属性的元素,或者具有指定属性但不具有特定值的元素。

Attribute Starts With Selector [name^=”value”]

Selects elements that have the specified attribute with a value beginning exactly with a given string.

Also in: Selectors > Form | Selectors > jQuery Extensions

属性以开始选择器[name^=”value”]

选择具有指定属性的元素,其值的开始部分与给定字符串完全一致。

:button Selector

Selects all button elements and elements of type button.

Also in: Selectors > Form | Selectors > jQuery Extensions

按钮选择器

选择所有按钮元素和类型按钮的元素。

:checkbox Selector

Selects all elements of type checkbox.

Also in: Selectors > Form

复选框选择器

选择所有复选框

:checked Selector

Matches all elements that are checked or selected.

Also in: Selectors > Hierarchy

匹配所有选中的元素。

Child Selector (“parent > child”)

Selects all direct child elements specified by “child” of elements specified by “parent”.

Also in: Selectors > Basic

选择由“parent”指定元素的所有直接“child”指定子元素。

Class Selector (“.class”)

Selects all elements with the given class.

Also in: Selectors > Content Filter

选择指定类的所有元素。

:contains() Selector

Select all elements that contain the specified text.

Also in: Selectors > Hierarchy

选择包含指定文本的所有元素

Descendant Selector (“ancestor descendant”)

Selects all elements that are descendants of a given ancestor.

Also in: Selectors > Form

后代选择器 (“ancestor descendant”)

选择指定祖先的所有后代元素

:disabled Selector

Selects all elements that are disabled.

Also in: Selectors > Basic

选择所有被禁用的元素。

Element Selector (“element”)

Selects all elements with the given tag name.

Also in: Selectors > Content Filter

元素选择器

选择指定标签名的所有元素

:empty Selector

Select all elements that have no children (including text nodes).

Also in: Selectors > Form

空选择器

选择所有没有子项的元素(包括文本节点)

:enabled Selector

Selects all elements that are enabled.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择所有启用的元素

:eq() Selector

Select the element at index n within the matched set.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择匹配集中index =n的元素(下标从0开始)。

:even Selector

Selects even elements, zero-indexed. See also odd.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择偶数元素,下标从0开始。

:file Selector

Selects all elements of type file.

Also in: Selectors > Child Filter

选择所有文件类型的元素

:first-child Selector

Selects all elements that are the first child of their parent.

Also in: Selectors > Child Filter

选择所有父节点的第一个孩子元素。

:first-of-type Selector

Selects all elements that are the first among siblings of the same element name.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择同一元素名称的所有兄弟节点中的第一个元素。

:first Selector

Selects the first matched DOM element.

Also in: Selectors > Basic Filter | Selectors > Form

选择第一个匹配的DOM元素。

:focus Selector

Selects element if it is currently focused.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择指定元素,当前处于获取焦点状态

:gt() Selector

Select all elements at an index greater than index within the matched set.

Also in: Selectors > Attribute

选择匹配集中所有索引大于指定index值的元素。

Has Attribute Selector [name]

Selects elements that have the specified attribute, with any value.

Also in: Selectors > Content Filter | Selectors > jQuery Extensions

选择具有指定属性的所有元素,可以是任何值。

:has() Selector

Selects elements which contain at least one element that matches the specified selector.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择指定元素,其包含至少一个元素匹配给定选择器。

:header Selector

Selects all elements that are headers, like h1, h2, h3 and so on.

Also in: Selectors > jQuery Extensions | Selectors > Visibility Filter

选择所有标题元素,例如h1,h2,h3等

:hidden Selector

Selects all elements that are hidden.

Also in: Selectors > Basic

选择所有隐藏的元素

ID Selector (“#id”)

Selects a single element with the given id attribute.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择具有给定id属性的单个元素。

:image Selector

Selects all elements of type image.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择所有image类型的元素

:input Selector

Selects all input, textarea, select and button elements.

Also in: Selectors > Basic Filter

选择所有input, textarea, select 和button元素。

:lang() Selector

Selects all elements of the specified language.

Also in: Selectors > Child Filter

选择所有指定语言的元素。

:last-child Selector

Selects all elements that are the last child of their parent.

Also in: Selectors > Child Filter

选择所有父元素的最后一个孩子节点元素。

:last-of-type Selector

Selects all elements that are the last among siblings of the same element name.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择同一元素名称的所有兄弟节点中的最后一个元素。

:last Selector

Selects the last matched element.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择最后一个匹配的元素。

:lt() Selector

Select all elements at an index less than index within the matched set.

Also in: Selectors > Attribute

在匹配集中选择所有索引小于给定值的元素。

Multiple Attribute Selector [name=”value”][name2=”value2″]

Matches elements that match all of the specified attribute filters.

Also in: Selectors > Basic

多属性选择器

符合所有指定属性过滤器的匹配元素集。

Multiple Selector (“selector1, selector2, selectorN”)

Selects the combined results of all the specified selectors.

Also in: Selectors > Hierarchy

多重选择器

选择所有指定选择器的组合结果。

Next Adjacent Selector (“prev + next”)

Selects all next elements matching “next” that are immediately preceded by a sibling “prev”.

Also in: Selectors > Hierarchy

选择所有下一个匹配“next”的元素,紧接在兄弟“prev”之后。

Next Siblings Selector (“prev ~ siblings”)

Selects all sibling elements that follow after the “prev” element, have the same parent, and match the filtering “siblings” selector.

Also in: Selectors > Basic Filter

选择“prev”元素之后的所有同级元素,具有相同的父级,并匹配筛选“siblings”选择器。

:not() Selector

Selects all elements that do not match the given selector.

Also in: Selectors > Child Filter

选择不匹配给定选择器的所有元素。

:nth-child() Selector

Selects all elements that are the nth-child of their parent.

Also in: Selectors > Child Filter

选择所有父元素的第n个子元素。

:nth-last-child() Selector

Selects all elements that are the nth-child of their parent, counting from the last element to the first.

Also in: Selectors > Child Filter

选择所有父元素的第n个子元素,从后向前计数。

:nth-last-of-type() Selector

Selects all the elements that are the nth-child of their parent in relation to siblings with the same element name, counting from the last element to the first.

Also in: Selectors > Child Filter

选择父元素的具有相同指定元素名称的子元素中第n个元素,按照从后向前的顺序计数。

:nth-of-type() Selector

Selects all elements that are the nth child of their parent in relation to siblings with the same element name.

Also in: Selectors > Basic Filter | Selectors > jQuery Extensions

选择父元素的具有相同指定元素名称的子元素中第n个元素

:odd Selector

Selects odd elements, zero-indexed. See also even.

Also in: Selectors > Child Filter

选择所有奇数元素,下标从0开始。

:only-child Selector

Selects all elements that are the only child of their parent.

Also in: Selectors > Child Filter

选择所有父元素的唯一孩子元素。

:only-of-type Selector

Selects all elements that have no siblings with the same element name.

Also in: Selectors > Content Filter | Selectors > jQuery Extensions

选择没有相同元素名称的兄弟节点的所有元素。

:parent Selector

Select all elements that have at least one child node (either an element or text).

Also in: Selectors > Form | Selectors > jQuery Extensions

选择至少有一个孩子节点(元素或文本)的所有元素

:password Selector

Selects all elements of type password.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择所有password类型的元素。

:radio Selector

Selects all elements of type radio.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择所有radio类型的元素。

:reset Selector

Selects all elements of type reset.

Also in: Selectors > Basic Filter

选择所有reset类型的元素

:root Selector

Selects the element that is the root of the document.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择文档的根节点元素。

:selected Selector

Selects all elements that are selected.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择所有选中的元素。

:submit Selector

Selects all elements of type submit.

Also in: Selectors > Basic Filter

选择所有submit类型的元素。

:target Selector

Selects the target element indicated by the fragment identifier of the document’s URI.

Also in: Selectors > Form | Selectors > jQuery Extensions

选择由文档的URI的片段标识符指示的目标元素。

:text Selector

Selects all input elements of type text.

Also in: Selectors > jQuery Extensions | Selectors > Visibility Filter

选择所有text类型的input元素

:visible Selector

Selects all elements that are visible.

选择所有可见元素。

原文地址:https://www.cnblogs.com/majianguo/p/8146130.html

时间: 2024-10-01 02:07:02

Golang 网络爬虫框架gocolly/colly 二 jQuery selector的相关文章

试验一下Golang 网络爬虫框架gocolly/colly

参考:http://www.cnblogs.com/majianguo/p/8186429.html 框架源码在 github.com/gocolly/colly 代码如下(源码中的demo) package main import ( "fmt" "github.com/gocolly/colly" ) func main() { // Instantiate default collector c := colly.NewCollector( // Visit

java 网络爬虫框架

java 网络爬虫框架: apache Nutch ,Heritrix等,主要参照开源社区提供的40个开源项目 文章背景: 最近要写个爬虫抓去新浪微博的数据,然后用hadoop存储后,进行分析,就在网上搜取相关资料. 网友推荐使用python来做,但鉴于本人擅长的是java,学习python需要一定的时间成本,还是选择java.一开始想自己从头写,搜到apache httpClient,  后来想着还是用开源成熟的框架来做,目前觉得apache Nutch 和Heritrix是个不错的选择,不过

基于java的网络爬虫框架(实现京东数据的爬取,并将插入数据库)

原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平台. 目录 网络爬虫框架 网络爬虫的逻辑顺序 网络爬虫实例教学 model main util parse db 再看main方法 爬虫效果展示 网络爬虫框架 写网络爬虫,一个要有一个逻辑顺序.本文主要讲解我自己经常使用的一个顺序,并且本人经常使用这个框架来写一些简单的爬虫,复杂的爬虫,也是在这个基

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常的方便.它可以应用在数据采集.数据挖掘.网络异常用户检测.存储数据等方面. Scrapy使用了Twisted异步网络库来处理网络通讯.整体架构大致如下图所示. Scrapy爬虫框架 2.由上图可知Scrapy爬虫框架主要由5个部分组成,分别是:Scrapy Engine(Scrapy引擎

网络爬虫-原理篇(二)

转自:http://www.cnblogs.com/wawlian/archive/2012/06/18/2554072.html 有改动! 四.更新策略 史链更新是网络爬虫中很重要的一个环节,对于时效性比较高的数据来说,更新策略愈发重要. 互联网是实时变化的,具有很强的动态性.网页更新策略主要是决定何时更新之前已经下载过的页面.常见的更新策略又以下三种: 1.历史参考策略 顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化.一般来说,是通过泊松过程进行建模进行预测. 2.用户体

网络爬虫学习笔记(二)

一个简单网络爬虫的实现 --抓取网易新闻 这次来指定一个信息量稍大一点的抓取目标--网易新闻(国内新闻) http://news.163.com/domestic/ 这次要达到的目标: 1. 提取有用文本信息 2. 将新闻中所包含的图片信息保存在本地 3. 构建新的HTML文件,其中只包含有新闻主体内容与对应的图片信息 首先当然是通过Jsoup与给定的种子URL建立连接,获得网易新闻(国内新闻)首页的Document,并且在其中筛选出链接,这在上一篇已经提过:然而,我们发现这里得到的许多URL并

快速部署网络爬虫框架scrapy

1. 安装Anaconda,因为Anaconda基本把所有需要依赖的环境都一键帮我们部署好了,不需要再操心其他事了,进官网选择需要下载的版本:https://www.anaconda.com/download/ 2. 安装完Anaconda,添加环境变量,见截图 3. 验证Anaconda是否安装OK,打开开始菜单,选择  ,输入命令conda,出现截图的情况就说明装好了,环境变量也是OK的 4. 接下来就是安装scrapy,在刚才的Anaconda Prompt,输入命令:conda inst

【转】Python练习,网络爬虫框架Scrapy

一.概述 下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(Scrapy引擎) Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发.更多的详细内容可以看下面的数据处理流程. 2.Scheduler(调度) 调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们. 3.Downloader(下载器) 下载器

爬虫框架Scrapy 之(二) --- scrapy文件

框架简介 核心部分: 引擎.下载器.调度器 自定义部分: spider(自己建的爬虫文件).管道(pipelines.py) 目录结构 firstSpider firstSpider spiders 爬虫目录(写代码位置) __init__.py myspider.py 自己建的爬虫文件,以后的爬虫代码写在这里 __init__.py items.py 定义数据结构地方 middlewares.py 中间件(了解) pipelines.py 管道文件 settings.py 项目配置文件 scr