《C# 爬虫 破境之道》:概述

第一节:写作本书的目的

  关于笔者

  张晓亭(Mike Cheers),1982年出生,内蒙古辽阔的大草原是我的故乡。

  没有高学历,没有侃侃而谈的高谈阔论,拥有的就是那一份对技术的执著,对自我价值的追求。

  我是谁,其实并不重要,我是高级开发、我是架构师、我是技术经理,这些都是我,跟各位没有半毛钱关系。最重要的是,我能给读者带来什么。接下来的日子里,就看看本书能给各位带来什么惊喜,也许到最后,你都不会记得我的名字,没有关系,相信我,那并不重要。

  关于本书

  本书是《破境之道》系列技术丛书中的一部分,将针对使用C#开发数据采集器(俗称爬虫)进行系统全面的讲解,写作意图就是希望能够通过本书使读者能够深入掌握有关爬虫的方方面面。所谓“破境”,源自修行者在修行之路上对境界的突破。这里也深含着笔者对读者的一份殷切期望,希望能够帮助读者在技术修行的道路上,达到“武道巅峰”。

  本系列丛书又名《看完丢掉》。知识、技术逐渐变成快销品,虽然笔者也不愿意这样,但回头看看,当初步入修行队伍时,使用的ASP、VBScript等等,也早已淡出人们的视线,相信所剩无几了吧。时代在发展,科技在进步,大多数从业者也都习惯了每日甚至是没日没夜的追随新的前沿技术潮流,虽已疲惫不堪,但也乐此不疲。这也是本系列丛书在命名上对从业者的期许,希望能够帮助读者详细梳理知识点,在心中形成知识体系,并通过各种角度分析加深印象,牢记于心,将知识从枯燥的文字搬入脑海。那么,然后呢,这本书就可以丢掉了!不要止步,还有更多的知识在等待着我们。

  本系列丛书,将尽量使用当下最为流行甚至前沿的技术版本,但,毕竟写作也需要耗费大量的时间精力,可能在您看到本书的时候,它已失去了耀眼的光辉,不过还是希望能够对那些没有技术框架更新需求或计划的产品线有所帮助。同样,如果读者对某些知识点还存在疑惑,也可以通过本书来进行一个查漏补缺,相信对快速掌握新技术也是会有所帮助的。

  本书的写作目的很明确,深入探究C# 爬虫的技术细节以及在实际工作中,需要注意的“坑”。

  本书并不是入门书籍,并没有将知识点做层次划分,因为实际生产过程中,要求就是很高,没有产品经理跑过来会对你说:“兄弟,咱们这周先搭一个入门级商城先用着,下周再升级成中级,月底咱们再升级成高级的,你说好不好?”。相信他这么说,你是很满意了,因为你看到的入门书籍太多了,很习惯,很适应甚至是很喜欢,不过,到不了月底,这位产品经理可能已经离去了。

第二节:使用C#开发爬虫 概述

  主要功能特性

  • 分布式:爬虫从单点向集群发展已经是一个大趋势,当然,视实际情况而定,并不是所有需求都必须要做成集群,但笔者希望从业人员都具有扩展它的能力。
  • 两套模板:采集模板和分析模板,当我们的采集目标是不固定的,我们更希望在切换到下一个目标的时候,能够少写代码,尽量通过配置来完成。
  • 多线程:在数据采集、数据处理领域,多线程是必不可少的基本功。
  • 缓存的应用:缓存有助于我们提高系统的整体性能,但它也是双刃剑,在实际应用中,需要多方考量,谨慎使用。
  • 数据存储:数据存储的介质、思路、方式有很多,没有什么是最好的,就像使刀还是使剑,各有所长,建议在开发阶段,使用顺手的吧,也提倡尝鲜,但在生产环境中,还是使用最适合的。
  • 数据源:在采集过程中,我们经常会碰到一些阻碍,来自技术本身、个人能力或者数据源本身的问题,那么,我们需要扩宽思路,不要在一棵树上吊死,尝试换个思路和路径,也许能达到更好的效果。
  • 可扩展:本书尽可能的让读者能够开发出一套可扩展性强的爬虫系统,包括但不限于:可扩充节点、灵活的配置、自定义接口等。

  这些特性都将融入在具体章节中详细讲解。

  • 第三节:开发环境准备

      想要开始我们的MVC之旅,开发环境是必不可少的,但是本书并不想浪费过多笔墨在基础环境搭建上,只是列出基础环境需求以及本书中使用的IDE开发环境。

  •  Windows操作系统
  •  Visual Studio 2017
  •  数据库(为了避免大家对使用何种数据库产生分歧,本书尽量使用文件系统,比较中立,至于生产环境使用何种数据库,取决的因素很多,后续章节中,也会给出一些建议)
  •  但还是需要读者有一定的C#及数据库方面的知识,越强越好!可以参阅本系列丛书中的其他书籍。

原文地址:https://www.cnblogs.com/mikecheers/p/12010265.html

时间: 2024-11-12 13:40:22

《C# 爬虫 破境之道》:概述的相关文章

<<数学传奇>>概述

简介 在网易公开课上看完了蔡天新教授的<<数学传奇>>,课程共10集.分别讲述了古希腊的毕达哥拉斯.波斯(伊朗)的 花拉子密和欧玛尔.海亚姆.中国的秦九韶.英国的牛顿.法国的笛卡尔和庞加莱.德国的高斯.瑞士的欧拉.印度的拉曼纽扬.美国的冯诺依曼. 第 一集 毕达哥拉斯发现了黄金分割和毕达哥拉斯定理.毕达哥拉斯在中国被称为勾股定理,在更高阶的情况下即成为费马大定理(已被英国数学家怀尔斯证明).在 后面的课程中,讲到了赵爽的弦图证明勾股定理(秦九韶一节).古希腊为西方的源头,在数学.哲

2015 数学建模竞赛 入门与提高 读书笔记

<数学建模竞赛入门与提高> 第1章:数学建模概述 近半个多世纪以来,数学已经走进了各大领域,而与其他学科相结合形成交叉学科,首要的关键一步就是建立研究对象的数学模型,并加以计算求解,数学建模和计算机技术在知识经济时代的作用可谓是如虎添翼. 1.1  初入门径--认识数学模型与数学建模 数学建模就是用数学语言描述实际现象的过程,这里的实际现象包含具体的自然现象,也包含抽象的比如顾客对某种商品所取的价值倾向.这里的描述不但包括外在形态,内在机制的描述,也包括预测,试验和解释评价实际现象等内容. 数

排序算法系列:插入排序算法

概述 直接插入排序(Straight Insertion Sort)的基本操作是将一个记录插入到已经排好序的有序表中,从而得到一个新的.记录数增1的有序表. – <大话数据结构> 版权说明 著作权归作者所有. 商业转载请联系作者获得授权,非商业转载请注明出处. 本文作者:Coding-Naga 发表日期: 2016年3月24日 原文链接:http://blog.csdn.net/lemon_tree12138/article/details/50968422 来源:CSDN 更多内容:分类 &

排序算法系列:快速排序算法

概述 在前面说到了两个关于交换排序的算法:冒泡排序与奇偶排序. 本文就来说说交换排序的最后一拍:快速排序算法.之所以说它是快速的原因,不是因为它比其他的排序算法都要快.而是从实践中证明了快速排序在平均性能上的确是比其他算法要快一些,不然快速一说岂不是在乱说? 本文就其原理.过程及实现几个方面讲解一下快速排序算法. 版权声明 著作权归作者所有. 商业转载请联系作者获得授权,非商业转载请注明出处. 作者:Coding-Naga 发表日期:2016年3月1日 链接:http://blog.csdn.n

OpenCASCADE Interpolation - Lagrange

OpenCASCADE Interpolation - Lagrange [email protected] Abstract. Power basis polynomial is the most simple polynomial function. It also be called power series. OpenCASCADE provides basic computation functions for polynomial functions, such as evaluat

悼念传奇,约翰询问&amp;#183;纳什和他的妻子艾丽西亚致敬,创建一个传奇,爱数学

约翰·阅读·纳什的传记.我渴望录制通道 我一直相信数字,无论逻辑方程使我们认为.但这种追求一生的后,我问自己:"这是什么逻辑?谁决定的理由?"我的探索让我从物理到形而上,最后到了妄想症,就这样来回走了一趟. 在事业上我有了重大突破,在生命中我也找到了最重要的人:仅仅有在这样的神奇的爱情方程中,才干找到逻辑或原由来. 今晚我能站在这儿全是你的功劳.你是我成功的因素.也是唯一的因素.谢谢你 这段话是他的传记改遍的电影<漂亮心灵> 也获得了2001年4项奥斯卡奖.  这是里面最有

数学概述

数学被成为科学之王,横贯各个学科.通过对现实规律的客观分析,我们以各种假设为基础,建立数学模型,可以有效的预测物体的时间空间属性. 数学以哲学为基础,从毕达哥拉斯学派到康德的集合论,数学阐述科学,也融汇了哲学中一系列观点.从苏格拉底到柏拉图再到亚里士多德,形成西方哲学,而老子和孔子,孟子也诞生了传统中国的儒雅哲学观.相比而言,西方哲学更加精细和理性,更多的是自由讨论.文艺复兴时期的西方学者,频繁出入于咖啡厅,在那时更多的人把科学作为一种业余,时至今日,各种学术体系庞大繁杂,生活压力和社会价值观的

【分享】近4000份数学学习资源免费分享给大家

一直以来喜欢收集数学类的教程资源,于是费了好大劲从万千合集站上扒拉了下来,总结归类了一下,一共有将近4000本电子书.经测试,均可免费下载,可能会弹出小广告,可不必理会之.[仅供学术学习和交流,请无用于商业用途.]另外,如有可能,还请尽量支持正版纸质书.   数学史(54)     数学史.rar 55.6 MB   数学的起源与发展.rar 4.3 MB   费马大定理—一个困惑了世间智者358年的谜.pdf 9.5 MB   通俗数学名著译丛14-无穷之旅:关于无穷大的文化史.pdf 14.

著名数学大师丘成桐:我们为什么要读数学科普书【有视频】

丘成桐,1949年生,美籍华人,原籍广东省梅州,生于汕头,长于香港.哈佛大学数学教授.他被公认为是近1/4世纪里世界上最有影响的数学家之一,他在29岁时就攻克几何学上的难题「卡比拉猜想」,在1982年获得数学界的「诺贝尔奖」--菲尔兹奖,他是迄今惟一获得该奖的华人. <数学与人文>系列图书是他作为主编的一套数学科普读物,全面解读数学及其历史的发展历程.数学家的奇闻轶事,以采访.传记.轶事.人物.故事.诗歌等形式呈现,内容生动有趣,适合教育工作者.学生和数学爱好者阅读. 数学的发展是很美好的,因

单元测试软件工程概述

软件工程简介 软件工程(Software Engineering,简称为SE)是一门研究用工程化方法构建和维护有效的.实用的和高质量的软件的学科.它涉及到程序设计语言,数据库,软件开发工具,系统平台,标准,设计模式等方面. 在现代社会中,软件应用于多个方面.典型的软件比如有电子邮件,嵌入式系统,人机界面,办公套件,操作系统,编译器,数据库,游戏等.同时,各个行业几乎都有计算机软件的应用,比如工业,农业,银行,航空,政府部门等.这些应用促进了经济和社会的发展,使得人们的工作更加高效,同时提高了生活