自己总结了一下就是存储,消息处理(异步,阻塞,队列,消息中间件)
参考岗位需求
数据爬虫工程师的岗位职责:
1、分布式网络爬虫研发:不断完善现有抓取系统,通过对抓取、解析、调度、存储等模块的拆分与优化,形成具有本地服务特色的定向爬虫引擎,持续改进与迭代完善,推进开放服务建设;
2、抓取数据需求支持:不断满足精细化运营需求,在保证抓取系统不断前进的基础上,完成日常抓取与解析任务,对数据的稳定性负责。
3、对异步处理或消息处理模式比较了解,熟悉并在项目中使用过twisted框架或消息中间件(如rabbitmq, activemq)加分;
4.熟练使用关系数据库(如mysql, postgresql)或NoSql数据库(如mongodb及redis),并至少精通其中的一个并在多个项目中使用过并有自己的
心得和体会;
其它参考:
a. 熟悉常用类库 * 精通Django构架和开发,和常用的第三方软件包 * 熟悉RESTful API设计和使用,熟悉Nonblocking IO和Asynchronous IO等技术
b. Python基础扎实:熟悉io、多线程等基础技术
ps:作为全职的开发人员,在业务上要耗费较大的心力,比如车载调试(嵌入式设备),和大数据后端调试,和前端调试界面展示;在工具的使用和选择上,也可能走一些弯路,毕竟不可能所有选择都是完美的。给自己一些追赶的信心。
时间: 2024-10-15 03:58:43