职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
职位描述:
【职位描述】:
1、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
2、负责网页信息和app数据抽取、清洗、消重等工作,提升平台的抓取效率
3、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略实时监控爬虫的进度和警报反馈
【任职要求】:
1、统招本科及以上学历,3年以上java/python经验,同时熟悉php/go至少其中一种;2年以上爬虫开发经验,熟练应用多线程技术,有大规模数据处理、数据挖掘、信息提取等经验者优先;
2、语言基础、网络协议等基础技术扎实;
3、业务架构能力出色,有设计并成功落地的高并发项目经验者优先;
4、熟练使用html,json,css path,xpath, jsonp等,能够从结构化的和非结构化的数据中获取信息;
5、熟练使用mongodb,mysql,redis,hive等,熟悉sql优化
6、熟悉至少一种开源爬虫框架,如webmagic、scrapy、nutch、heritrix等,有开发爬虫框架经验优先;熟悉反爬虫、验证码识别技术者优先;
7、具有非常强烈的责任心,工作积极主动。
【职位描述】:
1、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
2、负责网页信息和app数据抽取、清洗、消重等工作,提升平台的抓取效率
3、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略实时监控爬虫的进度和警报反馈
【任职要求】:
1、统招本科及以上学历,3年以上java/python经验,同时熟悉php/go至少其中一种;2年以上爬虫开发经验,熟练应用多线程技术,有大规模数据处理、数据挖掘、信息提取等经验者优先;
2、语言基础、网络协议等基础技术扎实;
3、业务架构能力出色,有设计并成功落地的高并发项目经验者优先;
4、熟练使用html,json,css path,xpath, jsonp等,能够从结构化的和非结构化的数据中获取信息;
5、熟练使用mongodb,mysql,redis,hive等,熟悉sql优化
6、熟悉至少一种开源爬虫框架,如webmagic、scrapy、nutch、heritrix等,有开发爬虫框架经验优先;熟悉反爬虫、验证码识别技术者优先;
7、具有非常强烈的责任心,工作积极主动。
工作地点
地址:南京雨花台区北京


职位发布者
HR
美篇

-
互联网·电子商务
-
51-99人
-
公司性质未知
-
雨花台区楚翘城4号商务楼