1、负责抖音/淘宝/拼多多/1688等热门电商平台的爬取工作,包括数据抓取和爬取链路优化,提升抓取能力;
2、负责反爬虫策略研究,代理IP、验证码识别等采集支撑服务建设;
3、负责大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作。
任职要求:
1、三年以上大规模爬虫/反爬经验,熟悉HTTP协议/浏览器原理/前端JS/APP抓取;
2、有解决复杂的反爬限制实践经验, 能解决如图片验证码/滑块/账号限制/ip限制等问题,熟悉反爬虫、签名破解、验证码识别技术者优先;
3、熟悉app端数据抓取(有逆向、脱壳等经验),掌握Apktool、dex2jar、JD-GUI、frida、ida等工具,能独立完成主流电商平台和主流app软件大量级的数据抓取优先;