爬蟲架構(gòu)師職位要求
1.全日制本科及以上,5年以上python/java開發(fā)經(jīng)驗,3年以上數(shù)據(jù)抓取工作經(jīng)驗;
2.精通使用分布式基本知識,設(shè)計與開發(fā)爬蟲系統(tǒng)架構(gòu);
3.精通使用爬蟲相關(guān)技術(shù),如:python, scrapy, selenium, xpath, 正則表達式 但不限于以上技術(shù)等,有app研發(fā)背景或app爬蟲開發(fā)經(jīng)驗佳,有逆向經(jīng)驗尤佳;
4.精通高并發(fā)、高性能的分布式系統(tǒng)的設(shè)計及應(yīng)用,熟悉常用數(shù)據(jù)存儲,各種數(shù)據(jù)處理技術(shù)優(yōu)先;
5.能夠解決封賬號、封IP采集等問題,解決網(wǎng)頁抓取、信息抽取等問題,構(gòu)建完善的網(wǎng)絡(luò)信息收集平臺;
6.熟悉Linux常用命令,獨立完成日常部署更新等;
7.具備較強的團隊協(xié)作精神,工作責(zé)任心強,良好的溝通、理解、執(zhí)行能力。
爬蟲架構(gòu)師崗位職責(zé)
1.參與消費大數(shù)據(jù)的建設(shè),專注于垂直領(lǐng)域數(shù)據(jù)爬取,進行多平臺信息的抓取和分析;
2.對爬蟲系統(tǒng)的架構(gòu)設(shè)計與開發(fā);
3.深刻理解爬蟲系統(tǒng)架構(gòu),能對系統(tǒng)架構(gòu)提出自己的見解和優(yōu)化方案;
4.實現(xiàn)數(shù)據(jù)提取、清洗、結(jié)構(gòu)化、入庫、統(tǒng)計分析等需求;
5.建立爬蟲監(jiān)測體系,及時分析及解決爬蟲在運行過程中出現(xiàn)的缺陷;
6.研究優(yōu)化算法,提升爬蟲系統(tǒng)的穩(wěn)定性、可擴展性;
7.設(shè)計爬蟲策略和防屏蔽規(guī)則,提升網(wǎng)頁抓取的效率和質(zhì)量;
8.能獨立解決實際開發(fā)過程碰到的各類問題。