一、職位描述
1、對指定的多個網(wǎng)站進行網(wǎng)頁抓取、數(shù)據(jù)提?。回撠熅W(wǎng)絡數(shù)據(jù)抓取規(guī)劃、清洗以及匯總的開發(fā)工作;
2、負責特殊網(wǎng)頁采集任務的分析及采集方案設計;
3、參與爬蟲架構設計和研發(fā),滿足產品中數(shù)據(jù)抓取的要求;
4、參與爬蟲核心算法和策略優(yōu)化研究;
5、抓取調度和策略優(yōu)化,實時監(jiān)控爬蟲的進度和警報反饋;
6、爬蟲核心系統(tǒng), 數(shù)據(jù)平臺的研發(fā)維護。
二、職位要求
1、 本科及以上學歷,計算機相關專業(yè);3年以上開發(fā)經(jīng)驗,2年以上Hadoop相關工作經(jīng)驗;
2、具有數(shù)據(jù)挖掘、信息檢索、機器學習開發(fā)經(jīng)驗;
3、精通HTML語言,熟悉JS,Ajax,熟悉Lucene、Nutch、Heritrix、larbin、HtmlParse、Scrapy、Crawler4j、WebMagic、WebCollector等開源工具;
4、精通網(wǎng)頁抓取原理及技術,從結構化的和非結構化的數(shù)據(jù)中獲取信息;
5、熟練使用一門以上腳本語言(PHP/PYTHON/JAVA/Node.js/SQL/R語言 等);
6、熟練Hadoop大數(shù)據(jù)平臺的核心框架 (HDFS, Pig, Hive, Sqoop, oozie, Zookeeper, Spark, Storm, Kafka 等);
7、精通網(wǎng)絡編程,熟悉HTTP傳輸協(xié)議,能模擬瀏覽器操作爬蟲;
8、有豐富Java /Python開發(fā)經(jīng)驗者優(yōu)先;熟悉MySQL、Oracle及有集群數(shù)據(jù)庫開發(fā)經(jīng)驗者優(yōu)先。
9、具備web挖掘等搜索引擎相關知識,有從事網(wǎng)絡爬蟲、網(wǎng)頁去重、網(wǎng)頁信息抽取的經(jīng)驗。以解決技術難題為樂,對程序完美有偏執(zhí)追求;具有團隊精神,有想法,敢于挑戰(zhàn)自我。