awesome crawlers

无头浏览器的使用

  1. 神器:Puppeteer Recorder,可以录制浏览器操作:https://github.com/checkly/puppeteer-recorder

爬虫方案

其他列表

https://github.com/facert/awesome-spider

电商爬虫

拼多多

  1. https://github.com/onetwo1/pinduoduo

大众点评反爬:

  1. https://www.v2ex.com/t/558529#reply18
  2. https://github.com/Northxw/Dianping

电商爬虫

  1. 电商爬虫系统:京东,当当,一号店,国美爬虫,论坛、新闻、豆瓣爬虫 https://github.com/wanghuafeng/e-business

IT 桔子

  1. https://www.makcyun.top/web_scraping_withpython7.html
  2. https://blog.csdn.net/Michael_Cool/article/details/80098990
  3. https://github.com/shulisiyuan/ITjuziSpider/blob/master/itjuziCompanySpider.py

头条视频

  1. https://github.com/fourbrother/python_toutiaovideo

微博爬虫

  1. https://github.com/jinfagang/weibo_terminater

PornHub 爬虫

  1. https://github.com/xiyouMc/WebHubBot
招聘网站

拉钩爬虫:https://mp.weixin.qq.com/s/uQ_KO84ydPU9qj8nm93gnQ

房产网站:https://github.com/lihansunbai/Fang_Scrapy 爬取58同城、赶集网、链家、安居客、我爱我家网站的房价交易数据。

破解CloudFlare 的反爬措施

https://github.com/Anorov/cloudflare-scrape

反爬技术方案

模拟登录:

https://github.com/xchaoinfo/fuck-login

https://github.com/SpiderClub/smart_login

爬虫框架

https://github.com/yijingping/unicrawler

代理抓取

https://github.com/fate0/getproxy

字体反爬整体方案

https://zhuanlan.zhihu.com/p/37838586

反爬教程:https://github.com/FantasticLBP/Anti-WebSpider

浏览器指纹技术——利用 Header 顺序:

  1. https://cnodejs.org/topic/5060722e01d0b80148172f55
  2. https://gwillem.gitlab.io/2017/05/02/http-header-order-is-important/

深度学习破解点击验证码

  1. https://zhuanlan.zhihu.com/p/34186397
  2. https://github.com/RunningGump/gsxt_captcha
  3. https://github.com/cos120/captcha_crack
  4. CNN 端到端验证码 https://www.jianshu.com/p/08e9d2669b42
  5. Pytorch 验证码识别 https://www.cnblogs.com/king-lps/p/8724361.html
  6. 端到端的不定长验证码识别 https://github.com/airaria/CaptchaRecognition?ts=4
  7. CNN 端到端验证码识别https://github.com/dee1024/pytorch-captcha-recognition
  8. 基于 CNN 的验证码识别 https://github.com/junliangliu/captcha
  9. 变长验证码识别 https://www.jianshu.com/p/25655870b458
  10. https://github.com/cos120/captcha_crack
  11. 生成验证码,可用作训练数据 https://github.com/lepture/captcha
  12. https://github.com/lllcho/CAPTCHA-breaking
  13. https://github.com/yeguixin/captcha_solver

JS 解密与登录

https://github.com/CriseLYJ/awesome-python-login-model https://github.com/OFZFZS/JS-Decryption

中关村 逗游 博客园,37游戏,188游戏中心,立德金融,民投金服,同花顺,金融街,4366, 哔哩哔哩,中国移动 shop99, 连载阅读国美WAP端京东,58同城拉钩起点 滴滴打车 网易博客 手机百度 5173 懒人听书 阿里邮箱 虾米 唯品会 汽车之家 爱卡汽车 酷狗 搜狐微信公众号 ,楚楚街

裁判文书网:https://github.com/sml2h3/mmewmd_crack_for_wenshu

安居客反爬破解:https://www.v2ex.com/t/512956#;

上千家企业新闻网站 https://github.com/NolanZhao/news_feed

数据集

金融公开数据集:https://github.com/PKUJohnson/OpenData/wiki

一个很全的词库

https://github.com/fighting41love/funNLP

涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报告、自然语言生成、NLU太难了系列、自动对联数据及机器人、用户名黑名单列表、罪名法务名词及分类模型、微信公众号语料、cs224n深度学习自然语言处理课程、中文手写汉字识别、中文自然语言处理 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括常用歇后语、成语、词语和汉字)、文档图谱自动生成、SpaCy 中文模型、Common Voice语音识别数据集新版、神经网络关系抽取、基于bert的命名实体识别、关键词(Keyphrase)抽取包pke、基于医疗领域知识图谱的问答系统、基于依存句法与语义角色标注的事件三元组抽取、依存句法分析4万句高质量标注数据、cnocr:用来做中文OCR的Python3包、中文人物关系知识图谱项目、中文nlp竞赛项目及代码汇总、中文字符数据、speech-aligner: 从“人声语音”及其“语言文本”产生音素级别时间对齐标注的工具、AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)、word2word:(Python)方便易用的多语言词-词对集:62种语言/3,564个多语言对、语音识别语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库。

https://github.com/platonai/pulsar/blob/master/README.zh.md

About 逸飞

后端工程师

发表评论

电子邮件地址不会被公开。 必填项已用*标注