scrapy

    • 2023.07.08 | admin | 125次围观
      使用 Scrapy + Selenium 爬取动态渲染的页面
      更多技术文章:Redirecting... 背景 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生js实现鼠标移上去显示详细信息,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium创建浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载...
    • 2023.05.02 | admin | 212次围观
      Python小姿势 - Python爬取数据的库——Scrapy
      Python爬取数据的库——Scrapy 一、爬虫的基本原理 爬虫的基本原理就是模拟人的行为,使用指定的工具和方法访问网站,然后把网站上的内容抓取到本地来。 爬虫的基本步骤: 1、获取URL地址: 2、发送请求获取网页源码; 3、使用正则表达式提取信息; 4、保存数据。 二、爬虫的类型 爬虫分为两类: 1、基于规则的爬虫: 基于规则的爬虫是指爬虫开发者需要自己定义爬取规则,爬虫根据规则解析页面,抽取所需要的数据。 2、自动化爬虫: 自动化爬虫不需要爬虫开发者定义爬取规则,爬...
    • 2023.04.15 | admin | 232次围观
      【Scrapy学习心得】爬虫实战五(Scrapy-Redis分布式爬虫)
      声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本文无关 前言 废话不多说,直接开始吧~本次爬取的网站是:有缘网 一、基本配置 一台master机,一台slave机,本文使用的master是云服务器(Ubuntu),而slave是我的笔记本电脑(Windows) 两台机都需要安装Python3.7、Scrapy框架、Scrapy-Redis框架 在master机上安装Redis数据库,并配置好能够远程连接等等 二、分析页面 我们随便筛选几个条件搜索一下,发现...
    1