0

    采用selenium模拟浏览器点击事件,并爬取相关数据的步骤和源码

    2023.07.25 | admin | 111次围观

    python 版本:python35

    主要代码:

    from selenium import webdriver
    from pyquery import PyQuery
    if __name__== '__main__':
     browser = webdriver.Chrome()
     browser.get("https://movie.douban.com/explore")
     browser.find_element_by_class_name('more').click() # 根据class标签获取进行点击
     data = str(PyQuery(browser.page_source)) # 获取点击后的页面内容
     ##解析及存储数据略
    

    注意事项:

    1、需要安装selenium 和 pyquery 包

    2、需要下载chrome的webdrive.exe文件。

    具体方法为:

    1)在浏览器关于选项中先确认浏览器版本号。如我当前浏览器的版本号为:版本 69.0.3497.100(正式版本) (32 位) 如下图1所示:

    图1 查看浏览器版本信息

    采用selenium模拟浏览器点击事件,并爬取相关数据的步骤和源码

    2)在 页面中下载支持当前版本的可执行文件。如下图2所示:

    图2 不同版本的Chromedriver列表

    通常而言哪个浏览器可以看源码,更新后的浏览器一般在最大的版本文件夹下。同时,在选定版本的文件夹下有一个notes.txt文件(见图3),打开它,就可以看到该文件所支持的具体浏览器版本号(见图4)。

    图3 2.42版本文件夹下的文件列表

    图4 该文件支持的浏览器版本信息

    3)将下载后的文件解压哪个浏览器可以看源码,并将chromedriver.exe文件复制到D:\Program Files\Python\python35 或D:\Program Files\Python\python35\Scripts 目录下(见图5)。具体目录根据实际设定。

    图5 将chromedriver.exe文件复制到相关目录下

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    标签: selenium
    发表评论