python使用Selenium与PhantomJS写爬虫

  • baagee 发布于 2017-08-31 21:05:01
  • 分类:Python
  • 1668 人围观
  • 3 人喜欢

Selenium

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。

Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。

Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行,所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。

可以从 PyPI 网站下载 Selenium库https://pypi.python.org/simple/selenium ,也可以用 第三方管理器 pip用命令安装:pip install selenium

Selenium 官方参考文档:http://selenium-python.readthedocs.io/index.html

PhantomJS

PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。

如果我们把 Selenium 和 PhantomJS 结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理 JavaScrip、Cookie、headers,以及任何我们真实用户需要做的事情。

注意:PhantomJS 只能从它的官方网站http://phantomjs.org/download.html) 下载。 因为 PhantomJS 是一个功能完善(虽然无界面)的浏览器而非一个 Python 库,所以它不需要像 Python 的其他库一样安装,但我们可以通过Selenium调用PhantomJS来直接使用。

PhantomJS 官方参考文档:http://phantomjs.org/documentation

Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。

快速使用

以下是两者配合来操作我的博客的示例:

# coding=utf-8

# 导入 webdriver
from selenium import webdriver

# 要想调用键盘按键操作需要引入keys包
from selenium.webdriver.common.keys import Keys

# 指定PhantomJS浏览器创建浏览器对象
driver = webdriver.PhantomJS(executable_path='D:/phantomjs-2.1.1-windows/bin/phantomjs.exe')

# 设置浏览器宽高
driver.set_window_size(1366, 768)

# 打开网页
driver.get('http://baagee.vip')

# 保存截图
driver.save_screenshot('baagee.png')

# 获取页面指定位置文本内容
sentence = driver.find_element_by_class_name('sentence').text
print(sentence)

# 打印标题
print(driver.title)

# 找到输入框并且输入文字
driver.find_element_by_id('titleInput').send_keys('Python')
# 保存截图
driver.save_screenshot('baagee1.png')

# 点击搜索按钮
driver.find_element_by_xpath('//*[@id="searchForm"]/div/span/button').click()

# 保存截图
driver.save_screenshot('baagee2.png')

# 获取网页源代码
html = driver.page_source

# 获取网页cookies
cookies = driver.get_cookies()
print(cookies)

# ctrl+a全选输入框内容
driver.find_element_by_id('titleInput').send_keys(Keys.CONTROL, 'a')

# ctrl+x 剪切输入框内容
driver.find_element_by_id('titleInput').send_keys(Keys.CONTROL, 'x')

# 重新输入
driver.find_element_by_id('titleInput').send_keys('php')

# 按回车,搜索
driver.find_element_by_xpath('//*[@id="searchForm"]/div/span/button').send_keys(Keys.ENTER)

# 清除输入框内容
driver.find_element_by_id('titleInput').clear()

# 获取当前url
print(driver.current_url)

# 关闭当前页面,如果只有一个页面,会关闭浏览器
# driver.close()

# 关闭浏览器
driver.quit()

运行截图:

程序生成的截图就不放出来了。

爬虫实践

接下来做一个小实例(抓取斗鱼直播标题与在线人数,分类等信息):

如图:

思路就是让程序找到下一页,每页都爬取,直到下一页被禁用为止。以下是代码:

# coding=utf-8
from selenium import webdriver
from lxml import etree

driver = webdriver.PhantomJS(executable_path='D:/phantomjs-2.1.1-windows/bin/phantomjs.exe')

# 设置浏览器宽高
driver.set_window_size(1366, 768)

driver.get('https://www.douyu.com/directory/all')

driver.save_screenshot('douyu.png')

html = driver.page_source

selector = etree.HTML(html)
f = open('douyu.json', 'a', encoding='utf-8')

while True:
    html = driver.page_source
    if html.find('shark-pager-disable-next') != -1:
        # 到达最后一页了
        print('out')
        break
    selector = etree.HTML(html)
    # 直播标题
    titles = selector.xpath('//*[@id="live-list-contentbox"]/li/a/div/div/h3/text()')
    # 名字
    names = selector.xpath('//*[@id="live-list-contentbox"]/li/a/div/p/span[1]/text()')
    # 观看人数
    numbers = selector.xpath('//*[@id="live-list-contentbox"]/li/a/div/p/span[2]/text()')
    # 标签
    tags = selector.xpath('//*[@id="live-list-contentbox"]/li/a/div/div/span/text()')
    for title, name, num, tag in zip(titles, names, numbers, tags):
        data = {
            "title": title.strip(),
            "name": name.strip(),
            "number": num.strip(),
            "tag": tag.strip()
        }
        dataStr = str(data)
        f.write(dataStr + '\r')
        print(data)
    driver.find_element_by_class_name('shark-pager-next').click()
f.close()
driver.quit()


标签: Selenium PhantomJS

评论

点击图片切换
还没有评论,快来抢沙发吧!