python爬取豆瓣电影排行榜(requests)的示例代码

脚本专栏 2024/12/22 佚名

3 1 2

快活林资源网 Design By www.csstdc.com

'''
爬取豆瓣电影排行榜
设计思路：
       1、先获取电影类型的名字以及特有的编号
       2、将编号向ajax发送get请求获取想要的数据
       3、将数据存放进excel表格中
'''

环境部署：

软件安装：

Python 3.7.6

官网地址：https://www.python.org/

安装地址：https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe

PyCharm 2020.2.2 x64 位

官网地址：https://www.jetbrains.com/pycharm/download/#section=windows

参考教程：https://www.jb51.net/article/197466.htm

模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】)：安装requests模块、lxml模块（发送请求，xpath获取数据）

pip install requests #(主要用来发送请求，获取响应)

pip install lxml #(主要引用里面的etree里面的xpath方法)

安装xpathhelper插件（可以在网页中复制相应的节点xpath路径并查看）

1、下载地址：

链接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg

提取码: fmsu

2、window平台下：
    · 把文件的后缀名crx改为rar，然后解压到同名文件夹中
    · 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
    · 打开开发者模式，通过加载已解压的扩展程序，将插件导入
3、ios平台下：
    · 直接将crx文件拖进扩展程序中

安装xlwt模块（将数据存放进excel表格）

pip install xlwt

项目中需要引入的模块：

import requests
from lxml import etree
import xlwt
import time

使用流程：

在列表中填写所需要获取的电影类型名
输入开始时获取的start以及获取多少数据的limit
填写所要输出的excel表格的名字(代码中默认douban.xls)
程序运行结束后打开excel验证数据是否获取
观察自己所需的数据

完整代码：

# encoding=utf8
# 编程者 ：Alvin
'''
 爬取豆瓣电影排行榜
 设计思路：
 1、先获取电影类型的名字以及特有的编号
 2、将编号向ajax发送get请求获取想要的数据
 3、将数据存放进excel表格中
'''
import requests
from lxml import etree
import xlwt
import time

class DouBan():
 # 初始化数据，获取最外层的数据
 def __init__(self, name_list):
 self.headers = {
 "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
 "Connection": "close",
 "Referer": "https://movie.douban.com/"
 }
 # 获取最外层的数据，并拿到url中的type中的name 和 类型
 self.url = 'https://movie.douban.com/chart'
 self.dydata_list = []
 # 电影的类型名
 self.name_list = name_list
 # 实例化excel表格对象
 self.wb = xlwt.Workbook()


 # 通过电影的类型名字获取对应的类型号
 def get_data_typenum(self, name):
 for data in self.dydata_list:
 if data['name'] == name:
 typenum =data['dytype']
 else:
 continue
 return typenum

 # 获取数据
 def get_data_p1(self):
 response = requests.get(self.url , headers = self.headers)
 # 判断长度是否足够大
 # print(len(response.content.decode()))
 return response.content.decode()

 # 获取下一层的页面数据
 def get_data_p2(self, typenum, num, limit):
 url = 'https://movie.douban.com/j/chart/top_list'
 params = {
 'type': typenum,
 'interval_id': '100:90',
 'action':'',
 'start': num*20,
 'limit': limit
 }
 response = requests.get(url,params=params,headers=self.headers)
 # print(response.json())
 return response.json()

 # 处理数据
 def data_parse_p1(self, data):
 html = etree.HTML(data)
 data_list = html.xpath('//div[@class="types"]/span/a/@href')
 # 用于收集类型名字
 name_list = []
 dytype_list = []
 # 用于收集类型号
 for data in data_list:
 name = data.split('"text-align: center">
excel表格显示

本案例笔者的想法是打算先获取到每一个电影类型的前100个数据，然后在excel表格中进行评分的筛选，最后观察现阶段某个电影类型中哪些电影在豆瓣电影中评分较高的

python爬取豆瓣电影,python,requests

快活林资源网 Design By www.csstdc.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

快活林资源网 Design By www.csstdc.com

评论“python爬取豆瓣电影排行榜(requests)的示例代码”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年12月22日

python爬取豆瓣电影排行榜(requests)的示例代码

python 实现IP子网计算

详解python3 GUI刷屏器(附源码)

评论“python爬取豆瓣电影排行榜(requests)的示例代码”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接