Scrapy中如何向Spider传入参数的方法实现

脚本专栏 2024/12/24 佚名

3 1 2

快活林资源网 Design By www.csstdc.com

在使用Scrapy爬取数据时，有时会碰到需要根据传递给Spider的参数来决定爬取哪些Url或者爬取哪些页的情况。

例如，百度贴吧的放置奇兵吧的地址如下，其中 kw参数用来指定贴吧名称、pn参数用来对帖子进行翻页。

https://tieba.baidu.com/f"color: #ff0000">方式一


通过 scrapy crawl 命令的 -a 参数向 spider 传递参数。


# -*- coding: utf-8 -*-
import scrapy

class TiebaSpider(scrapy.Spider):
  name = 'tieba' # 贴吧爬虫
  allowed_domains = ['tieba.baidu.com'] # 允许爬取的范围
  start_urls = [] # 爬虫起始地址

  # 命令格式： scrapy crawl tieba -a tiebaName=放置奇兵 -a pn=250
  def __init__(self, tiebaName=None, pn=None, *args, **kwargs):
    print('< 贴吧名称 >： ' + tiebaName)
    super(eval(self.__class__.__name__), self).__init__(*args, **kwargs)
    self.start_urls = ['https://tieba.baidu.com/f"color: #ff0000">方式二
仿照 scrapy 的 crawl 命令的源代码，重新自定义一个专用命令。

settings.py
首先，需要在settings.py文件中增加如下配置来指定自定义 scrapy 命令的存放目录。


# 指定 Scrapy 命令存放目录
COMMANDS_MODULE = 'baidu_tieba.commands'


run.py
在指定的命令存放目录中创建命令文件，在这里我们创建的命令文件为 run.py ，将来执行的命令格式为：

scrapy run [ -option option_value] 。


import scrapy.commands.crawl as crawl
from scrapy.exceptions import UsageError
from scrapy.commands import ScrapyCommand


class Command(crawl.Command):

  def add_options(self, parser):
    # 为命令添加选项
    ScrapyCommand.add_options(self, parser)
    parser.add_option("-k", "--keyword", type="str", dest="keyword", default="",
             help="set the tieba's name you want to crawl")
    parser.add_option("-p", "--pageNum", type="int", action="store", dest="pageNum", default=0,
             help="set the page number you want to crawl")

  def process_options(self, args, opts):
    # 处理从命令行中传入的选项参数
    ScrapyCommand.process_options(self, args, opts)
    if opts.keyword:
      tiebaName = opts.keyword.strip()
      if tiebaName != '':
        self.settings.set('TIEBA_NAME', tiebaName, priority='cmdline')
    else:
      raise UsageError("U must specify the tieba's name to crawl,use -kw TIEBA_NAME!")
    self.settings.set('PAGE_NUM', opts.pageNum, priority='cmdline')

  def run(self, args, opts):
    # 启动爬虫
    self.crawler_process.crawl('tieba')
    self.crawler_process.start()



pipelines.py
在BaiduTiebaPipeline的open_spider()方法中利用 run 命令传入的参数对TiebaSpider进行初始化，在这里示例设置了一下start_urls。


# -*- coding: utf-8 -*-
import json

class BaiduTiebaPipeline(object):

  @classmethod
  def from_settings(cls, settings):
    return cls(settings)

  def __init__(self, settings):
    self.settings = settings

  def open_spider(self, spider):
    # 开启爬虫
    spider.start_urls = [
      'https://tieba.baidu.com/f"htmlcode">

ITEM_PIPELINES = {
  'baidu_tieba.pipelines.BaiduTiebaPipeline': 50,
}


启动示例
大功告成，参照如下命令格式启动贴吧爬虫。 


scrapy run -k 放置奇兵 -p 250



参考文章：
https://blog.csdn.net/c0411034/article/details/81750028 
https://blog.csdn.net/qq_24760381/article/details/80361400 
https://blog.csdn.net/qq_38282706/article/details/80991196 

                                
                                
                                    Scrapy,Spider传入参数,Scrapy,Spider,参数 
                                快活林资源网 Design By www.csstdc.com


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    python在CMD界面读取excel所有数据的示例
                                
                            
                            
                                
                                    下一篇
                                    python调用摄像头的示例代码
                                
                            
                        
                        
                        快活林资源网 Design By www.csstdc.com
                        
                            
                                
                                
                                    评论“Scrapy中如何向Spider传入参数的方法实现”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.csstdc.com
                                            
                                                快活林资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            120,135影音资源
                                        
                                        
                                            344,641技术资源
                                        
                                        
                                            22,817软件资源
                                        
                                        
                                            435,032站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《三国志8重置版》劝降机制介绍
                                                
                                                
                                                    
                                                        2024/12/24
                                                        
                                                         42
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《欢欣森活》最新官方配置要求一览
                                                
                                                
                                                    
                                                        2024/12/24
                                                        
                                                         12
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《欢欣森活》存档方法
                                                
                                                
                                                    
                                                        2024/12/24
                                                        
                                                         72
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《炉石传说》2024新赛季上线更新内容问题汇
                                                
                                                
                                                    
                                                        2024/12/24
                                                        
                                                         16
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《南瓜恐慌》进不去游戏解决方法
                                                
                                                
                                                    
                                                        2024/12/24
                                                        
                                                         61
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《战舰世界》语音包文件夹位置介绍
                                                
                                                
                                                    
                                                        2024/12/24
                                                        
                                                         18
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            一句话新闻
一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2024/12/24

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。


            稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！
昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年12月24日
                                
                                                    
                        
 
                            群星《奔赴！万人现场 第2期》[FLAC/分轨][518.87MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[320K/MP3][43.91MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[FLAC/分轨][140.49MB]
 
                            【古典音乐】詹姆斯·高威《季节》1993[WAV+CUE]
 
                            贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

                        
                    
                    
                        2024年12月24日
                    
                    
                        
 
                            小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
 
                            群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
 
                            群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
 
                            雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
 
                            群星《2024好听新歌42》AI调整音效【WAV分轨】
 
                            王思雨-《思念陪着鸿雁飞》WAV
 
                            王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
 
                            李健《无时无刻》[WAV+CUE][590M]
 
                            陈奕迅《酝酿》[WAV分轨][502M]
 
                            卓依婷《化蝶》2CD[WAV+CUE][1.1G]
 
                            群星《吉他王(黑胶CD)》[WAV+CUE]
 
                            齐秦《穿乐(穿越)》[WAV+CUE]
 
                            发烧珍品《数位CD音响测试-动向效果（九）》【WAV+CUE】
 
                            邝美云《邝美云精装歌集》[DSF][1.6G]
 
                            吕方《爱一回伤一回》[WAV+CUE][454M]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            快活林资源网 Design By www.csstdc.com
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                         Copyright © 2006~2023
                         快活林资源网 Design by www.csstdc.com  手机版