python爬虫scrapy基本使用超详细教程

脚本专栏 2024/12/26 佚名

3 1 2

快活林资源网 Design By www.csstdc.com

一、介绍

官方文档：中文2.3版本

下面这张图大家应该很熟悉，很多有关scrapy框架的介绍中都会出现这张图，感兴趣的再去查询相关资料，当然学会使用scrapy才是最主要的。

二、基本使用

2.1 环境安装

1.linux和mac操作系统：

pip install scrapy

2.windows系统：

先安装wheel：pip install wheel
下载twisted：下载地址

安装twisted：

pip install Twisted"text-align: center">
2.2 scrapy使用流程
这里默认大家已经安装好scrapy库，大家要记得要在命令行里输入以下命令啊。(我使用的anaconda的命令行)
创建工程


scrapy startproject projectName





进入工程目录：这里一定要进入到刚才创建好的目录中




cd projectName



创建爬虫文件：创建的爬虫文件会出现在之前创建好的spiders文件夹下


scrapy genspider spiderName www.xxx.com



编写相关代码
执行爬虫文件




scrapy crawl spiderName



2.3 文件解析


import scrapy

class HelloSpider(scrapy.Spider):
 name = 'hello' # 爬虫名称

 # 允许的域名:限定start_urls列表当中哪些url可以进行请求的发送
 # 通常情况下我们不会使用
 # allowed_domains = ['www.baidu.com'] 

 # 起始的url列表:scrapy会自动对start_urls列表中的每一个url发起请求
 # 我们可以手动添加我们需要访问的url
 start_urls = ['https://www.baidu.com/','https://www.csdn.net/']

 def parse(self, response): # 当scrapy自动向start_urls中的每一个url发起请求后，会将响应对象保存在response对象中
 # 代码一般是在parse方法中写
 print("response:",response)



2.4 settings.py一些常见的设置
相当于requests中的headers参数中的User-Agent


USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36 Edg/88.0.705.68'


可以忽略或者不遵守robots协议


ROBOTSTXT_OBEY = False 


只有程序出现错误的情况下，才显示日志文件，程序正常执行时只会输出我们想要的结果


LOG_LEVEL='ERROR' == scrapy crawl spiderName --nolog
//二者是等价的，当然还是推荐使用前者


未加LOG_LEVEL='ERROR'

加LOG_LEVEL='ERROR'之后

scrapy 爬取文件保存为CSV文件中文乱码的解决办法


//下面的设置可能会导致繁体出现,可以逐个试一下
FEED_EXPORT_ENCODING = "gb18030"
FEED_EXPORT_ENCODING = "utf-8"
FEED_EXPORT_ENCODING = "gbk"



三、实例
3.1 实例要求
目的：爬取百度网页的百度热榜
 
3.2 实例代码
实例代码
 
3.3 输出结果
结果


                                
                                    python爬虫scrapy使用,python爬虫scrapy框架 
                                快活林资源网 Design By www.csstdc.com


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    安装不同版本的tensorflow与models方法实现
                                
                            
                            
                                
                                    下一篇
                                    解决pip安装tensorflow中出现的no module named tensorflow.python 问题方法
                                
                            
                        
                        
                        快活林资源网 Design By www.csstdc.com
                        
                            
                                
                                
                                    评论“python爬虫scrapy基本使用超详细教程”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.csstdc.com
                                            
                                                快活林资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            120,135影音资源
                                        
                                        
                                            344,641技术资源
                                        
                                        
                                            22,817软件资源
                                        
                                        
                                            435,032站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《三国志8重置版》劝降机制介绍
                                                
                                                
                                                    
                                                        2024/12/26
                                                        
                                                         42
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《欢欣森活》最新官方配置要求一览
                                                
                                                
                                                    
                                                        2024/12/26
                                                        
                                                         12
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《欢欣森活》存档方法
                                                
                                                
                                                    
                                                        2024/12/26
                                                        
                                                         72
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《炉石传说》2024新赛季上线更新内容问题汇
                                                
                                                
                                                    
                                                        2024/12/26
                                                        
                                                         16
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《南瓜恐慌》进不去游戏解决方法
                                                
                                                
                                                    
                                                        2024/12/26
                                                        
                                                         61
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    《战舰世界》语音包文件夹位置介绍
                                                
                                                
                                                    
                                                        2024/12/26
                                                        
                                                         18
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            站点导航
抖音极速版红果短剧哔哩哔哩王者荣耀和平精英腾讯视频爱奇艺QQ音乐咸鱼之王逆水寒三国志战略版梦幻西游金铲铲之战捕鱼大作战原神英雄联盟手游网易云音乐崩坏星穹铁道酷狗音乐蛋仔派对


            P70系列延期，华为新旗舰将在下月发布
3月20日消息，近期博主@数码闲聊站 透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。而博主@定焦数码 爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年12月26日
                                
                                                    
                        
 
                            群星《奔赴！万人现场 第2期》[FLAC/分轨][518.87MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[320K/MP3][43.91MB]
 
                            群星《奇妙浪一夏 (上海迪士尼度假区音乐)》[FLAC/分轨][140.49MB]
 
                            【古典音乐】詹姆斯·高威《季节》1993[WAV+CUE]
 
                            贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

                        
                    
                    
                        2024年12月26日
                    
                    
                        
 
                            小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
 
                            群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
 
                            群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
 
                            雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
 
                            群星《2024好听新歌42》AI调整音效【WAV分轨】
 
                            王思雨-《思念陪着鸿雁飞》WAV
 
                            王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
 
                            李健《无时无刻》[WAV+CUE][590M]
 
                            陈奕迅《酝酿》[WAV分轨][502M]
 
                            卓依婷《化蝶》2CD[WAV+CUE][1.1G]
 
                            群星《吉他王(黑胶CD)》[WAV+CUE]
 
                            齐秦《穿乐(穿越)》[WAV+CUE]
 
                            发烧珍品《数位CD音响测试-动向效果（九）》【WAV+CUE】
 
                            邝美云《邝美云精装歌集》[DSF][1.6G]
 
                            吕方《爱一回伤一回》[WAV+CUE][454M]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            快活林资源网 Design By www.csstdc.com
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                         Copyright © 2006~2023
                         快活林资源网 Design by www.csstdc.com  手机版