用scrapy写一个简单的爬虫

发布在 爬虫

爬取豆瓣Top250的电影

即上次发的《简单聊聊scrapy》这次要写一些具体操作啦!首现当然是要创建一个projectscrapy startproject doubantop。执行完命令之后就会看到项目文件夹,下面就讲几个比较重要的文件。settings.py是这个项目的配置文件,里面包含了User_Agent、Cookie、还有一些中间件的配置、还可以自己写入一些配置比如mysql的的配置(主要是因为我用的是mysql,有兴趣的话可以用mongodb)。pipelines.py是对spider解析后的数据进行插入数据库等等操作的地方。middlewares.py可以自己定义一些中间件处理user_agent和header等等。最后spider目录下就是要写具体的spider啦!下面我们看下代码,代码中有相应的注释。
阅读全文

  • 第 1 页 共 1 页
作者的图片

晨晨晨晨晨晨🐼

凛冬散尽,待春拂面,星河长明。


Java开发者、PHP开发者、DevOps爱好者


杭州,中国🇨🇳