爬取豆瓣Top250的电影
即上次发的《简单聊聊scrapy》这次要写一些具体操作啦!首现当然是要创建一个projectscrapy startproject doubantop
。执行完命令之后就会看到项目文件夹,下面就讲几个比较重要的文件。settings.py
是这个项目的配置文件,里面包含了User_Agent、Cookie、还有一些中间件的配置、还可以自己写入一些配置比如mysql的的配置(主要是因为我用的是mysql,有兴趣的话可以用mongodb)。pipelines.py
是对spider解析后的数据进行插入数据库等等操作的地方。middlewares.py
可以自己定义一些中间件处理user_agent和header等等。最后spider目录下就是要写具体的spider啦!下面我们看下代码,代码中有相应的注释。
阅读全文