模拟Slave节点接收Binlog

发布在 后端技术

前言

不知道阅读该篇文章的同学有没有听说过阿里的Binlog增量订阅组件Canal。通过Canal的简介我们也能大致看出Canal Server模拟了Mysql的Slave节点向Master发送Dump请求推送Binlog日志,再Canal Server接收到请求后对日志文件做数据过滤、加工最终推送到下游客户端(如ES、Hbase、Kafka)以实现诸如业务Cache刷新、业务增量数据处理等。
canal-introduction
该篇文章主要针对Canal Server如何模拟Slave节点并让Master节点推送Binlog日志,Canal组件肯定会对性能如IO这块做优化,这里建议去学习Canal整体的架构设计。
阅读全文

用scrapy写一个简单的爬虫

发布在 爬虫

爬取豆瓣Top250的电影

即上次发的《简单聊聊scrapy》这次要写一些具体操作啦!首现当然是要创建一个projectscrapy startproject doubantop。执行完命令之后就会看到项目文件夹,下面就讲几个比较重要的文件。settings.py是这个项目的配置文件,里面包含了User_Agent、Cookie、还有一些中间件的配置、还可以自己写入一些配置比如mysql的的配置(主要是因为我用的是mysql,有兴趣的话可以用mongodb)。pipelines.py是对spider解析后的数据进行插入数据库等等操作的地方。middlewares.py可以自己定义一些中间件处理user_agent和header等等。最后spider目录下就是要写具体的spider啦!下面我们看下代码,代码中有相应的注释。
阅读全文

  • 第 1 页 共 1 页
作者的图片

晨晨晨晨晨晨🐼

凛冬散尽,待春拂面,星河长明。


Java开发者、PHP开发者、DevOps爱好者


杭州,中国🇨🇳