模拟Slave节点接收Binlog

2024 年 1 月 30 日发布在后端技术

前言

不知道阅读该篇文章的同学有没有听说过阿里的Binlog增量订阅组件Canal。通过Canal的简介我们也能大致看出Canal Server模拟了Mysql的Slave节点向Master发送Dump请求推送Binlog日志，再Canal Server接收到请求后对日志文件做数据过滤、加工最终推送到下游客户端（如ES、Hbase、Kafka）以实现诸如业务Cache刷新、业务增量数据处理等。
canal-introduction
该篇文章主要针对Canal Server如何模拟Slave节点并让Master节点推送Binlog日志，Canal组件肯定会对性能如IO这块做优化，这里建议去学习Canal整体的架构设计。
阅读全文

用scrapy写一个简单的爬虫

2018 年 5 月 17 日发布在爬虫

爬取豆瓣Top250的电影

即上次发的《简单聊聊scrapy》这次要写一些具体操作啦！首现当然是要创建一个projectscrapy startproject doubantop。执行完命令之后就会看到项目文件夹，下面就讲几个比较重要的文件。settings.py是这个项目的配置文件，里面包含了User_Agent、Cookie、还有一些中间件的配置、还可以自己写入一些配置比如mysql的的配置（主要是因为我用的是mysql，有兴趣的话可以用mongodb）。pipelines.py是对spider解析后的数据进行插入数据库等等操作的地方。middlewares.py可以自己定义一些中间件处理user_agent和header等等。最后spider目录下就是要写具体的spider啦!下面我们看下代码，代码中有相应的注释。
阅读全文

模拟Slave节点接收Binlog

前言

用scrapy写一个简单的爬虫

爬取豆瓣Top250的电影

晨晨晨晨晨晨🐼