斗鱼弹幕爬虫
斗鱼弹幕爬虫
具体思路
根据斗鱼开发文档 https://open.douyu.com/source/api/63
进行websocket端抓取
消息长度:4 字节小端整数,表示整条消息(包括自身)长度(字节数)。
消息长度出现两遍,二者相同。
消息类型:2 字节小端整数,表示消息类型。取值如下:
689 客户端发送给弹幕服务器的文本格式数据。
690 弹幕服务器发送给客户端的文本格式数据。
加密字段:暂时未用,默认为 0。保留字段:暂时未用,默认为 0。
websocket标准请查询
https://datatracker.ietf.org/doc/rfc6455/
中文版讲解
https://segmentfault.com/a/1190000005680323
具体服务为三个
- spider端:
连接websocket后实时获取弹幕信息通过gorutine连接rpc服务器进行存储 - RPC-server端:
连接数据库进行数据存储 查询工作 - Web端:
实现api接口进行参数解析 连接rpc进行查询
由于数据量剧增 新增cache层(redis缓存)。
- 0
- 0
-
分享