凯发备用网址
9
点赞
0
评论
1
转载
收藏

面向去中心化社交网络的实时数据采集与预处理框架 fedilive-凯发备用网址

去中心化在线社交网络(decentralized  online social networks)为研究社交网络用户交互、治理、隐私保护与跨社区内容传播提供了全新的研究对象。然而,服务器分散、接口异构与严格限速使得“一次性抓取全平台快照”成为研究去中心化在线社交网络的一大挑战。复旦大学网络大数据实验室聚焦去中心化在线社交网络大规模数据快速采集问题,设计实现了面向去中心化社交网络的实时数据采集与预处理框架 fedilive。该框架围绕“全量、实时、合规”三大目标,构建了高并发、高容错、易扩展的跨实例爬取与数据预处理框架。通过动态限速、轮询去重、id 冲突解决及多线程调度等技术,能够在有限计算资源下高效完成超过9000个mastodon 实例的全平台采集。


目前 fedilive 发布了 1.0.0 版本,对应论文发表于www'25会议的resource track。我们针对大规模、周期性数据采集需求,重点强化了以下功能:

  • 自动实例发现与监控:为每次爬取实时更新上线或迁出的实例,支持弹性扩容与任务重分配
  • 增量式爬取 & 版本化快照:按时间窗生成差分数据,便于纵向演化研究
  • 合规采集:全面遵守各实例 robots.txt 与 api 限速策略,默认屏蔽非公开内容,提高伦理合规性

 

欢迎各位研究者与开发者试用并提出宝贵意见!


 

fedilive 相关网址如下:


论文链接:


项目源代码:

声明:本内容系学者网用户个人学术动态分享,不代表平台立场。

评论 0

默认头像
scholat.com 学者网
免责声明 | 关于凯发备用网址 | 联系凯发备用网址
联系凯发备用网址:
网站地图