关于 live-meme-radar
这是什么
live-meme-radar 是一个开源的 B 站 V 圈直播弹幕实时梗扩散观测站。 它每分钟拉取热门直播间的弹幕,把语义相近的内容聚类成"梗", 并显示哪些梗正在跨房间扩散、哪些主播是直播圈最快的"梗放大器"。
本站观测的是什么(很重要)
本站观测的是直播弹幕生态层的扩散。 许多梗实际起源于视频投稿、二创、微博、抖音、贴吧或同人圈; 我们追踪的"起源"仅指它在直播间扩散的最早可观测点, 不是该梗的真实源头。
这跟 Twitter Trending 的逻辑是一样的 —— Twitter 不告诉你 hashtag 谁第一个发明, 它告诉你它现在正在 Twitter 上传播。我们在直播圈做同样的事。
数据来源
- 上游公开存档:danmakus.com / ukamnads.icu 提供的弹幕回放 API,以及他们维护者的辛勤工作。
- 双源策略:chatterbox userscript 用户(opt-in)上报的本地观察,降低单一上游依赖。
- 所有 uid 在入库前一律 SHA-256 哈希;原文弹幕永不通过 API 暴露。
数据保留期
- 原始消息(
radar_messages): 30 天滑动窗口,过期 GC。 - 聚合统计(时间序列、Live Amplifier 评分): 永久保留。
- 不存任何观众的可关联个人信息。
方法论
弹幕用 Qwen3-Embedding-0.6B (1024 维) 做语义向量化,流式增量聚类 (中心点匹配 + cosine 阈值 0.85),热度 + 多尺度斜率打分。 实测命中率 45-47%(不是最初设想的 70%),所以 free tier Workers AI 只能跟踪 Top 20 房间。FINDINGS.md →
"梗" vs "高频反应词":实测发现像 "急急急" / "快快快" 这种纯
情境化反应(一群人在 LPL 比赛里同时喊"快上")会被算法当成跨房间扩散的梗。
为避免这种误识别,/radar/clusters/today 默认只返回
distinct_room_count >= 2 的簇 —— 真正跨情境复用的内容才算梗。
查看含单房间全列表 →
Live Amplifier 排行的伦理
Amplifier 排行衡量的是"主播多快把外部梗带进自己直播间", 我们用 "反应快 / 早期采用者" 这种中性措辞, 不评价"创造"或"跟风"。该指标只用公开主播频道 uid + 公开弹幕数据, 只考虑跨 ≥2 房间扩散的簇(单房间"first use"在伦理上不构成 amplification)。
上线前已主动联系 Top 10 主播说明本站。 如果你是被列出的主播,希望从排行里下架, 请提 GitHub issue 或邮件联系 maintainer。
开源 / 联系
代码 MIT 协议开源,见 GitHub。 反馈 / bug 请提 issue。