1. 项目介绍
1.1 客户名称
映火科技(FlareVid Technology Co., Ltd.) 是一家短视频平台公司,主要服务移动互联网用户,核心用户为 18–30 岁的年轻群体。平台聚合原创与品牌共创内容,提供沉浸式观看、互动评论与直播电商等能力。以"智能创作,快乐分享"为使命,映火科技通过数据与 AI 持续优化内容分发、互动效率与用户留存,推动业务增长与商业化。
1.2 客户挑战
- 多源事件统一与成本可控:App/小程序/网页产生的观看、点赞、关注、分享等事件每天数百 GB,需要高吞吐采集并低成本长期保存,支持 T+1 分析。
- 评论情绪分析离线化:评论数据沉淀在 RDS,需以批处理方式完成中文情绪与关键词抽取,沉淀到数仓用于产品、内容与运营报表,而非实时告警。
- 指标口径统一:将"视频/创作者/渠道/地区"等维度与评论情绪打通,形成稳定的数据模型与仪表盘口径。
- 弹性与治理:支撑峰谷流量、活动大促,同时满足分层存储、血缘治理与权限隔离。
1.3 如何部署解决方案来应对挑战
(1) 应用事件采集(流式 → 数据湖)
- 客户端/服务端埋点经 ALB 进入应用集群。
- 事件写入 Kinesis Data Streams,通过 Kinesis Firehose 落地 S3。
- S3 生命周期:近 12 个月热数据保留;超期自动转 S3 Glacier 归档。
(2) 评论离线情绪分析(RDS 为源 → 批处理)
- 通过 AWS DMS 从 RDS 抽取增量评论到 S3/raw。
- 使用 AWS Glue ETL 进行清洗与标准化(去重、文本预处理、语言检测)。
- 调用 Amazon Comprehend 异步批处理完成情绪分类与关键词抽取,结果写入 S3/enriched。
(3) 数仓与可视化
- 使用 COPY/Spectrum 将富化结果加载至 Amazon Redshift。
- Amazon QuickSight 构建主题仪表盘:情绪趋势、负面占比、关键词云、活动对比、渠道分层等。
- S3 备份桶与跨层备份保障耐久性与合规。
1.4 AWS 服务构成
- Amazon EC2 Auto Scaling:承载在线业务与埋点接入,按负载自动伸缩。
- Amazon Kinesis Data Streams / Firehose:高吞吐采集应用事件并写入 S3。
- AWS DMS:从 RDS 增量抽取评论到 S3,便于批处理。
- Amazon S3:数据湖(原始/清洗/富化层)与备份。
- AWS Glue(Crawler / ETL / Workflow):元数据、清洗、转换与批处理编排。
- Amazon Comprehend(Batch):评论情绪与关键词抽取。
- Amazon Redshift(RA3):集中式分析数据仓库。
- Amazon S3 Glacier:长期归档、降低冷数据成本。
- Amazon QuickSight:自助式 BI 与可视化报表。
1.5 结果
通过AWS数据解决方案,映火科技实现了高效的数据处理与分析能力:
- T+1 情绪洞察:按视频/创作者/品类/渠道输出负面率、情绪净值(正−负)、关键词云与波动分析,为内容治理与推荐策略提供依据。
- 统一口径的增长分析:将事件行为与评论情绪在 Redshift 打通,支持留存、完播、分享率与情绪的相关性分析,定位影响因素。
- 成本优化:S3 分层 + Glacier 归档显著降低存储费用;批处理在离线窗口执行,计算资源弹性可控。
- 可扩展与可治理:以 S3 为中心的数据湖架构,便于引入多语种/内容合规等后续 AI 任务,同时保留审计与权限边界。
2. 架构设计
该方案的主要特点:
- 专有网络与安全接入:整体部署在 Amazon VPC 内,外部访问统一经 ALB;由 ACM 管理的证书提供 HTTPS 加密,保障传输安全。
- 弹性与高可用:后端服务运行在跨可用区的 EC2 Auto Scaling Group 中,随业务流量自动扩缩,兼顾高可用与成本效率。
- 应用事件高吞吐采集:移动端/网页埋点与服务端日志进入 Kinesis Data Streams;使用 Kinesis Data Firehose 将数据缓冲、压缩/格式化后落地 Amazon S3。
- 事件数据清洗:通过 AWS Glue ETL 对 S3 原始事件进行清洗、转换与结构化,沉淀为分析就绪的数据集。
- 评论离线情绪分析:通过 AWS DMS 从 RDS 抽取增量评论至 S3/raw;Glue 作业调用 Amazon Comprehend 完成情绪分类与关键词抽取;结果写入 S3/enriched 并装载至数仓。
- 数仓分析:清洗后的事件与评论情绪数据统一装载到 Amazon Redshift,提供大规模 OLAP 能力;必要时可用 Spectrum 直接查询 S3 历史。
- 可视化与洞察:Amazon QuickSight 直连 Redshift 搭建仪表盘,提供丰富的可视化分析能力。
- 分层与成本优化:S3 生命周期策略将长期未访问的数据自动转归档(S3 Glacier),在满足合规保留的同时降低成本;重要数据可在 S3 备份桶进行额外冗余。