AI 行业情报日报生成器

一个 AI 驱动的行业情报日报生成技能，自动搜集、过滤、编写并推送高质量的行业日报。默认以 Data+AI 行业为例，可通过配置文件切换至任何行业。

工作流程

当用户请求生成日报时，按以下步骤执行：

Step 1: 确认配置

读取工作区中的 daily-brief-config.json 配置文件（如果存在）
如不存在，使用 scripts/init_config.py 初始化默认配置
确认目标日期（默认当天）和输出渠道

Step 2: 信息采集与过滤

使用 web_search 工具，按以下优先级和过滤规则采集信息：

核心原则

数据平台优先，严格过滤。 每条信息必须能明确回答：这会影响企业数据平台的产品路线、架构设计、成本结构、治理方式、运维效率或 Agent 在数据场景的落地吗？如果不能明确回答"是"，一律不纳入。

信息宁缺毋滥。 绝不因为某个板块条目过少而降低准入标准放入低相关性内容。如果某个板块（如 B. Product & Tech）当日没有合格信息，该板块留空，在总判断中简要说明即可。日报的价值在于精准，不在于条数多。

覆盖范围与时效性（红线规则）

工作日（周二至周五） 严格只覆盖过去 24 小时内（日报日期前一天 08:00 至当天 08:00 CST）首次公开发布的信息。

周一特殊规则： 由于周末不发布日报，周一日报的时效性窗口扩展为 72 小时（上周五 08:00 CST 至周一 08:00 CST），覆盖周五、周六、周日三天的信息。周一日报总量上限从 8-12 条放宽至 12-18 条，但准入标准不变。周一日报标题标注为《Data+AI 全球日报 | YYYY-MM-DD（含周末）》。

⚠️ 时效性红线——以下情况一律不得纳入：

原始发布日期早于当期时效窗口的信息，即使刚被搜索引擎收录、被转载或被新文章引用
已在此前日报中出现过的信息
产品发布日期在数天甚至数周前，仅因搜索排序靠前而被发现的旧公告
会议/峰会日程等已提前公布、非今日首次披露的常态信息

✅ 时效性判定方法——对每条候选信息必须执行：

查看原始页面的发布日期（publish date），而非搜索引擎收录日期或媒体转载日期
如果发布日期不在当期时效窗口内，直接排除，不论内容多重要
对于「X日发布、Y日生效」的公告，以发布日期为准；如果生效日在窗口内且有实际市场影响，可纳入但必须标注为「X日发布，今日生效」
日报撰写前，先列出所有候选信息的发布日期清单，逐条确认时效性后再开始撰写

聚焦领域：

大数据、数据平台、数据基础设施
数据治理、数据工程、数据智能平台
湖仓架构、查询引擎、流批处理
向量检索基础设施、开源数据生态

AI 相关信息仅在明确影响数据平台的成本、性能、架构、治理、开发运维效率或 Agent 在数据工作流中落地时才纳入。

严格排除

纯 AI 新闻（纯模型发布、纯 benchmark、纯消费级 AI 产品、纯通用 Agent、纯融资/营销叙事）
AI 产业中与数据平台无直接关系的动态（AI 芯片投资、AI 数据中心地产、AI 监管政策等，除非明确影响数据平台架构或成本）
财经媒体、大众媒体的二手报道和分析（Bloomberg、Reuters、CNBC、36氪、虎嗅、钛媒体等的转述和评论）
搬运号、标题党、无来源转述、无法验证的爆料

厂商关注优先级

第一优先级（全球+中国头部）： AWS、Google Cloud、Microsoft Azure、Databricks、Snowflake、阿里云、腾讯云、华为云、字节跳动火山引擎

第二优先级（重要厂商）： Confluent、MongoDB、Elastic、ClickHouse、Cloudera、Starburst/Trino、dbt Labs、Fivetran、Airbyte、Dataiku、Palantir、百度智能云、京东云

仅在与数据平台直接相关时关注： NVIDIA、Intel、AMD 等基础设施厂商

开源项目与社区

Iceberg、Hudi、Paimon、Delta Lake、Trino、Spark、Flink、Ray、Airflow、Kafka、dbt、ClickHouse、DuckDB、Milvus、Weaviate、Lance/LanceDB、StarRocks、Doris、SeaTunnel、Amoro 等。

分析师机构与行业研报

全球头部分析师机构： Gartner（Magic Quadrant、Hype Cycle、Market Guide）、Forrester（Wave、TEI、Now Tech）、IDC（MarketScape、预测报告、市场份额跟踪）、a16z、Sequoia、Bessemer 等顶级投资机构。

国内知名研究机构： 中国信息通信研究院（信通院）— 大数据白皮书、数据治理标准；赛迪研究院（CCID）— 中国大数据产业报告；中国电子技术标准化研究院（电子标准院）— DCMM 标准；艾瑞咨询 — 数据智能行业研究；亿欧智库 — 数据基础设施研究。

头部券商研报： 国内外头部券商研报中与数据平台直接相关的核心论点和数据。券商研报与财经证券分析一律归入 D. Analyst Insights，不得放入 B 类或其他类别。

每条需注明：机构名称、报告来源、核心数据/预测、对数据平台的直接映射。

信源要求

仅接受一手来源：

官网、官方博客、官方文档、release notes、GitHub 官方仓库
论文原文、官方 keynote
创始人/CEO/CTO/Chief Architect/研究负责人/核心开源 maintainer 的原始发言（X、LinkedIn、个人博客、Substack）
earnings call 原始记录（非媒体转述）
分析师机构官方报告、头部券商研报（需标注机构和报告名称）
通过 PR Newswire/Business Wire/GlobeNewswire 发布的官方新闻稿

不接受：

财经媒体、大众媒体的二手分析和转述（分析师机构官方报告除外）
非官方消息至少两个可信一手来源交叉验证，无法确认则标注「⚠️ 待验证」

来源标注规则：

来自官方公告 → 标注为「XX 官方公告」，链接指向官方页面
来自媒体报道且未追溯到一手来源 → 如实标注为「据 XX 媒体报道」，不得标注为「XX 官方」
来自分析师机构 → 标注为「XX 机构报告」，链接指向机构官方页面
无法追溯到一手来源 → 标题或来源处标注「⚠️ 待验证」

Step 3: 编写日报

搜索策略（三阶段）

搜索必须分为三个阶段，确保信息质量：

阶段一：一手来源定向搜索（必须执行）

针对第一优先级厂商，逐一搜索其官方渠道：

英文搜索：

site:databricks.com OR site:snowflake.com OR site:aws.amazon.com announcement
site:cloud.google.com OR site:azure.microsoft.com data platform announcement
site:github.com (apache/iceberg OR apache/spark OR apache/flink OR trinodb/trino) release
site:prnewswire.com OR site:businesswire.com data platform OR data lake OR data warehouse

中文搜索：

site:cloud.tencent.com OR site:help.aliyun.com 数据发布
site:volcengine.com OR site:huaweicloud.com 数据公告
site:caict.ac.cn OR site:ccidreport.com OR site:cesi.cn 数据发布报告

阶段二：扩展搜索（补充覆盖）

使用通用关键词搜索以发现阶段一可能遗漏的信息：

英文：

"data platform" OR "data infrastructure" release announcement {date_range}
Databricks OR Snowflake OR "data lakehouse" announcement {date_range}
Apache Iceberg OR Hudi OR Paimon OR "Delta Lake" release {date_range}
"data governance" OR "data catalog" OR "data quality" announcement {date_range}
Gartner OR Forrester OR IDC "data platform" OR "data analytics" {date_range}
ClickHouse OR DuckDB OR StarRocks OR Doris release update {date_range}

中文：

数据平台 OR 数据基础设施发布公告
湖仓一体 OR 数据湖 OR 数据治理新品
阿里云 OR 腾讯云 OR 华为云数据发布

阶段三：来源溯源（强制执行）

对阶段二中通过媒体报道发现的信息，必须使用 web_fetch 或追加 site: 搜索追溯到一手来源。如果无法找到一手来源，该条目必须标注「⚠️ 待验证」或降级到 Watchlist。

搜索覆盖硬性要求：必须对所有第一优先级厂商至少执行一次定向搜索。如果某一天第一优先级厂商确实无重大更新，在日报开头的总判断中补充一句说明。

输出格式

标题：《Data+AI 全球日报 | YYYY-MM-DD》

开头：

今日最重要的3个变化（一句话概括）
一句总判断：今天行业信号更偏向平台整合、成本优化、治理强化、Agent落地或开源加速中的哪一类

正文板块：

A. Top Signals（3条） 每条包含：事件标题、来源（具体出处+链接）、摘要（2-3句）、为什么对数据平台重要

B. Product & Tech（0-6条，宁缺毋滥） 严格限定为数据平台相关的产品与技术动态，仅包括：云厂商数据产品发布/功能更新/版本升级、开源数据项目版本发布/重大PR合并、数据平台技术框架组件升级、数据工具链新版本。以下内容不属于 B 类：政策文件、股市行情、券商研报、行业分析、基础设施（电力/散热/芯片）动态、AI模型发布（除非直接集成到数据平台产品中）。如果当日确实没有合格的产品/技术发布，B 类留空并在总判断中说明，不得为了填充而放入不相关内容。每条包含：事件标题、来源、摘要（1-2句）、对数据平台的影响判断

C. People & Views（1-3条） 每条包含：人物及职位、原始来源、核心观点、映射到数据平台的判断

D. Analyst Insights（1-3条） 统一归集全球分析师机构（Gartner/Forrester/IDC）、国内研究机构（信通院/赛迪/艾瑞等）、头部券商研报（国内外）以及顶级投资机构的行业分析。券商研报与财经证券分析一律归入此类，不得放入 B 类或其他类别。每条包含：机构名称、报告/来源、核心论点和数据、对数据平台的映射。筛选标准：仅纳入与数据平台成本、架构、市场格局直接相关的研报论点。

E. Watchlist（1-3条） 值得继续跟踪但尚未定论的信息，说明待验证或需继续观察的原因

要求：

输出中文，专业、简洁、克制
每条信息必须有：来源（具体链接或出处）、摘要、影响判断
总量控制在 8-12 条（周一为 12-18 条），宁少勿滥
不杜撰数据

Step 4: 生成输出文件

生成 Markdown 文件：Data+AI全球日报_{date}.md
生成 HTML 文件：使用 assets/report-template.html 模板，生成美观的 HTML 版本 Data+AI全球日报_{date}.html
- HTML 中每条信息的来源带有可点击的超链接
- 使用现代化的卡片式布局

Step 5: 推送（按配置）

根据 daily-brief-config.json 中的配置，执行推送。支持以下 9 大渠道：

国内渠道

企业微信：scripts/send_wecom.py
- 先发精简摘要版（<4096字节），再发完整版 HTML 文件
- 摘要采用3层优先级填充：层级1（标题+今日变化+总判断）→ 层级2（板块标题+新闻标题）→ 层级3（一句话摘要，按剩余空间填充）
- 摘要中不带任何链接，保持纯文本阅读体验，来源仅以文字标注
- 所有来源链接仅在 HTML 完整版中呈现
- 支持防重复推送锁，避免同一日期重复推送
- 配置：群机器人 Webhook URL → WECOM_WEBHOOK_URL
钉钉：scripts/send_dingtalk.py
- 支持 Markdown 消息 + 链接消息，支持加签安全验证
- 配置：群机器人 Webhook → DINGTALK_WEBHOOK_URL，可选加签 → DINGTALK_SECRET
- 限制：每分钟最多 20 条消息
飞书：scripts/send_feishu.py
- 支持富文本（post）和交互卡片（含按钮）两种模式
- 配置：群机器人 Webhook → FEISHU_WEBHOOK_URL，可选签名 → FEISHU_SECRET
- 卡片模式：--card --link-url <URL>
- 限制：每分钟 5 条，每小时 100 条

国际渠道

Slack：scripts/send_slack.py
- 使用 Block Kit 富消息格式，支持按钮链接
- 配置：Incoming Webhook URL → SLACK_WEBHOOK_URL
Discord：scripts/send_discord.py
- 使用 Embed 消息格式，支持文件上传
- 配置：Webhook URL → DISCORD_WEBHOOK_URL
- 限制：Embed 描述 4096 字符，每秒 5 次
Telegram：scripts/send_telegram.py
- 通过 Bot API 推送 HTML 格式消息，支持文件上传
- 配置：Bot Token → TELEGRAM_BOT_TOKEN，Chat ID → TELEGRAM_CHAT_ID
- 限制：消息 4096 字符，每秒 30 条
Microsoft Teams：scripts/send_teams.py
- 支持 Adaptive Card（推荐）和旧版 MessageCard 格式
- 配置：Incoming Webhook → TEAMS_WEBHOOK_URL
- 旧版兼容：--legacy

通用渠道

邮件：scripts/send_email.py
- SMTP 邮件推送，HTML 正文 + 纯文本备选
- 配置：SMTP_HOST, SMTP_USER, SMTP_PASSWORD, EMAIL_TO
GitHub Pages：scripts/deploy_github.py
- 部署到 GitHub Pages 作为公开访问的网页，自动归档历史版本
- 配置：GITHUB_TOKEN, GITHUB_USER

自定义指南

修改关注领域

编辑 daily-brief-config.json 中的 customization 字段，可自定义：

关注的行业领域（默认 Data+AI）
厂商优先级列表
开源项目列表
输出语言和格式

添加推送渠道

在 daily-brief-config.json 的 adapters 中启用渠道并填入配置：

渠道	配置键	类型	主要环境变量
企业微信	`wechatwork`	Webhook	`WECOM_WEBHOOK_URL`
钉钉	`dingtalk`	Webhook	`DINGTALK_WEBHOOK_URL`, `DINGTALK_SECRET`
飞书	`feishu`	Webhook	`FEISHU_WEBHOOK_URL`, `FEISHU_SECRET`
Slack	`slack`	Webhook	`SLACK_WEBHOOK_URL`
Discord	`discord`	Webhook	`DISCORD_WEBHOOK_URL`
Telegram	`telegram`	Bot API	`TELEGRAM_BOT_TOKEN`, `TELEGRAM_CHAT_ID`
Teams	`teams`	Webhook	`TEAMS_WEBHOOK_URL`
邮件	`email`	SMTP	`SMTP_HOST`, `SMTP_USER`, `SMTP_PASSWORD`
GitHub	`github`	API	`GITHUB_TOKEN`, `GITHUB_USER`

调整定时任务

修改 daily-brief-config.json 中的 cron 配置：

{
  "schedule": "0 8 * * 1-5",
  "timezone": "Asia/Shanghai"
}

data-ai-daily-brief

Safety Notice

Copy this and send it to your AI assistant to learn