什么是“增量更新”?
增量更新(incremental update)就是:
只处理新增或变动的数据,不重复插入已存在的旧数据。
📌 你当前的流程:
你每次跑脚本,把所有 Excel 文件都读取一遍,然后插入 ClickHouse 表。
这样做的问题:
- 如果文件没变,就重复插入相同的数据
- 浪费时间、资源,数据也可能出现重复
✅ 增量更新的目标:
只插入数据库中还没有的数据,比如:
- 某个
stock_code
、report_date
组合在数据库里还没有 → 插入 ✅ - 已经有这条数据了 → 跳过 ❌
🚀 优化建议:
你可以提前把所有已有的 stock_code + report_date
缓存进一个集合,加速判断:
总结一下:
问题 | 增量更新解决 |
---|---|
数据重复插入? | ✅ 只插新数据 |
插入变慢? | ✅ 少处理无用文件 |
数据正确性? | ✅ 保持唯一性,不重复写入 |