增量更新

Posted by:

|

On:

|

什么是“增量更新”?

增量更新(incremental update)就是:

只处理新增或变动的数据,不重复插入已存在的旧数据。


📌 你当前的流程:

你每次跑脚本,把所有 Excel 文件都读取一遍,然后插入 ClickHouse 表。

这样做的问题:

  • 如果文件没变,就重复插入相同的数据
  • 浪费时间、资源,数据也可能出现重复

✅ 增量更新的目标:

只插入数据库中还没有的数据,比如:

  • 某个 stock_codereport_date 组合在数据库里还没有 → 插入 ✅
  • 已经有这条数据了 → 跳过 ❌

🚀 优化建议:

你可以提前把所有已有的 stock_code + report_date 缓存进一个集合,加速判断:

总结一下:

问题增量更新解决
数据重复插入?✅ 只插新数据
插入变慢?✅ 少处理无用文件
数据正确性?✅ 保持唯一性,不重复写入