自從DeepSeek推出以來,我一直在嘗試構建我自己的產品。



起初,我一無所知——所以我使用了一個“解耦工作流”:爲每一個小步驟寫一個.md文件,閱讀它,確認邏輯,然後進入下一個步驟。

然後我學會了編寫JSON,嘗試將數據放入LiteSQL,並弄清楚如何檢查數據庫。但一旦數據變得更大,LiteSQL IO就無法跟上了。

所以我的隊友和我移到了Redis進行加速,然後轉向分布式Kafka流處理。我甚至考慮過RisingWave直接在Kafka上運行。

但最終流計算本身成爲了瓶頸,所以我跳到了使用 Polars 的向量化處理。
那麼存儲呢?回到了簡單的parquet文件。

回想起來,我忍不住笑——
如果我一開始就學會了如何讀取parquet,這一切就不會發生了😂
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言