Kể từ khi DeepSeek ra mắt, tôi đã mày mò xây dựng sản phẩm của riêng mình.



Ban đầu, tôi không biết gì—nên tôi đã sử dụng một "luồng công việc tách rời": viết một tệp .md cho mỗi bước nhỏ, đọc nó, xác nhận logic, rồi chuyển sang bước tiếp theo.

Sau đó, tôi đã học cách viết JSON, thử đưa dữ liệu vào LiteSQL và tìm ra cách kiểm tra cơ sở dữ liệu. Nhưng khi dữ liệu trở nên lớn hơn, LiteSQL IO chỉ đơn giản là không thể theo kịp.

Vì vậy, đồng đội của tôi và tôi đã chuyển sang Redis để tăng tốc, sau đó là phân tán luồng Kafka. Tôi thậm chí đã tìm hiểu về RisingWave để chạy trực tiếp trên Kafka.

Nhưng cuối cùng, chính việc tính toán theo luồng trở thành nút thắt cổ chai, vì vậy tôi đã chuyển sang xử lý vector hóa với Polars.
Và cho việc lưu trữ? Đã quay trở lại với các tệp parquet đơn giản.

Nhìn lại, tôi không thể không cười—
Nếu tôi chỉ học cách đọc parquet ngay từ đầu, thì sẽ không có chuyện gì như thế này xảy ra 😂
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim