2025-11-28 04:25:05

Desde que o DeepSeek foi lançado, tenho andado a experimentar construir o meu próprio produto.

No início, eu não sabia de nada—então usei um "fluxo de trabalho desacoplado": escrevi um arquivo .md para cada pequeno passo, li-o, confirmei a lógica e, em seguida, passei para o próximo passo.

Então aprendi a escrever JSON, tentei colocar dados no LiteSQL e descobri como inspecionar o banco de dados. Mas, uma vez que os dados ficaram maiores, o LiteSQL IO simplesmente não conseguiu acompanhar.

Então, meu colega de equipe e eu mudamos para Redis para aceleração, depois para streaming distribuído de Kafka. Eu até olhei para RisingWave para rodar diretamente em cima do Kafka.

Mas eventualmente a própria computação em streaming tornou-se o gargalo, então passei para o processamento vetorizado com Polars.
E quanto ao armazenamento? Fui até arquivos parquet simples.

Olhando para trás, não consigo deixar de rir—
Se eu tivesse aprendido a ler parquet no início, nada disto teria acontecido 😂

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.