在前端的 UI 上维护向量库里面的chunks数据 | Voters

在前端的 UI 上维护向量库里面的chunks数据

under review

water wei

当前因为 ocr 能力的局限性，很多文档在分割后出现了很多的脏数据。诚然这些脏数据在进入 llm 后会被去除，但也可能这些脏数据原本包含重要的信息。此外分割的参数究竟多大更适合我的数据？为用户提供可视化可视化的编辑方案，有可能解决这些痛点。

作为一个用户，我不满意 ocr 后的数据切片内容。我需要能有一个简单的方式，让我对这些数据进行编辑。
作为一个基于 qanything 设计产品的产品经理，我需要不断调试切片的参数寻找更适合我的参数。而我判断切片大小是否合适的重要依据就是切片里面的数据能否完整的表述一个知识点，如果不能我就继续调大，如果覆盖了不只一个知识点，那我就调整小一些。

在前端的 UI 界面上，能点开上传的文档，看到该文档中每个 chunks 的内容。如果用户发现 chunks 中的内容有错误，可以手动进行修改。

field ren

marked this post as

under review