1. 需求背景
对于pdf 这种板式文档的文本化表示,当前项目主要使用 PaddleOCR 这个库来完成工作,但这个库的能力有限,很多时候不能很好的完成工作。OCR这可能是困扰整个业界的地方,我们也能看到很多 saas 厂商提供 api 更好完成了这个工作;开源社区也有 VikParuchuri/marker 这样的项目,实现了质量更好的方案;更何况还有多模态模型这种大杀器。面对pdf2text 有更高质量需求的客户,添加对第三方接口的支持,会成为 qanything 这个项目的亮点。
  1. 用户故事
  • 我是一个对知识库内容质量要求很高的用户,我又有大量的pdf 类型文档文档需要添加到qanything数据库。当前的 ocr 质量不足够满足我的使用,我希望能有更多的pdf2text 方案解决我的问题。
  • 我是一个的开发者,我针对科研论文/政府公文/多列文档/票据/小语种,设计了一套自己的文本化解析方案,并用 saas api 的方式进行发布。针对某个特定群体的文档转换质量更高,我希望能通过推广 qanything 对我saas api的调用,找到我自己的商业模式。
  1. 功能描述
外部的orc 接口还挺复杂的,但通常各供应商都提供了 sdk,基于各家 sdk 的调用方式做统一的抽象应该容易一些。