OCR server 添加对第三方接口的支持 | Voters

OCR server 添加对第三方接口的支持

under review

water wei

需求背景

对于pdf 这种板式文档的文本化表示，当前项目主要使用 PaddleOCR 这个库来完成工作，但这个库的能力有限，很多时候不能很好的完成工作。OCR这可能是困扰整个业界的地方，我们也能看到很多 saas 厂商提供 api 更好完成了这个工作；开源社区也有 VikParuchuri/marker 这样的项目，实现了质量更好的方案；更何况还有多模态模型这种大杀器。面对pdf2text 有更高质量需求的客户，添加对第三方接口的支持，会成为 qanything 这个项目的亮点。

用户故事

我是一个对知识库内容质量要求很高的用户，我又有大量的pdf 类型文档文档需要添加到qanything数据库。当前的 ocr 质量不足够满足我的使用，我希望能有更多的pdf2text 方案解决我的问题。
我是一个的开发者，我针对科研论文/政府公文/多列文档/票据/小语种，设计了一套自己的文本化解析方案，并用 saas api 的方式进行发布。针对某个特定群体的文档转换质量更高，我希望能通过推广 qanything 对我saas api的调用，找到我自己的商业模式。

功能描述

外部的orc 接口还挺复杂的，但通常各供应商都提供了 sdk，基于各家 sdk 的调用方式做统一的抽象应该容易一些。

April 9, 2024

field ren

marked this post as

under review