优先尝试直接文本提取,只有在图片型 PDF 上才触发 OCR 回退
为什么要做这个页面
围绕扫描版 PDF 和 OCR 的搜索意图与普通 PDF 摘要不同。搜索这类词的用户通常需要产品先处理图片型文件,而不是要求他们手动先做一次文本提取。
OCR 输出仍然保留页码映射,方便摘要和继续追问
适合扫描报告、签字合同、会议材料包和历史归档文件
常见问题
这能替代完整的 OCR 文档流程吗?
还不能完全替代。当前 OCR 回退主要为了在 BriefPDF 内支持带页码依据的摘要、问答和导出。
所有扫描件 PDF 都能处理吗?
最适合清晰、方向正常的扫描件。噪声很重或过大的图片型 PDF 仍可能需要先清理或拆分。
相关使用场景