SmolDocling:一个用于文档OCR的、256M参数的的开源视觉语

又仁看科技 2025-03-18 09:27:36

SmolDocling:一个用于文档 OCR 的、 256M 参数的的开源视觉语言模型。支持代码、表格、公式、图表、图片、标题识别等等。性能看跑分也很强。

论文:arxiv.org/abs/2503.11576

模型:huggingface.co/ds4sd/SmolDocling-256M-preview

速度极快,在消费级 GPU 上处理一页仅需 0.35 秒,使用不到 500MB 的显存。

ai生活指南ai创造营

0 阅读:1
又仁看科技

又仁看科技

感谢大家的关注