DeepSeek-OCR сэкономит токены при распознавании документов
27/10/2025
Компания DeepSeek анонсировала новую модель для распознавания документов — DeepSeek-OCR. Она распространяется под лицензией MIT и доступна на платформе Hugging Face.
От классических систем оптического распознавания символов (OCR) новинку отличает то, что система не просто извлекает текст со страниц, а сразу восстанавливает структуру документа: заголовки, списки, таблицы, подписи к иллюстрациям. Результат выдаётся в формате Markdown, подходящем для индексации и последующей работы нейросетей.
DeepSeek-OCR практикует «оптическое сжатие контекста», то есть делает своего рода выжимку основного — текста и смысловой структуры, что сокращает итоговый объём данных в среднем в десять-двадцать раз и снижает стоимость обработки (чем меньше токенов, тем дешевле и быстрее работает последующая LLM).
Новая система использует «визуальные токены» — так даже при небольшом бюджете точность распознавания держится на уровне 97-99 %. Если же сканируемая страница слишком сложна, активируется режим Gundam: документ автоматически делится на фрагменты, и трудные области анализируются отдельно, без потери общей скорости. Плюс ко всему, модель от DeepSeek поддерживает привязку распознанных элементов к координатам на странице — это позволяет точно находить таблицы или подписи в общем массиве.
Представленное решение, как пояснили его авторы, выдаёт такое же качество, что и мультимодальные модели вроде Qwen или GOT-OCR 2.0, при гораздо меньшем объёме вычислений.