Страница публикации

Сегментация текста неразмеченных pdf-документов

Тип публикации: Статья в журнале

Тип материала: Текст

Авторы: Шигаров А.О., Парамонов В.В.

Журнал: Вычислительные технологии

Язык публикации: russian

Том: 27

Номера страниц: 69-78

Количество страниц: 10

Номер: 5

Год публикации: 2022

Отчетный год: 2022

DOI: 10.25743/ICT.2022.27.5.007

Аннотация: Большой объем нередактируемых документов публикуется и распространяется в формате PDF. Часто они являются “неразмеченными”, т. е. не сопровождаются аннотацией о собственной структуре, в них нет метаданных о месторасположении заголовков, параграфов, абзацев, таблиц, списков, рисунков, колонтитулов и пр. Анализ компоновки документов состоит в распознавании перечисленных элементов структуры. Базовой частью этого процесса является сегментация текста внутри страниц на блоки, которые затем можно классифицировать как заголовки, абзацы, ячейки таблиц и пр. Известные алгоритмы сегментации страниц в основном предназначены для работы либо с растровыми изображениями документов, либо с печатно-ориентированным ASCII-текстом. По сравнению с этими форматами данных PDF предоставляет дополнительную информацию (порядок рендеринга, шрифтовые метрики, линейки и пр.), которая может улучшить качество анализа компоновки документов. В работе излагается опыт адаптации некоторых существующих алгоритмов сегментации текста внутри страниц изображений документов и ASCII-текста, для того чтобы сделать их применимыми напрямую к формату PDF - неразмеченным случаям.

Индексируется WOS: Q6

Индексируется Scopus: Нет

Индексируется УБС: Нет

Индексируется РИНЦ: Да

Индексируется ВАК: Нет

Индексируется CORE: Нет