Страница публикации

Трансформация физической структуры заголовков Excel-таблиц

Тип публикации: Материал конференции

Тип материала: Текст

Авторы: Парамонов В.В., Шигаров А.О., Ветрова В.В.

Журнал: В сб. Россия и Монголия: результаты и перспективы научного сотрудничества: Труды Междунар. конф. (Иркутск, 6–8 апреля 2022 г.)

Язык публикации: russian

Номера страниц: 303-306

Количество страниц: 4

Год публикации: 2022

Отчетный год: 2022

Издательство: Институт географии им. В.Б. Сочавы СО РАН

Местоположение издательства: Иркутск

Адрес издателя: Иркутск

Название издательства: Институт географии им. В.Б. Сочавы СО РАН

Аннотация: Электронные таблицы Excel являются одним из наиболее популярных форматов представления наборов данных. Они обеспечивают значительную гибкость в организации данных и удобны для восприятия человеком. В результате можно наблюдать таблицы со сложной компоновкой, например, объединенными ячейками, иерархической структурой заголовков, объединением нескольких таблиц в одну и пр. Это делает автоматическое извлечение данных из таких таблиц нетривиальной задачей. Одним из факторов, снижающих эффективность методов анализа и интерпретации электронных таблиц, является то, что физическая (машиночитаемая) структура ячеек может отличаться от визуальной (человеко-читаемой). В работе рассматривается эвристический метод коррекции машиночитаемой структуры заголовков таблиц в соответствии с их визуальным представлением. Работоспособность и оценка эффективности реализации метода проверялась на реальных данных государственной статистики. Показано, что предлагаемое решение позволяет значительно снизить количество ячеек, разделенных на физическом уровне некорректно.

Индексируется WOS: Нет

Индексируется Scopus: Нет

Индексируется УБС: Нет

Индексируется РИНЦ: Да

Индексируется ВАК: Нет

Индексируется CORE: Нет