Страница публикации
Трансформация физической структуры заголовков Excel-таблиц
Тип публикации: Материал конференции
Тип материала: Текст
Авторы: Парамонов В.В., Шигаров А.О., Ветрова В.В.
Журнал: В сб. Россия и Монголия: результаты и перспективы научного сотрудничества: Труды Междунар. конф. (Иркутск, 6–8 апреля 2022 г.)
Язык публикации: russian
Номера страниц: 303-306
Количество страниц: 4
Год публикации: 2022
Отчетный год: 2022
Издательство: Институт географии им. В.Б. Сочавы СО РАН
Местоположение издательства: Иркутск
Адрес издателя: Иркутск
Название издательства: Институт географии им. В.Б. Сочавы СО РАН
Аннотация: Электронные таблицы Excel являются одним из наиболее популярных форматов представления наборов данных. Они обеспечивают значительную гибкость в организации данных и удобны для восприятия человеком. В результате можно наблюдать таблицы со сложной компоновкой, например, объединенными ячейками, иерархической структурой заголовков, объединением нескольких таблиц в одну и пр. Это делает автоматическое извлечение данных из таких таблиц нетривиальной задачей. Одним из факторов, снижающих эффективность методов анализа и интерпретации электронных таблиц, является то, что физическая (машиночитаемая) структура ячеек может отличаться от визуальной (человеко-читаемой). В работе рассматривается эвристический метод коррекции машиночитаемой структуры заголовков таблиц в соответствии с их визуальным представлением. Работоспособность и оценка эффективности реализации метода проверялась на реальных данных государственной статистики. Показано, что предлагаемое решение позволяет значительно снизить количество ячеек, разделенных на физическом уровне некорректно.
Индексируется WOS: Нет
Индексируется Scopus: Нет
Индексируется УБС: Нет
Индексируется РИНЦ: Да
Индексируется ВАК: Нет
Индексируется CORE: Нет