Описание проблемы
Исходные данные: ООО «Газпромнефть-Каталитические системы» (отдел маркетинга) анализирует рынки катализаторов каталитического крекинга, гидроочистки, гидрокрекинга и других процессов нефтепереработки и газопереработки. ООО «ГПН-КС» собирает данные таможенной статистики России, Казахстана, иных стран СНГ и стран дальнего зарубежья. Данные таможенной статистики (ТС) неоднородные, представлены на русском и преимущественно на английском языках. Среди стран дальнего зарубежья собираются данные ТС по странам АТР и Ближнего Востока. Формат выгрузки данных xls. Периодичность выгрузки данных – квартальная, годовая. Источники выгрузки данных – специальное ПО на рабочем компьютере, онлайн-сервис с авторизацией. Объем выгружаемых данных зависит от внешнеторговой активности страны по группе товаров 3815 ТН ВЭД (для примера, по России за один год выгружается 3000-3500 строк, по Казахстану – до 1000 строк). Период выгружаемых данных: в зависимости от страны (по России и Казахстану данные имеются с 2014 года, по Индии и Индонезии – с 2018 года, Вьетнам – с 2019 года и т.д.). В связи с платным характером доступа к данным передача прав на выгрузку данных третьим лицам не допускается.
Проблема: в связи с неоднородным характером данных, особенностями выгрузки данных по каждой стране отдельным файлом, сложностью классификации катализаторов и идентификации производителей катализаторов для последующего анализа, разных единиц измерения веса катализаторов по каждой отдельной декларации маркетолог-аналитик вынужден тратить значительное количество времени на доработку выгруженных данных, не имеет временного ресурса свести данные в базу данных (преимущественно по странам дальнего зарубежья).
Задачи:
1. Применяя методы фильтрации данных/ИИ/иные методы доработать данные по следующим пунктам: - маркировка типа катализатора (FCC/RFCC, HT, HC и др.); - маркировка марки катализатора (PHENOM-595, ОКТИФАЙН-470, НН-231, TK-831, HR 646 и др.); - маркировка производителя катализатора (Shell, Haldor Topsoe, Grace, Axens, Sinopec, China Petroleum, ИСХЗК и др.); - доработка единицы измерения «Вес нетто» в кг по катализаторам, измеряемым в тоннах; - ввод года и квартала в таблицу по данным даты регистрации каждой декларации; - ввод/доработка цены единицы продукции (USD/кг); - иные доработки.
2. Разработать базы данных ТС: Россия, СНГ и дальнее зарубежье.
3. Разработать дашборды для анализа данных.
4. Разработать шаблон презентации автозаполняемых визуализаций с учетом требований к оформлению презентаций.
5. Разработать модель прогнозирования цен на катализаторы. 6. Разработать мобильное приложение для отображения аналитической информации.
Примечания: на текущий момент выполнена ручная доработка данных ТС, построена сводная таблица по ряду стран. Данные доработанные могут служить образцом, по которым можно проверить выполнение задачи 1.
Сколько требуется людей в команду
0