ИНСТРУМЕНТАЛЬНОЕ ОБЕСПЕЧЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
top of page

УДК

656.05(075) +004.056(075)

DOI

10.53988 /24136573-2021-03-09

To cite the content of the article, please use the following description

To cite the content of the article, please use the following description

Салчак Я.Я. Инструментальное обеспечение интеллектуального анализа данных // Управление рисками в АПК. 2021. Вып. 41 С. 103-112. DOI: 10.53988/24136573-2021-03-09

Salchak Ya. Ya. Instruments of intelligent data analysis // Agricultural Risk Management, 2021, Vol. 41, pp. 103-112. DOI: 10.53988 /24136573-2021-03-09

ТЕХНИЧЕСКИЕ НАУКИ
САЛЧАК Я.Я.

ИНСТРУМЕНТАЛЬНОЕ ОБЕСПЕЧЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Салчак Яна Яковлевна – студент бакалавриата прикладной экономики, кафедра прикладной информатики, Институт экономики и управления в АПК, РГАУ-МСХА имени К.А. Тимирязева, Москва, Россия
Email: salchak@gmail.com

Моторин Олег Алексеевич – кандидат политических наук, ведущий научный сотрудник, ФГБНУ «Росинформагротех», Московская область, Россия.
Email: ol.motorin@gmail.com
SPIN-код РИНЦ: 4096-8796

annotation

В статье рассмотрены решения в области интеллектуального анализа данных. Проведен сравнительный анализ ведущих BI-систем, показаны преимущества и недостатки каждой из них. Представлена принципиальная схема работы технологий бизнес-аналитики.

Keywords

Интеллектуальный анализ данных, Knowledge Discovery in Databases, KDD, Data Mining, Business intelligence, BI, цифровая трансформация, прикладная информатика, управление данными, цифровые сервисы, аналитика

YA. SALCHAK

INSTRUMENTS OF INTELLIGENT DATA ANALYSIS

Yana Salchak – Bachelor's student of Applied Economics, Department
of Applied Informatics, Institute of Economics and Management in Agribusiness, RSAU-MTAA named after K.A. Timiryazev, Moscow, Russia.
Email: salchak@gmail.com

Oleg A. Motorin Candidate of Political Sciences, Leading Researcher, Federal State Budgetary Scientific Institution «Rosinformagrotech», Moscow region, Russia.
Email: ol.motorin@gmail.com

Annotation

The article deals with solutions in the field of data mining. A comparative analysis of the leading BI systems has been carried out, the advantages and disadvantages of each of them have been shown. A schematic diagram of the work of business intelligence technologies is presented.

Keywords

Data mining, Knowledge Discovery in Databases, KDD, Data Mining, Business intelligence, BI, digital transformation, applied informatics, data management, digital services, analytics

Article text

В ранее опубликованной статье [1] нами было установлено, что интеллектуальный анализ данных (далее - ИАД) подпадает под общий термин «бизнес-аналитика» и может рассматриваться как форма BI. Интеллектуальный анализ данных можно рассматривать как функцию BI, которая используется для сбора необходимой информации и получения ответов. Более того, бизнес-аналитика также может рассматриваться как результат интеллектуального анализа данных. Как уже упоминалось, бизнес-аналитика включает в себя использование данных для получения информации. Data Mining Business Intelligence – это сбор необходимых данных, которые в конечном итоге приведут к ответам с помощью углубленного анализа [3].

Связь между интеллектуальным анализом данных и бизнесаналитикой можно рассматривать как причинноследственную связь. Интеллектуальный анализ данных ищет «что» (соответствующие наборы данных), а процессы бизнесаналитики раскрывают «как» и «почему» (понимание). Аналитики используют ИАД для поиска необходимой информации [3]. В то время как для бизнесаналитиков ИАД необходим для того, чтобы определить, чем эти данные важны. Рассмотрим, какие методы и модели ИАД, а также рыночные решения могут быть использованы потенциальными потребителями, а также разработчиками при создании программных продуктов либо отдельных приложений.

Результаты. Методы и модели интеллектуального анализа данных. Существует 5 типов закономерностей, которые также называются задачами Data Mining, которые необходимо учитывать при разработке программного продукта в области ИАД [11]:

1. Ассоциация поиск решения проблемы обнаруживает закономерности между связанными событиями в наборе данных. Особенность задачи ассоциации заключается в том, что поиск паттернов выполняется между несколькими событиями, происходящими одновременно.

2. Последовательность последовательность похожа на ассоциацию, но ее основная цель установить закономерности не между одновременными событиями, а между событиями, связанными с временем, или событиями, происходящими с определенным временным интервалом. Ассоциацию можно рассматривать как частный случай последовательности с нулевой временной задержкой. Правило последовательности: после события A событие B происходит через определенное время.

3. Классификация эта задача разбивает группу объектов на определенные группы, называемые классами, каждый из которых считается похожим друг на друга и обладает примерно одинаковыми свойствами и атрибутами. Решение получается на основе анализа значений атрибутов. Для классификации используется много разных моделей. Такие как деревья решений, алгоритмы покрытия, нейронные сети, машины опорных векторов и другие.

4. Кластеризация является продолжением классификации, но это более сложная задача. Ее особенность заключается в том, что классы объектов изначально не предопределены. В конечном итоге результатом кластеризации является разбиение объектов на группы.

5. Прогнозирование или регрессия. Метод прогнозирования решает проблемы на основе характеристик исторических данных и оценивает недостающие или будущие значения числовых показателей. Прогнозирование используется в математической статистике, нейронных сетях и других областях.

Технологический стек начинается с:
интеграции с информационными системами;
создания моделей данных;
создания кубов;
презентации, информационных панелей (дашбордов), ключевых показателей (KPI);
принятия решений руководством [4].

Современные решения для BI и аналитики поддерживают все этапы процесса интеллектуального анализа данных, от исследования и очистки данных до распознавания образов и визуализации данных [3]. Они облегчают бизнесаналитикам и нетехническим бизнеспользователям загрузку и объединение данных из нескольких источников, устранение ошибок и несоответствий, а также применение алгоритмов машинного обучения и других передовых статистических методов. Инструменты BI и анализа также могут использоваться для создания убедительных визуализаций и отчетов, иллюстрирующих обнаруженные идеи.

Передовые инструменты бизнес-аналитики на основе искусственного интеллекта (ИИ) автоматизируют более банальные и трудоемкие аспекты интеллектуального анализа данных [6], ускоряют обработку данных и сокращают время понимания. С новым поколением решений BI бизнеспользователям больше не нужно полагаться на специалистов по ИТданным для понимания данных. Интуитивно понятные, но действительно мощные инструменты позволяют сотрудникам компании, делать открытия в данных и получать знания из них, что приводит к лучшим бизнесрешениям, которые добавляют реальную ценность информационным ресурсам компании.

Задачи интеллектуального анализа данных могут быть классифицированы по стратегиям [6]:
обучение с учителем;
уроки без учителя;
другие.

Первая категория – «обучение с учителем» обычно включает в себя такие задачи, как: классификация, оценка, прогнозирование. Во второй категории – «обучение без учителя» представлены задачи кластеризации, а все остальные задачи классифицируются как «другие».

Методы анализа данных в интеллектуальном анализе данных, которые используются для анализа больших объемов данных, выявления важных ассоциаций и закономерностей, а также создания описательных и прогностических моделей [33]:

1. Кластерный анализ: используется в описательном анализе и используется для сегментации данных в разные группы, чтобы члены одной группы были похожи друг на друга и отличались от членов других групп.
2. Изучение ассоциативных правил: используется в анализе рыночной корзины и используется для расчета частоты взаимодополняющих вхождений в данном наборе данных, а затем идентифицируются правила об объектах, найденных вместе чаще, чем в случайной выборке.

3. Классификация: используется в случаях предиктивной аналитики и используется для создания моделей классификации на основе ранее классифицированных данных с целью прогнозирования целевой категории или класса неизвестных объектов из аналогичных источников данных.

4. Регрессионный анализ: используется при прогнозировании и оценке рисков и используется для математического описания и моделирования взаимосвязи между зависимой переменной и набором независимых переменных.

Решения в области интеллектуального анализа данных. Самый простой способ для компаний использовать интеллектуальный анализ данных это внедрить современную бизнесаналитику и аналитику. Рынок решений является динамичным и характеризуется присутствием нескольких основных игроков ведущих компаний.

Весь процесс технологии бизнес-аналитики состоит из нескольких этапов (рис. 1):

В 2021 году Gartner (исследовательская и консалтинговая фирма, специализирующаяся на рынках информационных технологий) определила аналитические BI системы по аналитике, Microsoft Power BI, Tableau и Qlik стали лидерами.

Продукты Microsoft BI позволяют использовать инструменты анализа данных со знакомым интерфейсом. Microsoft Power BI это самое дешевое предложение на рынке, которое легко интегрируется с другими популярными продуктами Microsoft. Несмотря на простоту использования, Power BI является относительно новым продуктом на рынке с ограниченной функциональностью в разработке.

Tableau специализируется на анализе данных с помощью визуализации. Легко создавать интерактивные панели мониторинга, которые позволяют изучать динамику, тенденции и структуру данных с помощью удобных и простых, но не менее эффективных диаграмм. Как и многие другие услуги, Tableau также предлагает поддерживает множество различных источников данных, организованных в формате файлов (CSV, JSON, XML, MS Excel), реляционных и нереляционных баз данных (PostgreSQL, MySQL, SQL Server, MongoDB) и облачных систем (AWS, Oracle Cloud, Google BigQuery, Microsoft Azure).

Основное различие между Tableau и ее конкурентами заключается в ее особой функции – смешивании данных – объединении данных из разных баз данных и источников. Tableau также позволяет нескольким пользователям одновременно работать над отчетом в реальном времени.

Qlik Sense удивительно прост в использовании и позволяет бизнеспользователям пропускать кодирование исследовать данные, создавать визуализации и создавать обширные аналитические приложения с простым интерфейсом перетаскивания и Qlik Sense также умен.

Ассоциативный механизм Qlik индексирует и понимает все отношения в данных и предоставляет пользователям ценную информацию, когда они указывают и нажимают. Расширенный интеллект используется для ускорения и автоматизации задач обработки данных и предоставляет пользователям контекстнозависимые аналитические предложения. Интеллектуальные визуализации, управляемые ИИ, открывают новые перспективы для данных пользователей, в то время как взаимодействие на естественном языке дает еще один простой способ навигации по информационным ресурсам компании и извлечения из них ценности. Qlik Sense предоставляет каждому пользователю функции интеллектуального анализа данных, которые позволяют сотрудникам раскрывать реальные возможности своих данных.

Отечественное производство данных Яндекса имеет свои преимущества в виде консолидации данных из разных источников, поддерживает прямую работу с различными источниками: ClickHouse, CSV, PostgreSQL, Greenplum, MySQL, MS SQL Server, Oracle DB, Yandex Database, Yandex Cloud Billing, Google Sheets, Яндекс.Метрика, Yandex.AppMetrica.

По умолчанию, когда идет подключение к базе данных, DataLens направляет запросы для каждой визуализации непосредственно в источник. Система позволяет настраивать отношения между таблицами и даже описывать свой собственный выбор источника. Самое главное, что источник может быть в облаке и клиентом. Вы можете настроить безопасное подключение DataLens к внешней базе данных: открывайте доступ к базе данных только по набору IPадресов, настроить Interconnect между Yandex.Cloud и DataLens.
В результате сравнительного анализа BI систем продукт Qlik Sense был выбран для разработки системы интеллектуального анализа данных.

Этот выбор системы BI имеет следующие причины [2]:
1. Наличие многих русскоязычных форумов связано с высоким присутствием платформы на российском рынке.
2. Простое создание модели данных из-за наличия ассоциативного механизма.
3. Программисты не требуются.
4. Свобода творчества при проектировании и разработке пользовательского интерфейса.

Подводя итог, можно сказать, что системы бизнес-аналитики BI играют важную роль в борьбе с неопределенностью рынка при принятии управленческих решений [7; 8; 9; 10]. Обзор терминов BI и анализ рынка BIплатформ показали, что системы BI не только имеют широкий спектр инструментов для работы с данными, доступными для конечных пользователей, но и обладают сильным потенциалом для получения сверхточной аналитики, которая учитывает все новые бизнесценности для компании.

Связь между интеллектуальным анализом данных и бизнесаналитикой можно рассматривать как причинноследственную связь. Интеллектуальный анализ данных ищет «что» (соответствующие наборы данных), а процессы бизнесаналитики раскрывают «как» и «почему» (понимание). Аналитики используют интеллектуальный анализ данных, чтобы найти нужную им информацию, а бизнесаналитику он необходим, чтобы определить значимость тех или иных данных для описания бизнеспроцессов и показателей его эффективности.

Sources:

1. Салчак Я.Я. Понятие интеллектуального анализа данных // Управление рисками в АПК. 2021. Вып. 41 С. 94101. DOI: 10.53988/24136573-2021-03-09.
2. Методические рекомендации по работе с аналитическими приложениями ЦИАС СГИО СХ. М.: ФГБНУ «Росинформагротех», 2019. – 156 с.
3. Моторин О.А. Анализ данных в информационных системах АПК. М.: РЕГУЛЯТОР, 2019. – C. 16. ISBN 9785990827226.
4. Моторин О.А., Кушнарева М.Н., Худякова Е.В. Анализ бизнес-процессов в АПК. М.: РЕГУЛЯТОР, 2019. – С. 43-44. ISBN 9785990827240.
5. Моторин О.А., Кушнарева М.Н., Худякова Е.В. Архитектура предприятия и информационных систем в АПК. М.: РЕГУЛЯТОР, 2019. – С. 2527 ISBN 9785990827295.
6. Моторин О.А., Кушнарева М.Н., Худякова Е.В. Управление ИТ-проектами в АПК. М.: РЕГУЛЯТОР, 2019. – С. 77. ISBN 9785990827257.
7. Степанцевич М.Н., Горбачев М.И., Качалин М.А. Цифровая трансформация деятельности участников агропродовольственного рынка на основе смартконтракта // Международный научный журнал, учредитель: ООО «Спектр». – 2021. – №3. – С. 5060.
8. Худякова, Е.В., Кушнарёва, М.Н., Горбачев, М.И. Объектно-ориентированное моделирование бизнеспроцессов в АПК: учебнометодическое пособие. – М.: ООО «Мегаполис», 2020. – №1. – 56 с.
9. Худякова Е.В., Кушнарёва М.Н., Горбачев, М.И. Эффективность внедрения цифровых технологий в соответствии с концепцией «Сельское хозяйство 4.0» // Международный научный журнал. – 2020. – №1. – С. 8088.
10. Худякова Е.В., Степанцевич М.Н., Горбачев М.И., Череватова Т.Ф. Развитие цифровых компетенций специалистов агропромышленного комплекса на основе решений 1С // Материалы Национальной (Всероссийской) научной конференции Института агроинженерии. – Челябинск: Издательство: ЮжноУральский государственный аграрный университет (Троицк). – 2021. – С. 9398.
11. Shmueli G., Bruce P.C., Gedeck P., Patel N.R. Data mining for business analytics. Concepts, Techniques, and Applications in Python. Wiley, 2020.

References:

1. Salchak Ya. Ya. The concept of intelligent data analysis // Agricultural Risk Management, 2021, Vol. 40, pp. 94-101. DOI: 10.53988 /24136573-2021-02-09
2. Guidelines for working with analytical applications of CIAS. M.: FGBNU «Rosinformagrotech», 2019. 156 p.
3. Motorin O.A. Data analysis in information systems of the agroindustrial complex. M.: REGULATOR, 2019. P. 16. ISBN 9785990827226.
4. Motorin O.A., Kushnareva M.N., Khudyakova E.V. Analysis of business processes in the agroindustrial complex. M.: REGULATOR, 2019. Pp. 4344. ISBN 9785990827240.
5. Motorin O.A., Kushnareva M.N., Khudyakova E.V. Architecture of the enterprise and information systems in the agroindustrial complex. M.: REGULATOR, 2019. Pp. 2527 ISBN 9785990827295.
6. Motorin O.A., Kushnareva M.N., Khudyakova E.V. IT project management in the agroindustrial complex. M.: REGULATOR, 2019. P. 77. ISBN 9785990827257.
7. Stepantsevich M.N., Gorbachev M.I., Kachalin M.A. Digital transformation of the activities of participants in the agrofood market based on a smart contract // International scientific journal, founder: Spektr LLC. 2021. No. 3. Pp. 5060.
8. Khudyakova, E.V., Kushnareva, M.N., Gorbachev, M.I. Objectoriented modeling of business processes in the agroindustrial complex: a teaching aid. M.: Megapolis LLC, 2020. No. 1. – 56 p.
9. Khudyakova E.V., Kushnareva M.N., Gorbachev, M.I. The effectiveness of the implementation of digital technologies in accordance with the concept of «Agriculture 4.0» // International scientific journal. 2020. No. 1. PP. 8088.
10. Khudyakova E.V., Stepantsevich M.N., Gorbachev M.I., Cherevatova T.F. Development of digital competencies of specialists of the agroindustrial complex based on 1C solutions // Proceedings of the National (AllRussian) Scientific Conference of the Institute of Agricultural Engineering. Chelyabinsk: Publisher: South Ural State Agrarian University (Troitsk). 2021. Pp. 9398.
11. Shmueli G., Bruce P.C., Gedeck P., Patel N.R. Data mining for business analytics. Concepts, Techniques, and Applications in Python. Wiley, 2020.

All illustrations of the article:

bottom of page