РАЗРАБОТКА ПРОГНОЗА ПОТРЕБЛЕНИЯ КАРТОФЕЛЯ В РОССИИ С УЧЕТОМ СЦЕНАРНЫХ УСЛОВИЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ

УДК

in process

DOI

10.53988/24136573-2018-02-03

To cite the content of the article, please use the following description

Разработка прогноза потребления картофеля в России с учетом сценарных условий социально-экономического развития / И. С. Козубенко, О. А. Моторин, Ф. И. Худиев [и др.] // Управление рисками в АПК. – 2018. – № 2. – С. 28-69. – DOI 10.53988/24136573-2018-02-03.

IGOR S. KOZUBENKO, OLEG A. MOTORIN, FARID I. KHUDIYEV, MARGARITA I. SVISHCHEVA, MAKSIM P. MENKNASUNOV. DEVELOPING A FORECAST OF POTATO CONSUMPTION IN RUSSIA, TAKING INTO ACCOUNT THE SCENARIO CONDITIONS FOR SOCIO-ECONOMIC DEVELOPMENT

ЭКОНОМИЧЕСКИЕ НАУКИ | ECONOMICAL SCIENCES

КОЗУБЕНКО И.С., МОТОРИН О.А., ХУДИЕВ Ф.И., СВИЩЕВА М.И., МЕНКНАСУНОВ М.П.

РАЗРАБОТКА ПРОГНОЗА ПОТРЕБЛЕНИЯ КАРТОФЕЛЯ В РОССИИ С УЧЕТОМ СЦЕНАРНЫХ УСЛОВИЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ

Козубенко Игорь Сергеевич – директор Департамента развития и управления государственными информационными ресурсами АПК, Минсельхоз России, Москва, Россия
E-mail: i.kozubenko@mcx.ru
SPIN-код: 2042-1619

Моторин Олег Алексеевич – кандидат политических наук, доцент, Экономический факультет имени А.В. Чаянова, РГАУ-МСХА имени К.А.Тимирязева, Москва, Россия.
E-mail: ol.motorin@gmail.com
SPIN-код РИНЦ: 4096-8796

Худиев Фарид Исламович – главный специалист, ФГБУ «Аналитический центр Минсельхоза России», Москва, Россия
E-mail: f.hudiev@mcxac.ru
SPIN-код: 3158-0477

Свищева Маргарита Игоревна – начальник отдела, ФГБУ «Аналитический центр Минсельхоза России», Москва, Россия.
E-mail: m.svishcheva@mcx.ru

Менкнасунов Максим Пюрвеевич – начальник отдела, ФГБУ «Аналитический центр Минсельхоза России», Москва, Россия
E-mail: m.menknasunov@mcx.ru
SPIN-код: 8767-5418

annotation

В статье рассматривается разработанная прогнозная модель для анализа и прогноза цен на продукцию сельского хозяйства. Основными показателями, используемыми при прогнозировании, выступают данные о состоянии производства, внешней торговли той или иной сельскохозяйственной продукцией.

Keywords

Картофель, прогнозирование, прогнозная модель, потребление картофеля, валовый сбор, способы прогнозирования.

IGOR S. KOZUBENKO, OLEG A. MOTORIN, FARID I. KHUDIYEV,
MARGARITA I. SVISHCHEVA, MAKSIM P. MENKNASUNOV

DEVELOPING A FORECAST OF POTATO CONSUMPTION IN RUSSIA, TAKING INTO ACCOUNT THE SCENARIO CONDITIONS FOR SOCIO-ECONOMIC DEVELOPMENT

Igor S. Kozubenko – Director of the Department of Development and Management for State Information Resources of the AIC, Ministry of Agriculture of the Russian Federation, Moscow, Russia
E-mail: i.kozubenko@mcx.ru

Oleg A. Motorin – Editor in Chief, Candidate in Political Sciences, Associate Professor, Faculty of Economics named after A.V. Chayanov, RSAU – MAA named after K.A. Timiryazev, Moscow, Russia.
E-mail: ol.motorin@gmail.com

Farid I. Khudiyev – Specialist, Analytical Center of the Ministry of Agriculture of the Russian Federation, Moscow, Russia
E-mail: f.hudiev@mcxac.ru

Margarita I. Svishcheva – Head of Branch, Analytical Center of the Ministry of Agriculture of the Russian Federation, Moscow, Russia.
E-mail: m.svishcheva@mcx.ru

Maksim P. Menknasunov – Head of Branch, Analytical Center of the Ministry of Agriculture of the Russian Federation, Moscow, Russia
E-mail: m.menknasunov@mcx.ru

Annotation

The article discusses the developed forecast model for analyzing and forecasting the price of agricultural products. The main indicators used in forecasting are data on the state of production, foreign trade of one or another agricultural product.

Keywords

Potatoes, forecasting, forecasting model, potato consumption, gross collection, methods of forecasting, types of models.

Article text

В 2017-2018 годах авторским коллективом в рамках исследований, проводимых Аналитическиим центром Минсельхоза России, были разработаны методические подходы к созданию модели прогнозирования валового сбора и цен производителей сельскохозяйственной продукции в части картофеля, принимающую во внимание следующие факторы: валовый сбор, посевные площади, средние цены сельхозпроизводителей на картофель, потребление картофель на душу населения, урожайность, объем реализованной сельскохозяйственной продукции, импорт, экспорт, объем переработки картофеля действующими предприятиями, курс доллара.
Для прогнозирования используется методика прогнозирования ключевых показателей по отраслям АПК на основе алгоритмов data mining.
Данная методика прогнозирования ключевых показателей по отраслям АПК на основе алгоритмов data mining (далее – Методика) осуществляет поддержку управляющих решений в сфере прогнозирования в отраслях АПК.
Расчеты базируются на данных содержащих целевую, зависимую переменную (например, валовый сбор) и совокупность независимых показателей (например, урожайность/год/страна и т. д.).
Методика предусматривает механизм выделения переменных, наиболее влияющих на целевую, прогнозируемую переменную, следовательно, становится возможным использовать любые имеющиеся в наличии данные.
Методика использует для расчетов различные алгоритмы по обработке данных в условиях больших объемов и высокого уровня параллелизма, математическое описание которых и набор необходимых параметров моделирования может существенно разнится, в результате чего алгоритмы будут рассмотрены в соответствующем пункте далее.
Для целей настоящей методики используются основные понятия, установленные в методологическом подходе к созданию прогнозных моделей по приоритетным отраслям АПК, методы экономико-математического анализа, научные методы в рамках областей анализа данных и математического моделирования, нормативно-правовые акты, установленные с целью регламентации деятельности Министерства сельского хозяйства Российской Федерации и выполнения задачи поддержки управленческих решений путем внедрения предиктивно-аналитических подходов.
Методика прогнозирования показателей предусматривает:
• первичную аналитику и анализ статистической информации, характеризующей различные аспекты деятельности данной отрасли АПК;
• систематизацию исходных статистических данных в виде таблицы, пригодной для проведения автоматизированных расчетов на базе используемого открытого программного обеспечения (ПО);
• выбор наиболее благоприятных алгоритмов построения прогнозной модели, реализующей преобразование исходной информации в прогнозные значения;
• разработку сценариев экономического развития отрасли и их применение на реальных данных, характеризующих определенные аспекты работы отрасли (учитывая, как текущее состояние, так и исторические данные);
• определение для каждого набора статистических данных его трендов и тенденций, позволяющих качественно оценить перспективы развития исходя из конкретного набора факторов;
• аналитическую группировку показателей, прошедших первичную обработку, в единый влияющий фактор;
• автоматизированный расчёт итоговых значений на основании прогнозов математической модели, построенной по предоставленным статистическим данным.
Сбор и анализ статистической информации, характеризующей различные аспекты деятельности отрасли АПК, предусматривает сопоставление возможных наборов информации о деятельности сельскохозяйственных организаций с имеющимися информационными ресурсами, выгрузку информации и ее аналитическую привязку для математической характеризации процессов, протекающих в отрасли.
Перечень возможных наборов информации о деятельности отрасли АПК определяется исходя из аналитических требований к данным и специфики сельскохозяйственной деятельности. Информационными ресурсами для сбора исходной информации могут служить внутренние информационные системы департаментов Министерства сельского хозяйства Российской Федерации и подведомственных учреждений (opendata.mcx.ru), международных и российских статистических организаций, а также непосредственные запросы информации у субъектов, осуществляющих деятельность в отрасли. Собранная статистическая информация должна отвечать требованиям по достоверности, сопоставимости, конфиденциальности и отвечать минимальным требованиям по виду представления данных, для проведения ее аналитической обработки.
Процесс аналитической привязки исходной информации к различным аспектам деятельности отрасли АПК предполагает максимально точное определение того, какие скрытые зависимости и тенденции в отношении перспектив развития характеризует тот или иной набор данных. Для различных наборов данных аналитическая привязка к различным аспектам деятельности отрасли может быть выполнена либо предварительно (априорно) (до момента определения информационных ресурсов и выгрузки информации), либо фактически (после выгрузки информации и предварительного анализа ее структуры и содержания).
Как было отмечено ранее, систематизация исходных статистических данных в виде таблицы, пригодной для проведения автоматизированных расчетов на базе используемого открытого программного обеспечения (далее – ПО) может быть проведена как в ручном режиме, так и в автоматическом. Среди открытого программного обеспечения используется RStudio, позволяющий работать на языке программирования R, SPYDER/Jupyter для языка программирования Python, а также QtiPlot для построения визуализации.
Определение для каждого набора данных направленности и тенденции, которую он выражает, проводится на основании общелогических и вероятностных методов путем выявления, какое направление динамики того или иного показателя характеризует рост определяемого риска, а какое – его снижение.
В случае, если однозначное определение направленности и выражаемой тенденции набора данных не представляется возможным, в зависимости от взаимосвязи динамики данного показателя с динамикой остальных наборов данных для него определяется перечень сценариев, которые устанавливают характеристику данного набора данных в зависимости от состояния внешней среды.
Аналитическая группировка показателей деятельности отрасли АПК, прошедших первичную обработку, проводится исходя из специфики, выражаемой отдельными наборами данных. Основным принципом аналитической группировки является направленность на результат, представляющий собой наличие по итогам группировки некоторого количества аналитических групп показателей, каждая из которых комплексно характеризует отдельные факторы, от которых зависит итоговый прогноз. Определение (установка) для каждой аналитической группы показателей итоговой степени влияния на прогноз проводится либо на основании автоматизированного компьютерного анализа, либо на основании экспертной оценки.
На первом этапе процесса построения прогноза осуществлен сбор и предварительный логический анализ информации на достоверность и сопоставимость. Методы анализа по обработке данных в условиях больших объемов и высокого уровня параллелизма являются крайне чувствительными к верификации, представлению и полноте исходных данных, поэтому данный этап чрезвычайно важен и оказывает существенное влияние на качество прогноза в целом. Достоверность информации выражается в максимально возможном отсутствии искажающих и ложных данных, отражении реального состояния объекта, в полноте охвата данных и точности их регистрации. Сопоставимость информации необходима для сравнения объектов между собой и их анализа, в частности должна использоваться единая методика регистрации данных и единая методика расчета показателей.
Группа производственных показателей отрасли дает представление о масштабе деятельности с детализацией от стран до отдельных предприятий и поэтапно об уровне организации производственного процесса.
В рамках задач регулирования, выполняемых Министерством сельского хозяйства Российской Федерации, наиболее значимыми производственными показателями деятельности хозяйствующими субъектами картофельной отрасли являются следующие:
• общие посевные площади;
• посевные площади картофеля;
• урожайность картофеля;
• количество картофеля, ушедшего в переработку;
• структура и количество продукции переработки.
Исходная статистическая информация по производственным показателям деятельности предприятия может быть получена частично от Министерства сельского хозяйства Российской Федерации и от Федеральной налоговой службы Российской Федерации. Важным фактором в пользу использования данных из разных источников является возможность верификации данных в полуавтоматическом режиме.
Одним из существенных показателем масштаба деятельности предприятия, для структуризации информации при подготовке ее для автоматизированной обработки, является общая численность персонала, которая является одним из критериев подразделения предприятий на крупные, средние, мелкие и микропредприятия. Крупные предприятия, как правило, более устойчивы, имеют более высокий уровень технический оснащенной и возможность контроля качества производства и, следовательно, возможен прогноз меньшего риска производства некачественной и небезопасной продукции. Однако у мелких предприятий имеется низкий риск распространения некачественной продукции в силу меньшего объема производства и количества точек сбыта.
Для анализа соблюдения предприятием установленных норм и правил, а также безопасности его продукции определяется количеством административных нарушений, выявленных на предприятии при последней проверке. Предполагается что, чем больше у предприятия штрафов, тем выше риски их повторного возникновения. Степень тяжести обнаруженных административных нарушений позволяет выявить анализ сумм наложенных штрафов, которая прямо пропорциональна степени тяжести административного нарушения, с точки зрения надзорных органов.
Финансово-экономический анализ проводится на основе методологических подходов, базирующихся на ценовых балансах различного рода, где используются абсолютные и относительные показатели для формирования оценок финансовых результатов, в том числе, рентабельности конкретных предприятий и степени эффективности выделяемых субсидий. Таким образом, включение данной группы показателей в исследование позволяет оценить дальнейшие перспективы хозяйствующего субъекта и сделать вывод о возможных рисках для продукции, связанных с недостатком средств на обеспечение качества и безопасности, определить тренд развития предприятий и дать прогноз возможного развития данного сектора отрасли.
Для формирования прогнозных данных доступны следующие финансовые показатели:
1) Себестоимость:
• структура себестоимости производства картофеля;
• структура себестоимости переработки картофеля;
• себестоимость на га или на тонну;
• суммарная себестоимость.
2) Процентная ставка кредитования с/х производителей и переработчиков.
3) Субсидии:
• доля выручки от деятельности, по которой оказывается господдержка;
• объемы субсидирования по разным статьям господдержки;
• процент освоенных средств.
4) Прибыль/ убыток:
• общая выручка и выручка от основного вида деятельности;
затраты на производство;
прибыль/убыток до и после налогообложения;
рентабельность с учетом/без учета субсидий.
5) Цены производителей:
• цены производителей на картофель;
• потребительские цены на картофель;
• цены на продукты переработки картофеля.
6) Импортные цены на картофель.
7) Экспортные цены на картофель.
8) Потребительские цены на картофель.
Экономический анализ деятельности организаций
сельхозпроизводителей для целей прогнозирования, как субъектов сельскохозяйственной отрасли, проводится для отображения возможных вариантов кривой жизненного цикла технологических систем, организации или отрасли в целом.
Для выявления разнообразных процессов и явлений в их взаимосвязях, складывающихся как под воздействием объективных экономических законов с учетом факторов внешней среды, так и под влиянием факторов субъективного порядка, их отражение в финансовой модели организации.
Для выявления проблем будущего, формирования системы распознавания «слабых сигналов» кризисного развития организации отрасли, для своевременного принятия мер, изучению и анализу подвергаются все доступные значения финансовой устойчивости экономических субъектов отрасли.
Оценка размера валюты баланса и ее динамики, которая отражает сумму вложенных средств в предприятие, дает прогнозную вероятность осуществления хозяйственной деятельности предприятия в прогнозный период, при отсутствии существенных внешних институциональных изменений. При стабильном росте валюты баланса, как правило, прогнозируется расширение объема его хозяйственной деятельности, возможное увеличение объема сбора выращиваемой культуры в регионе.
Оценка запасов продукции сельскохозяйственных предприятий может оказать влияние на прогноз цен данной продукции при выявлении существенных запасов урожая прошлого года. Увеличение данного показателя зачастую происходит при строительстве (реконструкции) хранилищ сельскохозяйственной продукции, что является косвенным показателем увеличения современных систем хранения.
В свою очередь, уменьшение запасов может отражать как нехватку оборотных средств для покупки необходимого объема запасов и сворачивание деятельности, так и прогнозирование роста цен на соответствующую продукцию.
Чистая прибыль является конечным результатом работы предприятия, который стимулирует его дальнейшую деятельность и обеспечивает основу для расширения производства. Наличие отрицательных значений в показателе - чистой прибыли в период становления предприятий допускаются, однако в долгосрочной перспективе они отражают неэффективность деятельности предприятия или несовершенство институционального механизма поддержки сельхозпроизводителей.
Одной из важнейших характеристик финансовой устойчивости предприятия, для целей прогнозирования развития отрасли, является доля его собственных средств в общих источниках финансирования. Данный показатель позволяет выявить степень зависимости предприятия от кредиторов. Чем больше доля собственных средств, тем предприятие более устойчиво и ниже прогнозные риски его возможного банкротства. В связи с этим положительная динамика данного коэффициента для прогнозной оценки может предполагать увеличение экономической стабильности предприятия или иметь интерпретацию в виде отказа производителя от кредитных ресурсов.
Основным индикатором производственной результативности деятельности предприятия, отражающим важнейший аспект его деятельности – реализацию основной продукции, является рентабельность продаж. Оценка данного показателя дает возможность прогнозирования увеличения выпуска аналогичной продукции большим количество производителей в следующие прогнозные периоды в данной климатической зоне земледелия. При проведении анализа динамики данного коэффициента необходимо его сопоставление с предприятиями схожей климатической зоны.
Коэффициент покрытия процентов по кредитам операционной прибылью выступает важнейшим показателем платежеспособности и финансовой устойчивости предприятия в краткосрочной перспективе, отражает способность предприятия погашать проценты по заемным средствам. Данный показатель отражает насколько существенна, на анализируемый период, мера по поддержке производителей и позволяет прогнозировать требуемые объемы финансирования, при принятии решения о дальнейшем продлении стимулирующих мер.
Кредиторская задолженность представляет собой вид обязательств предприятия перед другими юридическими и физическими лицами в результате совершенных ранее действий (событий). Часть кредиторской задолженности объективна, поскольку возникает в связи с особенностями расчетов и начисления налогов, однако в большинстве случаев она вызвана несоблюдением предприятием сроков оплаты расчетных документов. Кредиторская задолженность фактически является «бесплатным кредитом» и относится к числу привлеченных средств предприятия, при этом наличие просроченной кредиторская задолженность позволяет прогнозировать существенное ухудшение финансового состояния за счет применения штрафных санкций, судебных исков, отказа в кредитных ресурсах и как крайне неблагоприятного прогноза – вероятности банкротства предприятия.
Анализ дебиторской задолженности представляет собой оценку долгов юридических и физических лиц перед данным предприятием, большая часть которой обусловлена предоставлением отсрочки платежа покупателям за продукцию, наиболее часто к такой практике прибегают крупные торговые сети и предприятия переработчики сельскохозяйственной продукции занимающие существенную долю рынка в данном регионе. В свою очередь дебиторская задолженность отвлекает средства из оборота предприятия, и ее значительный объем может привести к дефициту оборотных средств и прогнозированию ухудшения финансового положения предприятия.
Мировая историческая практика показывает, что сельскому хозяйству необходима государственная поддержка ввиду высокой зависимости от природно-климатических условий, высокой капиталоемкости, особенностей функционирования продовольственного рынка, а также его значимости для страны. Современные ученые экономисты также доказывают важность поддержки государства для сельскохозяйственных производителей. В связи с этим при анализе экономического положения предприятия необходимо оценить динамику получаемой государственной поддержки, что позволит выявить значимость данного предприятия и уровень его устойчивости.
Сбор и анализ статистической информации о внешнеэкономической деятельности Российской Федерации и данных зарубежных стран.
При анализе внешнеэкономической деятельности все анализируемые предприятия разбиваются на две группы: первая группа включает в себя предприятия, являющиеся участниками ВЭД и осуществляющие экспортноимпортные операции, вторая группа – остальные предприятия, не являющиеся участниками ВЭД. Соответственно, анализ внешнеэкономических показателей проводится только для предприятий первой группы.
Основная статистическая информация о внешнеэкономической деятельности представлена ниже:
а) Средний объем экспорта продукции;
б) Перечень видов продукции, которые в течение последних лет являются наиболее/наименее экспортируемыми;
в) Основные направления экспорта, общее количество стран, в которые экспортируется продукция предприятия;
г) Средний объем импорта продукции;
д) Перечень видов продукции, которые в течение последних лет являются наиболее/наименее импортируемыми;
е) Количество стран, из которых импортируется продукция, анализ экономических причин.
Отметим, что средний объем экспорта прямо пропорционален возможным рискам поставки некачественной и небезопасной продукции – чем больше объем экспортируемой продукции, тем выше будут риски. Перечень экспортируемых видов продукции применяется для того, чтобы предприятия, занимающиеся экспортом различных видов продукции, могли быть рассмотрены отдельно.
Для удобства дальнейшего анализа собранная статистика подвергается научно-организованной обработке и систематизации исходных статистических данных в виде таблицы, пригодной для проведения автоматизированных расчетов на базе ПАК ИАС. В статистическом анализе таблица выступает наиболее рациональной, наглядной и компактной формой представления данных.
В современных условиях внедрение специализированных программнотехнических комплексов – информационно-аналитических систем (ИАС) является основным способом повышения эффективности обработки и анализа статистической информации. В данном отчете представлены разработанные Отделом сопровождения информационных и аналитических систем Минсельхоза России математические подходы и специализированное ПО для практической апробации предложенных алгоритмов.
На данном этапе уже достигнуты результаты по оптимизации процессов обработки данных, автоматизированного построения различных моделей и графиков, однако необходимо проводить работу по дальнейшему «обучению» моделей в целях улучшения прогнозной точности.
Определение математических и статистических методов преобразования исходной информации в прогнозные графики.
Далее приведено описание алгоритмов анализа данных, используемых в методике прогнозирования. Указаны основные подходы, в рамках которых возможно проведение анализа, а также цели и области применимости того или иного метода. В настоящее время, не смотря на активное развитие и повсеместное использование аналитических инструментов, не существует единой устоявшейся терминологии, которая позволит однозначно отнести метод к какому-либо подходу. Ввиду наличия широкого спектра возможных применений аналитических инструментов встречаются различные, иногда и противоречащие друг другу определения методологии аналитических понятий. При составлении документа использовалась терминология, установленная в соответствующих тематических статьях Gartner, являющихся одними из лидеров в сфере экспертной оценки и анализа широкого класса аналитических методов. Однако, часть терминологических вопросов была переработана с учетом специфики целей и задачей развития АПК РФ.
В рамках методики реализованы различные инструменты дескриптивного и предиктивного анализа, алгоритмы data mining и иные методы, традиционно включаемые в класс современных методов аналитики. Отметим, что алгоритмы анализа, представленные здесь, зачастую задействую машинное обучение (machine learning), однако не ограничиваются только этой областью компьютерной работы с данными. Область знаний называемая машинным обучение включает в себя некоторые углублённые статистические методы для решения задач регрессии и классификации с множественными зависимыми и независимыми переменными. Основные, наиболее часто использующиеся методы, традиционно относящиеся к машинному обучению: метод опорных векторов (SVM) для классификации и регрессии, метод Байеса для классификации, и метод k-Ближайших Соседей (KNN) для регрессии и классификации.
Аналитика в целом опирается на методы, техники, практические навыки, позволяющие расширить понимание закономерностей в основе исследуемых процессов, обнаружить новые закономерности, объяснить их с математической точки зрения и построить прогноз на будущее с высокой степенью доверия. Подходы BI и Advanced Analytics предполагают в своей основе работу с Большими Данными (Big Data), что подразумевает соответствующим образом организованные хранилища, и структуру доступа к информации.
Функционально BI зачастую опирается на обработку в реальном времени (OLAP), позволяет выгружать необходимый набор данных, формировать различные запросы (в том числе ad hoc), предоставляет инструментарий для гибкой визуализации данных, построения отчетов, иными словами, отвечает за информацию о произошедших событиях и выявление логически четких закономерностях в них.
Продвинутая аналитика расширяет поле деятельности BI, используя сложные методы моделирования для предсказания событий и выявления логически нетривиальных закономерностей в данных, которые невозможно обнаружить другими способами. Другими словами, отвечает на вопросы «почему это случилось», «что случится дальше», «какой лучший вариант развития событий» (т. е. решает задачи оптимизации).
Таким образом, тогда как BI фокусируется на отчетах и запросах к базам данных, продвинутая аналитика относится к оптимизации, исследованию корреляций и предсказыванию дальнейших событий и, следовательно, помощи в выборе наиболее благоприятных действий. В таблице 1 ниже представлено сравнение используемых методов в рамках каждого подхода.
Таблица 1 – Сравнение методов анализа BI и продвинутой аналитики
BI Продвинутая аналитика
1. Технология OLAP (многомерные кубы, срезы, технология DrillDown); Формирование ad hoc запросов
2. Отчеты (KPI, метрики, ключевые показатели)
3. Автоматический мониторинг
4. Дашборды и визуализация
5. Дескриптивное моделирование 1. Предиктивное моделирование
2. Data Mining
3. Сложные методы статистического анализа
4. Симуляции и расширенное математическое моделирование

Таким образом, несмотря на то, что BI-системы позволяют решать довольно широкий класс задач, для достижения наибольшей эффективности необходимо продвинуться дальше в область методов продвинутой аналитики. Это позволит обеспечить более взвешенное и обоснованное математически принятие стратегических решений и позволит полностью раскрыть потенциал накопленных Big Data.
Использование методов продвинутой аналитики подразумевает в первую очередь набор методов и техник, объединенных в понятие Data Mining (группа методов для извлечение новых нетривиальных зависимостей из набора данных). Как уже было отмечено, продвинутая аналитика опирается во много на аппарат машинного обучения, но не ограничивается им.
Основные типы задач:
1) классификация – отнесение объекта к некоторому классу из заранее заданного количества с известными классовыми характеристиками.
2) регрессия – по известным характеристикам определяем параметр, в отличии от классификации, параметр может принимать континуум значений.
3) поиск ассоциативных правил – поиск закономерностей в данных, которые можно затем пытаться трактовать или использовать для предсказания значений исследуемой переменной.
4) кластеризация – методы разделения всех наблюдаемых объектов на группы со схожими характеристиками/поведением.
С точки зрения целей, упомянутые задачи анализа можно разбить на предиктивные и дескриптивные. Дескриптивные – поиск ассоциативных правил и кластеризация, предиктивные – классификация и регрессия (возможно включить ассоциативные правила тоже, если удается получать достоверные прогнозы на основании этих данных).
Дескриптивный (разведочный) анализ – общее название статистических методов обработки данных, с целью их систематизации, визуализации в виде отчетов и графиков, а также количественное описание при помощи статистических показателей: среднего значения, медианы, перцентилей, показателей вариации, дисперсии, показателей формы распределения и др. Методы дескриптивного анализа данных позволяют не только исследовать данные, но и обоснованно выбрать метод дальнейшего углубленного их анализа, например, методы для проверки статистических гипотез, моделирования взаимосвязи и прочие.
Предиктивный анализ объединяет группу методов и статистических техник прогнозного моделирования, машинного обучения, data mining, общими чертами которых является анализ исторических данных и текущей ситуации с целью предсказания будущих событий или моделирования других неизвестных ситуаций.
По способам реализации задачи разделяются на обучение с учителем и без учителя. При обучении с учителем вначале строится модель – классификатор. Затем классификатор «обучается» на тестовых данных до тех пор, пока не будет достигнут требуемый уровень качества. Применяется в задачах классификации и регрессии. Обучение без учителя используется в кластеризации и поиске ассоциативных правил. Задача модели найти и отразить закономерность в данных.
Что касается вопроса количества данных, действует общий принцип статистики: чем больше, тем лучше. Однако, необычайно важно избегать проблем переобучения и недообчуения на тестовой выборке (учителе). То есть модель с одной стороны должна найти закономерности в данных, но, с другой стороны, не должна считать случайные шумы за наличие закономерности. Это можно проиллюстрировать, если производить фиттинг сложной зависимости набором полиномов (линейная – самое грубое приближение, с увеличением количества степеней точнее, но при достаточно большом форма будет просто повторять данную кривую и прогноз будет учитывать все флуктуации в исходных данных).
Далее рассмотрены сами методы анализа, в зависимости от конкретной задачи и применения они могут быть отнесены к подходу исходя из классификации выше.
Перечень рассмотренных методов:
• факторный анализ;
• дисперсионный анализ;
• метод Байеса;
• метод опорных векторов;
• метод k-Ближайших Соседей;
• кластерный анализ;
• ассоциативный анализ;
• регрессионный анализ;
• классификационный анализ;
• анализ зависимостей и динамики;
• сопоставление и обобщение;
• иные методы прогнозирования.
Факторный анализ позволяет перейти от системы с большим количество параметров к системе с меньшим количеством скрытых, неизвестных параметров, с сохранением общей информативности данных. Другими словами, сгруппировать переменные имеющие схожие характеристики (сильно коррелирующие между собой) в один параметр (фактор). Отсюда следует возможность более наглядной и прозрачной интерпретации результатов ограничиваясь анализом наиболее значимых факторов вместо полной совокупности исходных параметров.
Дисперсионный анализ (ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную. В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Основной целью дисперсионного анализа является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью.
Метод опорных векторов (SVM) позволяет решать, как задачи классификации, так и задачи регрессии. Идея метода состоит в построении оптимальной разделяющей гиперплоскости. Требование оптимальности подразумевает, что обучающие объекты различных классов должны быть разнесены относительно плоскости максимально далеко. Преимущества SVM в том, что решение единственно, кроме того, положение плоскости определяется лишь небольшой частью значимых объектов (они-то и называются опорными векторами) из выборки в несколько тысяч объектов. Метод поддерживает как линейные, так и нелинейные разделяющие поверхности за счет использования математической функции ядра. Ядра представляют собой такой набор математических функций, которые позволяют произвести перегруппировку объектов, что упрощает их разделение. Задача регрессии может выполняться разными алгоритмами, но включает в себя процесс классификации, так и последовательную оптимизацию функции ошибки.
Метод Байеса (Naive Bayes) сформулирован, прежде всего, для решения задач классификации. Выдвигая строгие предположения (метод опирается на предположение о том, что независимые переменные статистически независимы), модели Байесовских процедур - эффективные инструменты классификации, удобные в использовании и легкие для интерпретации. Байесовский метод особенно актуален для задач высокой размерности, т.е. в случае задач с большим числом входных переменных. Метод часто превосходит по качеству другие более сложные методы классификации.
Существуют различные методы для моделирования условных распределений входных значений: нормального, логнормального, гаммараспределения и распределения Пуассона.
Метод k-Ближайших Соседей (kNN) – метод, основанный на использовании памяти и, в отличие от других статистических методов, не нуждается в предварительном обучении (т.е., не подгоняет моделей).
Работа метода основана на интуитивном предположении о том, что близкорасположенные объекты, скорее всего, принадлежат одной категории. Таким образом, прогнозы составляются на основе набора прототипных образцов, которые предсказывают новые (т.е. еще не наблюдаемые) значения, используя принцип большинства для классификации и принцип усреднения для регрессионных задач по k ближайшим образцам (отсюда и название метода).
Кластерный анализ (термин из Tryon, статья 1939 г.) в действительности включает в себя набор различных алгоритмов классификации. Метод предназначены для автоматизированного выделения групп данных, объектов или ситуаций по схожим признакам (параметрам). Задача состоит в разбиении данных на группы с близкими значениями параметров. Например, можно кластеризовать страны производители по двум параметрам – цене и объемам продукции. Для проведения кластерного анализа, кроме сбора данных, необходимо определить, на какое количество кластеров необходимо разделить данные и как определить меру сходства в данных.
Ассоциативный анализ
Ставится задача выделения каких-то правил/взамисовязей в данных. Целью является утверждение о том, что если произошло событие X, то с некоторой (достаточно большой вероятностью) произойдет событие Y. Вероятность должна быть все же не слишком большой, чтобы определять интересные, не очевидные правила, но и достаточна велика, чтобы не выдвигать статистически необоснованные правила (определяется через уровень доверия и порог). Иными словами, задача сводится к поиску частотных наборов объектов в данных, и затем формулированию правил для взаимосвязи этих объектов. Однако переменные должны быть дискретные и в не слишком большом количестве. (Классической пример применимости – анализ продуктовой корзины покупателей).
В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная – признаком, или целью.
С помощью регрессионного анализа можно решать ряд важных для исследуемой проблемы задач:
• уменьшение размерности пространства анализируемых переменных (факторного пространства), за счет замены части факторов одной переменной (аналогично факторному анализу);
• количественное измерение эффекта каждого фактора, т.е. множественная регрессия, позволяет исследователю определить лучшие предикторы для целевой переменной. При этом, становится более ясным воздействие отдельных факторов на признак, и, следовательно, возможно лучше изучить структуру внутренней взаимосвязи;
• вычисление прогнозных значений признака при определенных значениях факторов, т.е. регрессионный анализ, позволяет создать базу ставя вычислительные эксперименты, и наблюдая за влиянием различных факторов на признак;
• в регрессионном анализе более тесно связаны причина и следствие, и, следовательно, данные становятся лучше интерпретируемы.
Классификационный анализ объединяет широкую совокупность методов. Цель анализа – описание классов, установление соответствия класса объекта и типовой ситуации.
Деревья классификации – это метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от соответствующих значений признаков, характеризующих объекты. Признаки называются независимыми переменными, а переменная, указывающая на принадлежность объектов к классам, называется зависимой. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации. Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако, наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость. Структура метода такова, что пользователь имеет возможность по управляемым параметрам строить деревья произвольной сложности, добиваясь минимальных ошибок классификации. Но по сложному дереву, из-за большой совокупности решающих правил, затруднительно классифицировать новый объект. Поэтому при построении дерева классификации пользователь должен найти разумный компромисс между сложностью дерева и трудоемкостью процедуры классификации. Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует полагать, что его рекомендуется использовать вместо традиционных методов классификационного анализа. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами (например, соответствие распределения переменных нормальному закону), то более результативным будет использование именно традиционных методов. Однако, согласно публикациям, в специализированной научной литературе, деревья классификации широко применяются как метод разведочного анализа или, когда оказываются неприменимы иные методы.
Анализ главных компонент и классификация. Метод позволяет решить задачу анализа данных большой размерности, и служит для достижения двух целей:
– уменьшение общего числа переменных (редукция данных) с целью выделения главных и некоррелирующих переменных;
– классификация переменных и наблюдений (осуществляется в факторном пространстве).
Метод имеет сходство с факторным анализом в постановочной части решаемых задач, но имеет ряд существенных отличий:
- при анализе главных компонент не используются итеративные методы для извлечения факторов;
- наряду с активными переменными и наблюдениями, используемыми для извлечения главных компонент, можно задать вспомогательные переменные и/или наблюдения; затем вспомогательные переменные и наблюдения проектируются на факторное пространство, вычисленное на основе активных переменных и наблюдений;
- перечисленные возможности позволяют использовать метод как мощное средство для классификации одновременно переменных и наблюдений.
Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.
Анализ зависимостей и динамики (корреляционный и регрессионный анализ).
Если методами дисперсионного анализа устанавливается наличие влияния заданного фактора на изучаемый процесс, то корреляционный анализ позволяет оценить силу такой связи, а методами регрессионного анализа можно выбрать конкретную математическую модель и оценить ее адекватность.
Корреляционная связь – это согласованное изменение признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого. Парная корреляция изучает взаимосвязи между двумя случайными величинами, множественная – между большим числом величин. Анализ корреляций удобно производить при помощи диаграммы рассеяния.
Если основная задача корреляционного анализа – выявление и оценка связи между случайными величинами, то основная задача регрессионного анализа – установление формы и изучение зависимости между случайными величинами. Регрессионный анализ определяет связь между зависимой переменной и одной или несколькими независимыми переменными. Коэффициенты пропорциональности можно определять разными способами, один из самых распространённых, метод наименьших квадратов (минимум квадрата расстояния между зависимой случайной величиной и значение функции от соответствующей независимой случайной величины). Более подробно метод рассмотрен в соответствующем пункте.
Сопоставление (сравнительный анализ) – качественное и количественное сравнение характеристик исследуемых объектов. Целью сравнительного анализа может быть определение сильных и слабых сторон объектов, определение рейтинговых параметров объекта, установление тенденций и т.д. Обобщение - выявление наиболее репрезентативной информации об анализируемом объекте на основе комплексного анализа всех имеющихся данных.
Методы прогнозирования
Временные ряды – наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t.
При исследовании временного ряда выделяются несколько составляющих: тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т. д.); сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т. д.); циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие. Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, оказывающих каждый в отдельности незначительное влияние на изменение значений признака Х. Анализ и исследование временного ряда, позволяют строить модели для прогнозирования значений признака Х на будущее время, если известна последовательность наблюдений в прошлом.
Нейронные сети представляют собой вычислительную систему, архитектура которой имеет аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основании которых нужно принимать определенные решения. Эти значения воспринимаются сетью как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ – отклик всей сети на входные параметры. В начале сеть необходимо обучить на данных для которых известны значения входных параметров и правильные отклики на них. Обучение состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов к известным правильным ответам. Помимо прогнозирования нейронные сети также могут быть использованы для классификации наблюдений.
Примеры применения описанных моделей в задачах прогнозирования и анализа данных
По данным FAO были апробированы некоторые модели для прогнозирования убранных площадей (area harvested). Ставилась задача регрессии, для решения которой строились четыре модели различных типов: метод опорных векторов, полиномиальная регрессия, случайные леса и метод k-ближайших соседей.
На графике ниже представлены: зеленым – реальные данные (до 2011 г. – подавались на вход различным методам для обучения модели), затем модель выдавала прогноз на следующие три года, который сравнивался с реальными данными (за 2012-2014 гг.). Расчёт производился четырьмя методами (описания которых приведены в основном тексте документа) (рис. 1).
Синий – метод опорных векторов. В регрессионной SVM необходимо оценить функциональную зависимость зависимой переменной у на множестве независимых переменных х. Это предполагает, что, как и в других задачах регрессии, отношения между независимыми и зависимыми переменными определяются детерминированной функцией f и добавлением некоторых аддитивных шумов: y = f(x) + шум. Задача состоит в том, чтобы найти функциональную форму для f, которая может правильно предсказать новые значения. Функциональная зависимость ищется путем обучения модели SVM на выборочной совокупности, т. е. обучающем множестве; этот процесс включает в себя как классификацию объектов, так и последовательную оптимизацию функции ошибки.

Рисунок 1 – Применяемые модели прогнозирования убранных площадей

Метод предсказывает верную динамику, однако показывает более плавный темп роста (первое значение лежит выше реального, а последнее прогнозируемое – ниже).
Желтый – полиномиальная регрессия (рис. 2).
Отметим, что в данном случае регрессия неверно предсказывает динамику сокращения убранных площадей.
Темно-зеленым представлен метод случайных лесов. Суть метода состоит в построении большого количество («леса») из деревьев решений, однако для задач регрессии в каждом листе находится какое-то значение целевой функции.

Рисунок 2 – Регрессионный полином 3 порядка со столбиками ошибок

Результат определяется «голосованием» из значений предсказания многих случайных деревьев. Случайные деревья хорошо себя показывают в ситуациях, когда есть много независимых переменных и малое количество наблюдений.
Так же, как и метод опорных векторов, он предсказывает верную динамику, но завышает значения (рис. 3).

Рисунок 3 – Пифагорейский график случайного дерева
Фиолетовый – метод kNN, построенный по трем соседним взвешенный по расстоянию в евклидовой метрике. Напомним, что в отличие от оценок с использованием математической функции ядра, оценка k-ближайших соседей представляет собой среднее, взвешенное в изменяющейся окрестности. Эта окрестность определяется только теми значениями переменной X, которые являются k ближайшими к x по евклидову расстоянию.
Прогнозирование на основе временных рядов
Ниже представлен график прогноза тех же самых параметров, но методами на основе анализа временных рядов: ARIMA или модель Бокса Дженкинса – интегрированная модель авторегрессии скользящего среднего, и модель Хольта-Уинтерса.
Сплошной синей (слева) и черной (справа) линиями показаны исходные данные. Зеленая линия справа показывает прогноз значений исходя из модели Хольта-Уинтерса, а слева – моделью ARIMA (закрашенная область показывает 80-ти процентный доверительный интервал) (рис. 4).
Ось времени соответствуют 40 годам (т. е. 1980-2020).

Рисунок 4 – График прогноза методами на основе анализа временных рядов

Регрессионный анализ при помощи нейросетей
Для построения общей модели развития и динамики посевных площадей применялся метод искусственных нейронных сетей. Данные были выгружены с FAO в виде сводной таблицы по всем странам, всем годам, двум культурам (пшенице и подсолнечнику), по посевным площадям и урожайности.
Ставилась задача исследовать возможность применения нейросетей для построения обученных моделей, которые в дальнейшем можно применять для прогнозирования зависимой переменной (посевная площадь/урожайность). Обучающая выборка формировалась из первой части исторических данных (примерно 30%), а затем строился прогноз на будущее и сравнивался на графике с фактическими значениями.
В задачах прогнозирования традиционно применяются нейросети двух различных топологий. В данных расчётах использовалась нейросеть на основе многослойного перцептрона, что дает в целом лучшую производительность чем сети на основе радиально-базисных функций. Т.к. количество данных является достаточно большим, производительность имеет существенное значение при выборе способов реализации.
Далее вручную экспериментально подбирались параметры сети, наиболее удовлетворяющие результатам тестов. Нейросеть состояла из трех слоев с количеством нейронов: 20, 30, 20; функция-выпрямитель определялась уравнением max(0,x), значение альфа – 0,0001. Использовался метод BFGS-B, показывающий одни из лучших результатов в задачах прогнозирования и оптимизации параметров при небольшом количестве независимых переменных (что приводит к ограничению используемой памяти в многомерном кубе). Заметим, метод относится к классу квазиньютоновских методов, т.е. гессиан функции не вычисляется напрямую (позволяет избежать вычисления производных 2го порядка, что значительно увеличивает время работы программы и повышает сложность), а вычисляется приближенно итеративно.
Данная модель достаточно точно предсказывает наблюдаемые значения посевных площадей, исходя из исторических данных. Также необходимо учитывать, что некоторые значения в исходных данных маркированы как экспертная оценка или вычисленные исходя из значений соседних лет, что тоже вносит определённую погрешность в работу построенной модели.
Таким образом, данная методика представляет собой описание подхода к применению алгоритмов data mining в задачах прогнозирования основных показателей развития приоритетных отраслей АПК по открытым данным международной организации FAO. В дальнейшем планируется расширение функциональности, обучение моделей на реальных данных по субъектам РФ.
Для прогнозирования специалистами использовалась методика прогнозирования ключевых показателей по отраслям АПК на основе алгоритмов продвинутого анализа и data mining.
В 2017 году при прогнозировании валового сбора и цен производителей (на сентябрь) построил модель, учитывающую 11 факторов. В связи с тем, что помимо прогнозной модели валового сбора и цен производителей, нами была построена модель краткосрочного прогнозирования урожайности в зависимости от погодноклиматических условий региона, нами были выбраны три региона, имеющих значительный валовый сбор картофеля. Поэтому для нас особое значение приобрело наличие и качество данных Росстата для этих трех регионов – для Курской и Воронежской областей, а также Краснодарского края.
Официальный сайт Росстата не содержит информацию о ценах производителей картофеля за сентябрь в Курской области. В этой связи мы использовали для Курской области показатель "Средние цены реализации сельскохозяйственной продукции сельхозпроизводителями всех категорий" (за третий квартал года), а не "Средние цены производителей сельскохозяйственной продукции, реализуемой сельскохозяйственными организациями" (на сентябрь). В среднем по Российской Федерации первый показатель ("Средние цены реализации сельскохозяйственной продукции сельхозпроизводителями всех категорий" (за третий квартал года")) был выше последнего показателя: в 2012 г. – на 37,16 %, в 2013 г. – на 42,22 %, в 2014 г. – на 56,87 %, в 2015 г. – на 35,5 %, в 2016 г. – на 36,52 %. Для унификации подхода к построению прогнозов цен производителей, мы рассчитали для Курской области «средние цены производителей сельскохозяйственной продукции, реализуемой сельскохозяйственными организациями (на сентябрь)» путем пересчета из «средних цен реализации сельскохозяйственной продукции сельхозпроизводителями всех категорий" (за третий квартал года)».
На рисунке 5 представлена матрица взаимосвязей факторов, обозначение которых приведено в таблице 2.

Таблица 2 – Обозначение факторов, представленных в матрице
Обозначение Фактор
а1 Валовой сбор картофеля, тыс. ц
а2 Средние цены производителей сельскохозяйственной продукции, реализуемой сельскохозяйственными организациями, руб./т в сентябре
а3 Посевные площади картофеля, тыс. га
а4 Запасы продукции на начало года + внутреннее производство + импорт продукции на конец сентября.
а5 Урожайность картофеля, ц/га
а6 Потребительские цены на картофель, руб./кг
а7 Реализовано картофеля, тыс. т
а8 Потребление населением, т/год
а9 Импорт картофеля, т
а10 Экспорт картофеля, т
а11 Импорт картофеля, долл. США
а12 Экспорт картофеля, долл. США
а13 Средневзвешенный курс доллара США

Рисунок 5 – Матрица взаимосвязей факторов

Согласно представленной матрице, высокая положительная зависимость наблюдается между валовым сбором картофеля и посевными площадями, объемом реализации, объемом внутреннего производства. Средняя положительная зависимость валового сбора от показателя урожайности может определяется различным уровнем агротехнологий сельхозпроизводителей. Отличающийся коэффициент зависимости потребления населением и валовым сбора; и объема реализации и валового сбором, указывает на возможности увеличения объемов переработки промышленностью при наличии излишков продукции. Эластичность показателей объема потребления перерабатывающей промышленностью дает относительно слабую отрицательную корреляцию между уровнем валового сбора и средними ценами производителей. По показателям импорта картофеля в натуральном и стоимостном выражении и валового сбора зависимость минимальная. Так импорт свежего картофеля в 1 и 2 квартале года скорее обеспечивает товарное разнообразие в торговле; и к показателю обеспеченности товарным картофелем населения (и сырьем переработчиков) отношения на имеет.
Наибольшая положительная зависимость показателя «средние цены производителей сельскохозяйственной продукции, реализуемой сельскохозяйственными организациями» с показателем «потребительские цены на картофель», но и их демпфирует наличие мощностей перерабатывающей промышленности. Существует отрицательная зависимость средних цен производителей с показателями, существенно зависимыми от валового сбора; и слабая зависимость с показателями, характеризующими внешнюю торговлю.
Зависимости показателей «посевные площади картофеля» и «запасы продукции на начало года + внутреннее производство + импорт продукции» полностью коррелируют с показателем валового сбора.
Показатель потребительских цен коррелирует с показателем средние цены производителей, однако зависимость между ценами и объемом потребления населением отсутствует. Данный парадокс можно объяснить тем, что большая часть объема картофеля производится в хозяйствах населения.
Показатель «реализовано картофеля» коррелирует с показателями валового сбора картофеля и его посевными площадями, но зависимость менее значима. Объемы реализации картофеля не зависят от объема импорта, согласно матрице, а объем экспорта соотносим с движениями среднегодового курса рубля относительно доллара США.
Показатель «потребление населения» слабо коррелирует с показателями, имеющими сильную степень зависимости с валовым сбором. Данный показатель имеет слабую положительную зависимость от импорта картофеля, при слабой положительной зависимости курса национальной валюты.
Высокую положительную зависимость имеет показатели импорт и экспорт картофеля, с выручкой полученной за эти операции.
Курс валюты имеет градацию положительной зависимости от слабой до нуля, что подтверждает абсолютную продовольственную безопасность по картофелю при условии отсутствия экстремальных неурожаев картофеля на большинстве территории Российской Федерации.
Для более детального анализа влияния показателя объема производства на цену картофеля были выбраны статистические данные по Воронежской области за больший временной период и добавлены инфляционные показатели (рис. 6).

Рисунок 6 – Изменение динамики валового сбора, цен и инфляционного влияния, где ряд 1 – Валовый сбор, ряд 2 – Средняя цена картофеля за год, ряд 3 – Показатель инфляции.

Наличие обратно пропорциональной зависимости изменения валового сбора и средних цен присутствует только 2010 и 2011 гг. В остальных годах не наблюдается влияние степени насыщенности рынка продуктом на уровень цен на него. Поскольку значительную часть урожая картофеля собирают хозяйства населения, то рационально оценить возможную неточность данного показателя. Проведенным анализом выявлена высокая вероятность недостоверности данных по валовому сбору картофеля (табл. 3).
Таблица 3 – Объем валового сбора картофеля в Воронежской области, выращенного в хозяйствах населения в 2010-2016 гг.
Показатель 2010 г. 2011 г. 2012 г. 2013 г. 2014 г. 2015 г. 2016 г.
% валового сбора, выращенный в хозяйствах населения 94,3 89,5 90,1 93,9 94,3 94,2 95,6
Валовый сбор (в тыс.
тонн) 643,6 1131,8 1282,1 1645,0 1660,8 1704,1 1493,4
Население (в тыс. чел.) 2343,9 2334,8 2331,5 2330,4 2329,0 2331,1 2333,5
Объем выращенного картофеля на 1 жителя области (тонн/год) 0,275 0,485 0,55 0,706 0,713 0,731 0,64
Объем выращенного картофеля на 1 жителя области, (в мешках, 32 кг для наглядности) 8,6 15,2 17,2 22,1 22,3 22,8 20,0

Обозначенная в таблице 3 ситуация не уникальна, похожие статистические закономерности прослеживаются в большинстве областей, в которых выращивается картофель. Воронежская область выбрана в качестве характерного примера, дополнительным аргументом для выбора послужил лидерство региона по размеру валового сбора картофеля в 2016 г. Исходная информация для примера получена из Воронежского статистического ежегодника.
По данным Единой межведомственной информационно-статистической системы (ЕМИСС) личное потребление картофеля в среднем по Российской Федерации колеблется от 58,5 до 66,5 кг картофеля, а согласно другому способу получения информации по данным Росстата 110-112 кг (табл. 4).
Таблица 4 – Личное потребление картофеля (кг) в среднем на 1 человека в год
в 2011-2015 гг. [1; 2]
Год 2011 г. 2012 г. 2013 г. 2014 г. 2015 г.
По данным ЕМИСС методом опроса (кг) 63,5 63,8 60,6 58,5 57,6
По данным Росстата по отчетным данным (кг) 110 111 111 111 112

Разработанная модель прогноза валовых сборов и цен производителей имеет высокую чувствительность к достоверности информации, поэтому отсутствие зависимости потребительских цен и объема производства может указывать на существенно завышенный показатель валового сбора и площадей, занятых под картофель, по данным статистического наблюдения. Дальнейшее использование данных по личным хозяйствам населения для анализа рынка картофеля и формирование прогноза с высокой степенью достоверности малоэффективно.

1/0

Контроль посевной

1/1

1/0

1/1

1/0

1/1

1/0

Return to the table of contents

Sources:

1. Потребление основных продуктов питания в среднем на потребителя в год [Загл. с экр.]. Единая межведомственная информационно-статистическая система [Официальный интернет-ресурс]. URL: https://www.fedstat.ru/indicator/43226 (дата обращения: 29.12.2017).
2. Ресурсы и использование картофеля по Российской Федерации [Загл. с экр.]. Росстат [Официальный интернет-ресурс]. URL: http://www.gks.ru/free_doc/doc_2017/bul_dr/sx/sx-potr17.rar
3. Влияние климатических изменений на урожайность картофеля и моркови в условиях алтайского приобья / Е.Г. Пивоварова, А.О. Люцигер, Е.В. Райхерт и др. // Известия Алтайского государственного университета. 2011. № 3-2. С. 40-44.
4. Перспективы использования динамических моделей агроэкосистем в задачах средне и долгосрочного планирования сельскохозяйственного производства и землеустройства / В.Л. Баденко, В.В. Гарманов, Д.А. Иванов и др. // Российская сельскохозяйственная наука. 2015. № 1-2. С. 72-76.
5. Открытые данные [Загл. с экр.]. Портал открытых данных Минсельхоза России [Официальный интернет-ресурс]. URL: http://opendata.mcx.ru/opendata/

References:

1. Prikaz Minsel'khoza Rossiyskoy Federatsii ot 15 dekabrya 2010 g. № 433 «Ob utverzhdenii osnovnykh programm vedomstva« Razvitiye ptitsevodstva v Rossiyskoy Federatsii na 2010-2012 gody »i Kontseptsii razvitiya ptitsevodstva Rossiyskoy Federatsii na period 2013–2020 godov». Minsel'khoz Rossii [Ofitsial'nyy internet-resurs]. URL: http://mcx.ru
2. Gushchin V.V. Proizvodstvo i pererabotka yaits v mire / Rusanova G.Ye., Riza-Zade N.I., Martynova Ye.I. // Sbornik nauchnykh trudov. 2016. Vyp. 44.
3. Agroinvestor: zhurnal [Elektronnyy resurs]. URL: http://www.agroinvestor.ru
Federal'naya tamozhennaya sluzhba Rossii [Ofitsial'nyy internet-resurs]. URL: http://customs.ru

All illustrations of the article:

1/0

​

ЭКОНОМИЧЕСКИЕ НАУКИ | ECONOMICAL SCIENCES

КОЗУБЕНКО И.С., МОТОРИН О.А., ХУДИЕВ Ф.И., СВИЩЕВА М.И., МЕНКНАСУНОВ М.П.

РАЗРАБОТКА ПРОГНОЗА ПОТРЕБЛЕНИЯ КАРТОФЕЛЯ В РОССИИ С УЧЕТОМ СЦЕНАРНЫХ УСЛОВИЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ

IGOR S. KOZUBENKO, OLEG A. MOTORIN, FARID I. KHUDIYEV, MARGARITA I. SVISHCHEVA, MAKSIM P. MENKNASUNOV

DEVELOPING A FORECAST OF POTATO CONSUMPTION IN RUSSIA, TAKING INTO ACCOUNT THE SCENARIO CONDITIONS FOR SOCIO-ECONOMIC DEVELOPMENT

IGOR S. KOZUBENKO, OLEG A. MOTORIN, FARID I. KHUDIYEV,
MARGARITA I. SVISHCHEVA, MAKSIM P. MENKNASUNOV