Биг дата и свёкла

Биг дата и свёкла

// Машинное обучение в полях
Авторы: Светлана Соколова-Михайлова

Анализ больших массивов данных применяется повсеместно: в науке, экономике, промышленности, медицине, спорте и даже сельском хозяйстве. Учёные Сколтеха совместно с компанией «РусАгро» разрабатывают модель повышения плодородия почв, собирая и анализируя массивы данных. Это первый проект подобного рода в России.

Глобальная цель совместного проекта «РусАгро» и Сколтеха — создать максимально точную систему рекомендаций для сельского хозяйства. Программа должна анализировать большое количество разнородных данных, связанных, в частности, с рельефом поля, особенностями почвы, погодными условиями, и выдавать показатели, на основе которых можно принимать решения: в каких пропорциях вносить удобрения, насколько интенсивно поливать землю, пора ли приступать к уничтожению вредных насекомых.

Сейчас система находится на стадии проекта — помимо математиков в нём участвуют геологи, географы, почвоведы, агрономы, биологи. В 2017 году специалисты собрали более 400 образцов, каждый из которых проанализировали 10 способами. Первые результаты будут уже этой весной. В целом проект рассчитан на два года.

Некоторые данные получить довольно легко. Нет ничего сложного в том, чтобы на основе снимков, сделанных спутником, составить цифровую карту рельефа поля. Найти погодные сводки тоже труда не составляет. Но есть, что называется, тяжёлые данные, связанные с анализом сложнейшего комплекса химических, физических и биологических процессов в почве. Чтобы понять суть плодородия, надо копать. В прямом смысле.

Иван Оселедец — доктор физико-математических наук, доцент Сколковского института науки и технологий, старший научный сотрудник Института вычислительной математики РАН. Руководитель почвенного проекта Сколтеха и «Рус-Агро».

Учёных интересуют физические свойства почвы, например пористость, влияющая на способность удерживать влагу; рельеф; химия и микроэлементный состав; биологические характеристики, включая разнообразие бактерий, животных, грибов и растений. Все эти аспекты сложнейшим образом взаимосвязаны. Например, пористость — прямой результат деятельности микроорганизмов.

— По сути, мы должны «измерить» каждое растение в поле, — говорит Сколтеха, руководитель почвенного проекта Иван Оселедец. — А что делают растения? Поглощают питательные вещества, микроэлементы и, наоборот, привносят в землю новую органику, когда разлагаются. Количество и качество микробиоты влияет на физический состав почвы. Все процессы связаны, и это необходимо учитывать.

За полгода, предшествующих посадке свёклы — во время предыдущего цикла, — мы собрали очень ценную информацию, позволившую увидеть процесс в динамике.

На самом деле свёкла до сих пор нормально не «измерена». А именно из неё мы делаем сахар. На Западе для этой цели выращивают тростник, и он там хорошо изучен.

Полученные в полях образцы почвы измеряются по множеству показателей. Учёные выявляют содержание в ней органики, фосфора, углерода, азота, растворяемых веществ и воды; пористость и теплопроводность. Все лабораторные исследования проводятся в Почвенном институте имени Докучаева — одном из партнёров проекта.

— Чтобы приступить к созданию рекомендательной системы, нужно иметь цифровую модель работы хотя бы базовых процессов, которые идут в почве, — продолжает доцент Оселедец. — Допустим, известно, что поле содержит 4% гумуса. А ещё там есть 20 других показателей — по углероду, фосфору, азоту и так далее. При каком соотношении этих элементов 4% гумуса — благо, а при каком нет? Или что будет, если добавить в землю азот? Априори мы этого не знаем. Знаем лишь, что вслед за изменением количества любого из элементов сразу начнёт меняться куча параметров, влияющих на кислотность и всё остальное. Например, пористость почвы зависит от деятельности целых сообществ разных микроорганизмов. А теперь представьте, что у вас несколько типов почв... На самом деле мы умеем строить динамическую модель, которая помогает понять, адекватно ли состояние системы, и предсказывает изменение всех важных показателей во времени. Это очень грубая и нечёткая модель, но она даёт представление, за какими параметрами надо следить больше, а за какими меньше.

— Вы берёте уравнение и подставляете в него значения?

Big data

Этот термин появился в 1998 году. Джон Мэши, ведущий исследователь компании Silicon Graphics, использовал его в докладе «Большие данные и новая волна инфрастресса». В своём выступлении Мэши поднял проблему возрастающей нагрузки на компьютерные системы, которую создаёт увеличение объёмов самых разных данных.

В начале XXI века появилось сразу несколько технологий, благодаря которым стала возможна работа с большим количеством данных. Были созданы облака — виртуальные хранилища данных; получены компактные, дешёвые и точные датчики, измеряющие температуру, напряжение, давление и множество других параметров; разработаны методы машинного обучения. На стыке информатики и математики возникла новая область знаний — data science.

Data science

Наука о методах, инструментах и подходах к анализу данных с целью извлечения из них полезной информации. Data science лежит на пересечении математики, которая учит правильно ставить задачи, и информатики, объединяющей всё, что связано с алгоритмами обработки, базами хранения и передачей данных.

Машинное обучение

Область искусственного интеллекта — разработка программ, способных учиться и принимать решения, исходя из собственного опыта.

— Да. Биологические данные учитываются как набор переменных разного типа. Всё это мы перерабатываем в уравнения и лабораторную модель, чтобы затем ответить на вопросы, что будет, если мы добавим больше удобрений, изменим режим осадков и так далее.

— Расскажите про машинное обучение применительно к вашему проекту.

— Есть метод обучения, при котором модель тренируется по иксу предсказывать игрек. Но нам это не подходит: слишком много неопределённости в условиях. Есть так называемое supervise learning, когда задача состоит в том, чтобы автоматически кластеризировать разные векторы по схожим группам. Это, в принципе, работает, но не слишком помогает в прогнозировании. Поэтому мы используем экспресс-методы на готовых моделях и supervise learning. Мы знаем, как моделировать количество углерода, полезных веществ, микроэлементов, транспорт питательных веществ, воду, температуру. Открытый вопрос — моделирование пористости. Существует модель урожайности, хотя с точки зрения долгосрочного планирования больший интерес представляет плодородие.

— В чём сложность построения моделей?

— Нужно выписать уравнения и построить функцию, которая иногда принимает совершенно сумасшедший вид. Предположим, скорость разложения зависит от количества микробиоты. Это уже квадратичное слагаемое получается. Коэффициентов много, так что может не хватать данных, чтобы отличить одну модель от другой. Тогда придётся применять разные статистические критерии. Моделей, где понятно, что вот этот процесс описывается этим уравнением и только им, не очень много. Особенно если система — это поле, где вести мониторинг и следить за изменением параметров во времени достаточно сложно из-за большого объёма площади: 100 гектаров.

— Каждое поле индивидуально?

— Ну, вот вопрос: как модель, построенная на одном поле, переносится на другое? От каких факторов это зависит? Нельзя модель для пшеничного поля в Австралии перенести на наше свекольное. Мы создаём модель именно для отечественных полей с нашими типами почв, видами микроорганизмов и уровнем осадков. Для этого необходимо понять, что измерять, как и зачем. Именно этим мы и занимаемся.

 

Опубликовано в журнале «Кот Шрёдингера» №1-2 (39-40) за январь-февраль 2018 г.

Подписаться на «Кота Шрёдингера»