Семинары по анализу данных



XXIV заседание семинара.
Дата проведения: 17.10.2019 в 16:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Кустицкая Т.А., доцент каф. ПМКБ СФУ
"Анализ образовательных данных: особенности, задачи, тенденции. Задача прогнозирования успешности обучения"
Дискуссия: "Перспективы применения аналитики образовательных данных в управлении учебным процессом"



XXIII заседание семинара.
Дата проведения: 03.10.2019 в 16:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Алексей Качан, компания "Связьком"
"Разработка и применение устройств для VR с обратной тактильной связью"



XXII заседание семинара.
Дата проведения: 19.09.2019 в 16:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Пыжев Антон Игоревич, СФУ
"Режим собственности на леса как фактор эффективности лесопользования: межстрановой анализ"



XXI заседание семинара.
Дата проведения: 23.05.2019 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Кузенков Николай Петрович, КГПУ им. Астафьева
"О возможности использования анализа речевых сигналов при оценке высших психических функций человека".
Аннотация:
Высшие психические функции человека являются продуктом функционирования центральной нервной системы, а особенности их протекания зависят как от физиологических особенностей нервных тканей, так и от результатов обучения и взаимодействия со средой. С точки зрения физиологии невозможно выделить изолированную систему, реализующую ту или иную высшую психическую функцию на всех уровнях её функционирования. Изучение работы мозга позволило установить конкретные области, ответственные за получение информации от различных органов чувств и передачу информации к исполнительным органам, но по мере повышения уровня абстракции информации и её передачи к вторичным, а тем более, третичным корковым полям, сенсорная специфичность информации утрачивается. Третичные поля различаются по характеру работы с информацией и выполняют универсальные действия в различных высших психических функциях. Например, одни области, в зависимости от контекста, выполняют задачи по ориентации в пространстве, построению высказывания и выполнению математических операций, другие — по планированию действий при выполнении самых разнообразных функций.
Такая универсальность в обработке информации позволяет по оценке свойств одной функции, строить прогноз относительно свойств других функций, или оценивать особенности функционирования отдельных структур головного мозга.
В данной работе анализируются речевые сигналы больных с различными речевыми нарушениями, а также испытуемых без речевых нарушений, у части из которых измерялся уровень интеллекта. Анализ речевых сигналов проводился с помощью как известных ранее, так и оригинальных методов математической статистики и нелинейной динамики. Основные результаты работы: показаны возможности оригинальных методов анализа временных рядов, преимущество перед спектральными методами; с использованием методов машинного обучения разработан алгоритм диагностики речевых патологий; показана прогностическая возможность использования нелинейных и статистических характеристик речи при оценке особенностей интеллекта.



XX заседание семинара.
Дата проведения: 16.05.2019 в 16:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Алеева Валентина Николаевна, кандидат ф-м.н., доцент кафедры системного программирования Южно-Уральского государственного университета (НИУ)
"Концепция Q-детерминанта и ее применение для параллельных вычислений".
Аннотация:
Концепция Q-детерминанта – один из подходов к распараллеливанию численных алгоритмов, предложенный автором доклада. Основным понятием концепции является Q-детерминант алгоритма. Q – множество операций, которые использует алгоритм. Q-детерминант состоит из Q-термов. Их количество равно числу выходных данных. Каждый Q-терм описывает все возможные способы вычисления одного из выходных данных в зависимости от входных данных. Любой численный алгоритм имеет Q-детерминант и может быть представлен в форме Q-детерминанта. Такое представление является универсальным описанием численных алгоритмов. Представление алгоритма в форме Q-детерминанта делает алгоритм прозрачным с точки зрения его структуры и реализации. Q-детерминант содержит только машинно-независимые свойства алгоритма, однако он может быть использован для эффективной реализации алгоритмов на параллельных вычислительных системах.
В докладе рассматривается концепция Q-детерминанта и ее применение для автоматизированного определения ресурса параллелизма любого численного алгоритма и для Q-эффективного программирования, позволяющего для любого численного алгоритма разработать Q-эффективную программу, полностью использующую ресурс параллелизма алгоритма, а также повысить эффективность реализации методов решения алгоритмических проблем и самих алгоритмических проблем.



XIX заседание семинара.
Дата проведения: 25.04.2019 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Белоголовкин Евгений Юрьевич, компания "КРИС"
"Примеры для разработки прогнозирующих систем на базе "машинного обучения".
Аннотация:
Компания "КРИС" - системный интегратор в области ИТ технологий, специализируется на создании ИТ инфраструктуры для сбора, передачи и централизованной обработки данных - серверы, системы хранения данных, кластеры высокой готовности, системы виртуализации, резервного копирования и мониторинга. Заказчиками компании являются крупные промыщленные предприятия в Красноярском крае и за его пределами (Хакасия, Хабаровский край, Якутия, Сахалинская область)

Участвуя в данных проектах, мы увидели нарастающий интерес промышленности и энергетики к решениям в области анализа и обработки технологической информации, позволяющим прогнозировать состояние оборудования, планировать сроки его ремонта
или замены. Такие решения строятся на стыке нескольких предметных областей - математика, высокопроизводительные вычисления, инфраструктура сбора и подготовки данных. В целом, мы видим что прогнозная аналитика все более востребована на рынке.

В докладе будут рассмотрены четыре группы задач прогнозирования, взятые из нашей практики системного интегратора, которые мы предлагаем для организации практики студентов СФУ на нашей базе.



XVIII заседание семинара.
Дата проведения: 11.04.2019 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Шихов Андрей, "Дисперсионный анализ"
Аннотация: Дисперсионный анализ (на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик) путём исследования различий в средних значениях. Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. В докладе будут рассмотрены методы дисперсионного анализа, а также будет затронута взаимосвязь между методом многомерной регрессии и дисперсионным анализом (анализом вариаций). И в том и в другом методе исследуется линейная модель.



XVII заседание семинара.
Дата проведения: 28.03.2019 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Осипов Николай Николаевич, д.ф-м.н, профессор каф. ПМКБ, "Алгоритмическая реализация метода Рунге для диофантовых уравнений малой степени"
Аннотация: В 1887 г. немецкий математик Карл Рунге предложил эффективный метод решения для довольно широкого класса диофантовых уравнений f(x,y)=0 с двумя неизвестными в целых числах. Этот метод опирается на разложения в ряды Пюизо ветвей алгебраической функции, определяемой данным уравнением. Несмотря на эффективность метода, явные оценки для решений (x,y) содержат слишком большие константы, что делает практически бесполезными переборные алгоритмы решения даже в случае уравнений малой степени. Отчасти поэтому в современных системах компьтерной алгебры (Maple, Mathematica и т.п.) отсутствуют модули для решения таких диофантовых уравнений. В докладе будет рассказано об алгоритмизации элементарной версии метода Рунге для диофантовых уравнений 3-й и 4-й степени. Эта версия, в отличие от оригинальной, не использует разложения в ряды и допускает эффективную компьютерную реализацию.



XVI заседание семинара.
Дата проведения: 14.02.2019 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Петренко Екатерина, "Выходя за пределы линейности".
Аннотация: Линейные модели относительно просто описать и построить, и они имеют преимущества в сравнении с другими подходами благодаря интерпретируемости и возможности сделать статистические выводы. Однако у стандартной линейной регрессии могут быть существенные недостатки, связанные с ее предсказательной силой. Это обусловлено тем, что предположение о линейности почти всегда является приближением, и не всегда самым верным. Можно улучшить результаты, получаемые при помощи метода наименьших квадратов, применяя гребневую регрессию, метод лассо, регрессию на главные компоненты и другие подходы. Улучшение при использовании этих методов достигается путем упрощения линейной модели, а следовательно, благодаря снижению дисперсии оценок коэффициентов. Однако все еще используется линейная модель, которую дальше никак не улучшить. Теперь предлагается ослабить допущение о линейности, сохраняя модель настолько интерпретируемой, насколько это возможно.
В докладе рассматриваются такие подходы к расширению линейно модели как полиномиальная регрессия, применение ступенчатых функций, регрессионные и сглаживающие сплайны, локальная регрессия и обобщенные линейные модели.



XV заседание семинара.
Дата проведения: 31.01.2019 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Царев Сергей Петрович, доктор физ.-мат. наук, профессор, "Свободная интерполяция орбит ГЛОНАСС/GPS: как с помощью технологий больших данных решить двухточечную краевую задачу, не решая дифференциальных уравнений".
Аннотация: В докладе на примере обработки данных спутниковых навигационных систем будет продемонстрирована простая, но неожиданно эффективная методика свободной интерполяции, которая позволяет с точностью 10-11 десятичных знаков интерполировать положения спутников GPS и GLONASS. Излагаемую методику интерполяции естественно назвать "свободной", поскольку она не связана ни с полиномами, ни с тригонометрическими и др. функциями, обычно используемыми в стандартных методиках интерполяции.
Методика свободной интерполяции также позволяет построить намного более точные (тем не менее очень простые) модели сред, важных в работе космических навигационных систем: ионосферы, тропосферы и т.п.
Базой для развития данного метода служат Big Data, накопленные за долгие годы работы навигационных систем.
Мы обсудим некоторые общие проблемы работы с Big Data. Парадоксальным, но реальным, оказался следующий вывод: основная проблема работы с большими данными состоит в том, что их – слишком мало...



XIV заседание семинара.
Дата проведения: 21.12.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Михальченко Галина Ефимовна , «Методы анализа данных, основанные на деревьях решений» .
Аннотация: В середине 1980–х Брейман, Фридман, Ольшен и Стоун ввели деревья регрессии и классификации и стали одними из первых, кто детально продемонстрировал большой потенциал для практической реализации этого метода, включая перекрестную проверку для выбора модели. Методы, основанные на деревьях решений, просты и полезны с точки зрения их интерпретируемости. Однако обычно они не настолько хороши с точки зрения точности предсказаний, как методы, рассмотренные ранее. Поэтому наряду с деревьями в докладе рассматриваются также такие подходы, как бэггинг, случайные леса и бустинг.



XIII заседание семинара.
Дата проведения: 13.12.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Курако Михаил Александрович, «Отбор признаков и регуляризация в задаче линейной регрессии».
Аннотация: Линейная модель регрессии имеет выраженное преимущество перед более сложными нелинейными моделями с точки зрения интерпретируемости, и при решении многих практических задач она оказывается удивительно конкурентноспособна. Хороших результатов в плане совершенствования линейной модели можно добиться с помощью отбора признаков и регуляризации модели - метода, позволяющего сделать модель более стабильной (т.е. снизить дисперсию) при некотором увеличении смещенности.



XII заседание семинара.
Дата проведения: 06.12.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Пересунько Павел Викторович, «Отбор признаков в задаче линейной регрессии» .
Аннотация: При решении практических задач линейная модель обладает рядом преимуществ, например, простота и интерпретируемость результатов.
Линейная регрессия ограничена линейными зависимостями, однако даже в случае линейной зависимости линейная модель может показать себя не с лучшей стороны. Например, в случае, когда имеется большое количество признаков по сравнению с количеством образцов, линейная регрессия может переобучиться. Также при большом количестве признаков интерпретируемость модели уменьшается. При наличии коллинеарных факторов параметры линейной регрессии теряют свой смысл.
Можно выдвинуть три класса решения данных проблем.
1. Отбор признаков для линейной регрессии.
2. Регуляризация моделей.
3. Снижение размерности пространства.
В докладе будут рассмотрены различные приемы построения линейной регрессии в случае большого количества признаков, а также методы оценивания полученных моделей.
Также будет рассмотрена задача оценивания прибыльности торговой точки и описано решение, понравившееся заказчику больше всего.



XI заседание семинара.
Дата проведения: 29.11.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Коловский Юрий Васильевич, «Природоподобие: в методологии, схемо- и системотехнике искусственного интеллекта; в технологиях обработки данных».
Аннотация: Характерной чертой современной науки является взаимопроникновение идей, теоретических подходов и методов, присущих разным дисциплинам. Особенно это относится к фундаментальным наукам – математике, физике, химии, биологии и др. Математика язык науки, физические методы исследования широко используются при изучении живой природы, а своеобразие этого объекта вызывает к жизни новые, более совершенные методы физических исследований. Сейчас перед наукой стоит задача перенести природоподобие на созданную человечеством искусственную природу (техносферу). Решение новых проблем, как правило, не возможно обеспечить ресурсами классической вычислительной математики и информатики, в частности, при становлении современной когнитивной науки.
Сама математика, по сути, подтверждая закон диалектики о переходе количества в новое качество, активно формирует новую парадигму, за счёт «неклассических» разделов: нейроматематика, нейроинформатика, нечёткая логика (англ.Fuzzy logic), генети́ческий алгори́тм (англ. genetic algorithm), объединённые в настоящее время направлением гибридные мягкие вычисления (Hybrid Soft Computing).
В области когнитивных наук сформировались научные направления: гибридные интеллектуальные системы (Hybrid Intelligent Systems); соображающее, осмысливающее управление (Control Intelligence); системы сообразительности, понимания, разведки (Systems Intelligence); компьютерное генеративное искусство (Computer Generated Art) и др.
Первостепенная проблема нового научно-технологического уклада — верификация; проверка; эмпирическое подтверждение теоретических положений науки путём сопоставления их с наблюдениями, чувствами, данными, экспериментом.



X заседание семинара.
Дата проведения: 15.11.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Программа:
1. Решение организационных вопросов (о формате и расписании проведения семинара)
2. Доклад: Кустицкая Татьяна Алексеевна, «Проблема репрезентативности выборочных данных» .
Аннотация: Широкий класс задач анализа данных реализуется в рамках т.н. выборочного метода, когда обследование целого (генеральной совокупности) сводится к обследованию его части (выборки) с последующим распространением результатов обследования выборки на генеральную совокупность. При таком подходе остро стоит проблема репрезентативности выборки (соответствия характеристик выборки характеристикам популяции в целом). В докладе рассматриваются факторы, влияющие на репрезентативность (объем выборки и генеральной совокупности, метод извлечения выборки выборки, задаваемая априори степень достоверности), и показатели репрезентативности (ошибки вычисления выборочных характеристик, доверительные интервалы для характеристик). На примере практической задачи рассматривается одна из возможных стратегий построения репрезентативной выборки.



IX заседание семинара.
Дата проведения: 13.06.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Пыжев Антон Игоревич, «Ресемплирование. Бутстреп».
Аннотация: Доклад посвящен использованию различных техник построения повторных выборок (ресемплирования). Основные идеи и их практическая реализация будут рассмотрены на конкретных примерах, в том числе с использованием рассмотренного ранее набора данных о жилой недвижимости в Москве



VIII заседание семинара.
Дата проведения: 30.05.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Щуплев Алексей Валерьевич, «Оценка числа точек решетки в области».
Аннотация: Задача об оценке числа точек целочисленной решетки в области восходит к задаче Гаусса о круге. В случае плоского многоугольника ответ дает формула Пика, имеющая комбинаторный характер. В докладе будет дан небольшой обзор известных результатов, а также доказана интегральная формула для разности числа точек решетки в замыкании области и ее объема. В случае многогранника с центрально-симметричными гипергранями мы получаем известную формулу Макмаллена, которую можно считать одним из многомерных вариантов формулы Пика.



VII заседание семинара.
Дата проведения: 16.05.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Курако Михаил Александрович, «Задача классификации в машинном обучении».
Аннотация: В докладе рассмотрена задача классификации и описано её отличие от задачи построения линейной регрессии данных. Будут рассмотрены основные методы классификации (логистическая регрессия, линейный дискриминантный анализ, метод K ближайших соседей), а также примеры построения моделей по данным S & P 500 за 2001–2005 годы.



VI заседание семинара.
Дата проведения: 25.04.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Кытманов Алексей Александрович, Кустицкая Татьяна Алексеевна, «Построение линейной регрессии на языке программирования R на примере задачи анализа стоимости недвижимости в Москве». Материалы к семинару .
Аннотация: В докладе будет рассмотрена практическая задача регрессионного анализа стоимости квартир в Москве (данные 1998 года). Будут продемонстрированы простейшие методы построения регрессии и оценки ее параметров на языке R. На реальных данных будут показаны методы отбора значимых признаков, проведен анализ признаков на коллинеарность, предложены новые агрегированные признаки, проанализированы выбросы.
Предполагается программирование рассматриваемых методов в интерактивном режиме и дискуссия на тему возможных способов улучшения получаемой регрессионной модели.



V заседание семинара.
Дата проведения: 18.04.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Пересунько Павел Викторович, Пахомова Кристина Игоревна, «Предсказание выручки сети аптек» .
Аннотация: В докладе будет рассмотрена практическая задача расчета выручки сети аптек. В первой части доклада будет описана предметная область, исходная информация и основные шаги для достижения поставленной цели. Во второй, описаны основные подходы по выявлению значимых признаков. В последней части доклада представлены получившиеся модели, подведены результаты: предсказание выручки и оценка значимых признаков.



IV заседание семинара.
Дата проведения: 04.04.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Кустицкая Татьяна Алексеевна, «Линейная регрессия» .
Аннотация: В докладе будет рассмотрена модель линейной регрессии, являющаяся основой всех регрессионных методов.
Особое внимание мы уделим статистическому подходу к оценке точности модели, который включает в себя нахождение точечных и интервальных оценок параметров регрессии, проверку гипотез значимости регрессионных характеристик.
Также мы обсудим основные проблемы, с которыми можно столкнуться при построении модели линейной регрессии. Эти проблемы могут быть связаны как со свойствами исследуемых данных, так и с выбором признаков, включаемых в модель.
Кратко рассмотрим методы уменьшения размерности модели, основанные на отборе наиболее значимых признаков.



III заседание семинара.
Дата проведения: 21.03.2018 в 14:00 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад: Кытманов Алексей Александрович, «Статистическое обучение: вводная лекция» .
Аннотация: В докладе будут рассмотрены основные понятия и положения статистического обучения, основные типы задач обучения. Мы более подробно остановимся на двух основных типах задач обучения с учителем: задачах классификации и регрессии. На примерах таких задач мы рассмотрим этапы обучения, функции потерь и функционалы качества, а также проблему переобучения.



II заседание семинара.
Дата проведения: 07.03.2018 в 10:15 в ауд. 1-12 (конференц-зал ИКИТ).
Доклад 1: Пыжев А.И, Институт экономики, управления и природопользования, «Анализ данных в экономических задачах».
Доклад 2: Гордеев Р.В, Научно-учебная лаборатория экономики природных ресурсов и окружающей среды, «Классификация субъектов РФ по уровню конкурентоспособности лесной отрасли».

Текущая неделя - первая. Расписание занятий

Яндекс.Метрика