Разработка цифровых двойников для процессов обучения
- Authors: 1
-
Affiliations:
- Самарский государственный технический университет
- Issue: Vol 1 (2024)
- Pages: 368-369
- Section: ЧАСТЬ I. Цифровые технологии: настоящее и будущее
- URL: https://vietnamjournal.ru/osnk-sr2024/article/view/632808
- ID: 632808
Cite item
Full Text
Abstract
Обоснование. В работе преподавателей содержится ряд циклически повторяющихся процессов, связанных с подготовкой к проведению лекционных занятий, составлением методических пособий, проведением сбора выполненных работ обучаемых. В настоящее время все эти процессы сопряжены с использованием цифровых инструментов. Однако зачастую время преподавателя тратится не на сам процесс формирования и передачи учебных знаний, а на взаимодействие с электронными источниками информации, требуя наличия навыков работы с программным обеспечением. В свою очередь, это приводит к отвлечению преподавателя от основной образовательной деятельности и снижению качества формируемых учебных материалов.
Цель — сократить учебную нагрузку преподавателей посредством разработки цифрового двойника для автоматизации рутинных процессов обучения.
Методы. Перед проектированием программного обеспечения было проведено моделирование учебного процесса преподавателя. В процессе моделирования, для выявления наиболее времязатратных рутинных участков работы с цифровыми инструментами, применялся метод эмпирического анализа, с помощью которого были выделены ключевые процессы, подлежащие автоматизации.
Результаты. В результате проведенного анализа было выделено два процесса:
- процесс транскрибирования аудио- и видеоматериалов с последующим составлением конспекта и сбором терминов в глоссарий для подготовки текстов лекций и методических пособий;
- процесс анализа содержимого полученных административных документов для дальнейшего определения их назначения.
При проектировании программного обеспечения была выбрана микросервисная архитектура веб-приложения и были реализованы следующие модули:
1) модуль транскрибирования и конспектирования;
2) модуль семантического анализа документов;
3) модуль графического интерфейса.
Для программной реализации модулей и связи между ними был выбран язык программирования Python [1] и библиотека FastAPI, а также применена контейнеризация средствами Docker и Docker-Compose [2].
Функциональности первого модуля позволяют преобразовывать аудио в текст, с соблюдением орфографии и пунктуации, а также с распознаванием англицизмов, часто употребляемых в профессиональной речи. Это достигается возможностями модели Whisper v.3, не требующей для работы графических ускорителей. После получения текста аудио используется связка моделей LangChain Retrievers и большой языковой модели Saiga-2. В результате их последовательной работы формируется краткий конспект и выделяются термины с временными метками, указывающими на употребление данных терминов в аудио. В конспекте выделяется оглавление, терминам в глоссарии сопоставляются определения, а также средствами библиотеки BeutifulSoup в некоторые разделы конспекта подбираются и вставляются картинки из открытых источников (рис. 1).
Рис. 1. Фрагмент интерфейса с демонстрацией сформированного конспекта и глоссария
Модуль семантического анализа документов, используя библиотеки для работы с естественным языком NLTK и Pymorphy2, выполняет предобработку содержания полученных файлов: токенизацию, лемматизацию, очистку от стоп-слов. Полученные данные передаются на обработку в модель опорных векторов [3], реализованную в библиотеке Scikit-Learn. Данная модель обучена на наборе данных из 1500 элементов, собранных из открытых источников, и протестирована с определением 11 классов юридических документов: договор, акт, счет, соглашение и т. д. Полученный алгоритм на тестовом наборе данных показал значение 0,85 для метрики Macro F1 и 0,95 для метрики Accurancy.
Выводы. Разработанный цифровой двойник для процессов обучения справляется с выполнением функций методиста в работе преподавателя, помогает снизить временные затраты на обработку аудиоматериалов, а также упрощает выполнение административных функций благодаря семантической классификации содержимого документов.
Full Text
Обоснование. В работе преподавателей содержится ряд циклически повторяющихся процессов, связанных с подготовкой к проведению лекционных занятий, составлением методических пособий, проведением сбора выполненных работ обучаемых. В настоящее время все эти процессы сопряжены с использованием цифровых инструментов. Однако зачастую время преподавателя тратится не на сам процесс формирования и передачи учебных знаний, а на взаимодействие с электронными источниками информации, требуя наличия навыков работы с программным обеспечением. В свою очередь, это приводит к отвлечению преподавателя от основной образовательной деятельности и снижению качества формируемых учебных материалов.
Цель — сократить учебную нагрузку преподавателей посредством разработки цифрового двойника для автоматизации рутинных процессов обучения.
Методы. Перед проектированием программного обеспечения было проведено моделирование учебного процесса преподавателя. В процессе моделирования, для выявления наиболее времязатратных рутинных участков работы с цифровыми инструментами, применялся метод эмпирического анализа, с помощью которого были выделены ключевые процессы, подлежащие автоматизации.
Результаты. В результате проведенного анализа было выделено два процесса:
- процесс транскрибирования аудио- и видеоматериалов с последующим составлением конспекта и сбором терминов в глоссарий для подготовки текстов лекций и методических пособий;
- процесс анализа содержимого полученных административных документов для дальнейшего определения их назначения.
При проектировании программного обеспечения была выбрана микросервисная архитектура веб-приложения и были реализованы следующие модули:
1) модуль транскрибирования и конспектирования;
2) модуль семантического анализа документов;
3) модуль графического интерфейса.
Для программной реализации модулей и связи между ними был выбран язык программирования Python [1] и библиотека FastAPI, а также применена контейнеризация средствами Docker и Docker-Compose [2].
Функциональности первого модуля позволяют преобразовывать аудио в текст, с соблюдением орфографии и пунктуации, а также с распознаванием англицизмов, часто употребляемых в профессиональной речи. Это достигается возможностями модели Whisper v.3, не требующей для работы графических ускорителей. После получения текста аудио используется связка моделей LangChain Retrievers и большой языковой модели Saiga-2. В результате их последовательной работы формируется краткий конспект и выделяются термины с временными метками, указывающими на употребление данных терминов в аудио. В конспекте выделяется оглавление, терминам в глоссарии сопоставляются определения, а также средствами библиотеки BeutifulSoup в некоторые разделы конспекта подбираются и вставляются картинки из открытых источников (рис. 1).
Рис. 1. Фрагмент интерфейса с демонстрацией сформированного конспекта и глоссария
Модуль семантического анализа документов, используя библиотеки для работы с естественным языком NLTK и Pymorphy2, выполняет предобработку содержания полученных файлов: токенизацию, лемматизацию, очистку от стоп-слов. Полученные данные передаются на обработку в модель опорных векторов [3], реализованную в библиотеке Scikit-Learn. Данная модель обучена на наборе данных из 1500 элементов, собранных из открытых источников, и протестирована с определением 11 классов юридических документов: договор, акт, счет, соглашение и т. д. Полученный алгоритм на тестовом наборе данных показал значение 0,85 для метрики Macro F1 и 0,95 для метрики Accurancy.
Выводы. Разработанный цифровой двойник для процессов обучения справляется с выполнением функций методиста в работе преподавателя, помогает снизить временные затраты на обработку аудиоматериалов, а также упрощает выполнение административных функций благодаря семантической классификации содержимого документов.
About the authors
Самарский государственный технический университет
Author for correspondence.
Email: a.v.bartenev@yandex.ru
ORCID iD: 0009-0005-8971-4679
студент
Russian Federation, СамараReferences
- docs.python.org [Электронный ресурс]. Python 3.11.8 documentation [дата обращения: 26.05.2024]. Режим доступа: https://docs.python.org/3.11/
- docs.docker.com [Электронный ресурс]. How Compose Works [дата обращения: 26.05.2024]. Режим доступа: https://docs.docker.com/compose/compose-application-model/
- scikit-learn.org [Электронный ресурс]. Support Vector Machines [дата обращения: 26.05.2024]. Режим доступа: https://scikit-learn.org/stable/modules/svm.html
Supplementary files
