Разработка цифровых двойников для процессов обучения

Cover Page
  • Authors: 1
  • Affiliations:
    1. Самарский государственный технический университет
  • Issue: Vol 1 (2024)
  • Pages: 368-369
  • Section: ЧАСТЬ I. Цифровые технологии: настоящее и будущее
  • URL: https://vietnamjournal.ru/osnk-sr2024/article/view/632808
  • ID: 632808

Cite item

Full Text

Abstract

Обоснование. В работе преподавателей содержится ряд циклически повторяющихся процессов, связанных с подготовкой к проведению лекционных занятий, составлением методических пособий, проведением сбора выполненных работ обучаемых. В настоящее время все эти процессы сопряжены с использованием цифровых инструментов. Однако зачастую время преподавателя тратится не на сам процесс формирования и передачи учебных знаний, а на взаимодействие с электронными источниками информации, требуя наличия навыков работы с программным обеспечением. В свою очередь, это приводит к отвлечению преподавателя от основной образовательной деятельности и снижению качества формируемых учебных материалов.

Цель — сократить учебную нагрузку преподавателей посредством разработки цифрового двойника для автоматизации рутинных процессов обучения.

Методы. Перед проектированием программного обеспечения было проведено моделирование учебного процесса преподавателя. В процессе моделирования, для выявления наиболее времязатратных рутинных участков работы с цифровыми инструментами, применялся метод эмпирического анализа, с помощью которого были выделены ключевые процессы, подлежащие автоматизации.

Результаты. В результате проведенного анализа было выделено два процесса:

  • процесс транскрибирования аудио- и видеоматериалов с последующим составлением конспекта и сбором терминов в глоссарий для подготовки текстов лекций и методических пособий;
  • процесс анализа содержимого полученных административных документов для дальнейшего определения их назначения.

При проектировании программного обеспечения была выбрана микросервисная архитектура веб-приложения и были реализованы следующие модули:

1) модуль транскрибирования и конспектирования;

2) модуль семантического анализа документов;

3) модуль графического интерфейса.

Для программной реализации модулей и связи между ними был выбран язык программирования Python [1] и библиотека FastAPI, а также применена контейнеризация средствами Docker и Docker-Compose [2].

Функциональности первого модуля позволяют преобразовывать аудио в текст, с соблюдением орфографии и пунктуации, а также с распознаванием англицизмов, часто употребляемых в профессиональной речи. Это достигается возможностями модели Whisper v.3, не требующей для работы графических ускорителей. После получения текста аудио используется связка моделей LangChain Retrievers и большой языковой модели Saiga-2. В результате их последовательной работы формируется краткий конспект и выделяются термины с временными метками, указывающими на употребление данных терминов в аудио. В конспекте выделяется оглавление, терминам в глоссарии сопоставляются определения, а также средствами библиотеки BeutifulSoup в некоторые разделы конспекта подбираются и вставляются картинки из открытых источников (рис. 1).

 

Рис. 1. Фрагмент интерфейса с демонстрацией сформированного конспекта и глоссария

 

Модуль семантического анализа документов, используя библиотеки для работы с естественным языком NLTK и Pymorphy2, выполняет предобработку содержания полученных файлов: токенизацию, лемматизацию, очистку от стоп-слов. Полученные данные передаются на обработку в модель опорных векторов [3], реализованную в библиотеке Scikit-Learn. Данная модель обучена на наборе данных из 1500 элементов, собранных из открытых источников, и протестирована с определением 11 классов юридических документов: договор, акт, счет, соглашение и т. д. Полученный алгоритм на тестовом наборе данных показал значение 0,85 для метрики Macro F1 и 0,95 для метрики Accurancy.

Выводы. Разработанный цифровой двойник для процессов обучения справляется с выполнением функций методиста в работе преподавателя, помогает снизить временные затраты на обработку аудиоматериалов, а также упрощает выполнение административных функций благодаря семантической классификации содержимого документов.

Full Text

Обоснование. В работе преподавателей содержится ряд циклически повторяющихся процессов, связанных с подготовкой к проведению лекционных занятий, составлением методических пособий, проведением сбора выполненных работ обучаемых. В настоящее время все эти процессы сопряжены с использованием цифровых инструментов. Однако зачастую время преподавателя тратится не на сам процесс формирования и передачи учебных знаний, а на взаимодействие с электронными источниками информации, требуя наличия навыков работы с программным обеспечением. В свою очередь, это приводит к отвлечению преподавателя от основной образовательной деятельности и снижению качества формируемых учебных материалов.

Цель — сократить учебную нагрузку преподавателей посредством разработки цифрового двойника для автоматизации рутинных процессов обучения.

Методы. Перед проектированием программного обеспечения было проведено моделирование учебного процесса преподавателя. В процессе моделирования, для выявления наиболее времязатратных рутинных участков работы с цифровыми инструментами, применялся метод эмпирического анализа, с помощью которого были выделены ключевые процессы, подлежащие автоматизации.

Результаты. В результате проведенного анализа было выделено два процесса:

  • процесс транскрибирования аудио- и видеоматериалов с последующим составлением конспекта и сбором терминов в глоссарий для подготовки текстов лекций и методических пособий;
  • процесс анализа содержимого полученных административных документов для дальнейшего определения их назначения.

При проектировании программного обеспечения была выбрана микросервисная архитектура веб-приложения и были реализованы следующие модули:

1) модуль транскрибирования и конспектирования;

2) модуль семантического анализа документов;

3) модуль графического интерфейса.

Для программной реализации модулей и связи между ними был выбран язык программирования Python [1] и библиотека FastAPI, а также применена контейнеризация средствами Docker и Docker-Compose [2].

Функциональности первого модуля позволяют преобразовывать аудио в текст, с соблюдением орфографии и пунктуации, а также с распознаванием англицизмов, часто употребляемых в профессиональной речи. Это достигается возможностями модели Whisper v.3, не требующей для работы графических ускорителей. После получения текста аудио используется связка моделей LangChain Retrievers и большой языковой модели Saiga-2. В результате их последовательной работы формируется краткий конспект и выделяются термины с временными метками, указывающими на употребление данных терминов в аудио. В конспекте выделяется оглавление, терминам в глоссарии сопоставляются определения, а также средствами библиотеки BeutifulSoup в некоторые разделы конспекта подбираются и вставляются картинки из открытых источников (рис. 1).

 

Рис. 1. Фрагмент интерфейса с демонстрацией сформированного конспекта и глоссария

 

Модуль семантического анализа документов, используя библиотеки для работы с естественным языком NLTK и Pymorphy2, выполняет предобработку содержания полученных файлов: токенизацию, лемматизацию, очистку от стоп-слов. Полученные данные передаются на обработку в модель опорных векторов [3], реализованную в библиотеке Scikit-Learn. Данная модель обучена на наборе данных из 1500 элементов, собранных из открытых источников, и протестирована с определением 11 классов юридических документов: договор, акт, счет, соглашение и т. д. Полученный алгоритм на тестовом наборе данных показал значение 0,85 для метрики Macro F1 и 0,95 для метрики Accurancy.

Выводы. Разработанный цифровой двойник для процессов обучения справляется с выполнением функций методиста в работе преподавателя, помогает снизить временные затраты на обработку аудиоматериалов, а также упрощает выполнение административных функций благодаря семантической классификации содержимого документов.

×

About the authors

Самарский государственный технический университет

Author for correspondence.
Email: a.v.bartenev@yandex.ru
ORCID iD: 0009-0005-8971-4679

студент

Russian Federation, Самара

References

  1. docs.python.org [Электронный ресурс]. Python 3.11.8 documentation [дата обращения: 26.05.2024]. Режим доступа: https://docs.python.org/3.11/
  2. docs.docker.com [Электронный ресурс]. How Compose Works [дата обращения: 26.05.2024]. Режим доступа: https://docs.docker.com/compose/compose-application-model/
  3. scikit-learn.org [Электронный ресурс]. Support Vector Machines [дата обращения: 26.05.2024]. Режим доступа: https://scikit-learn.org/stable/modules/svm.html

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Рис. 1. Фрагмент интерфейса с демонстрацией сформированного конспекта и глоссария

Download (269KB)

Copyright (c) 2024 Бартенев А.В.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.