Preview

МИР (Модернизация. Инновации. Развитие)

Расширенный поиск

Методология извлечения нарративов из больших массивов данных социальных сетей

https://doi.org/10.18184/2079-4665.2024.15.3.404-420

Аннотация

Цель статьи – представить опыт разработки и апробации методологии извлечения системы нарративов о социально значимом событии из больших массивов аутентичных данных социальных сетей (на примере нарративов о вакцинации от COVID-19 в публикациях пользователей российской социальной сети «ВКонтакте» периода пандемии).

Методы. Использовались методы автоматизированного анализа данных с применением инструментов аналитической платформы PolyAnalyst: тематическое моделирование (методом PLSA), алгоритмы индексирования текста с этапом идентификации предложений, кластеризация, агрегация данных, нормализация данных, расчeт количественного индекса («индекса популярности»). Осуществлялись расчeт меры близости ключевых слов с использованием языка программирования Python, частичная ручная разметка и валидация данных.

Результаты работы. 4,5 миллиона сообщений, релевантных теме вакцинации от COVID-19, опубликованных пользователями «ВКонтакте» за период с 01.01.2020 по 01.03.2023, сведены к 237-ми устойчивым нарративам. Для каждого нарратива был рассчитан индекс популярности. Наиболее популярным, например, оказался следующий нарратив: «Работодатели оказывают давление, принуждая вакцинироваться» (его поддержка – 76118 текстов). В результате исследования получен датасет, включающий 237 нарративов, содержательный анализ которого не является предметом настоящей статьи и планируется авторами в ближайшей перспективе. Датасет демонстрирует полноту охвата тематики отношения к вакцинации.

Выводы. Разработанный инструментарий имеет универсальный характер: методология может быть адаптирована под любую актуальную тематику, требуя только корректировки входных параметров тематического моделирования. Полученный датасет планируется ввести в научный оборот в качестве актуального материала для изучения общественного мнения о вакцинации в России. С учeтом глобального значения пандемии и вакцинационных мероприятий, результаты вносят вклад в международные исследования по теме общественного мнения и коммуникации в условиях кризисов, могут служить основой для дальнейших исследований и практических действий, направленных на улучшение качества общественных коммуникаций и принятия решений на всех уровнях управления.

Об авторах

Е. Ю. Петров
Национальный исследовательский Томский государственный университет
Россия

Петров Евгений Юрьевич, техник Суперкомпьютерного центра

Scopus ID: 57224334888

Томск



А. Ю. Саркисова
Московский государственный университет им. М. В. Ломоносова
Россия

Саркисова Анна Юрьевна, кандидат филологических наук, доцент, научный сотрудник факультета государственного управления

Researcher ID: ABF-4692-2020, Scopus ID: 58125063500

Москва



Д. О. Дунаева
Московский государственный университет им. М. В. Ломоносова
Россия

Дунаева Дарья Олеговна, научный сотрудник факультета государственного управления

Researcher ID: ADT-1114-2022, Scopus ID: 57328403000

Москва



А. С. Воронов
Московский государственный университет им. М. В. Ломоносова
Россия

Воронов Александр Сергеевич, доктор экономических наук, доцент, профессор факультета государственного управления

Москва



М. Г. Мягков
Московский государственный университет им. М. В. Ломоносова
Россия

Мягков Михаил Георгиевич, PhD, ведущий научный сотрудник факультета государственного управления

Researcher ID: G-6049-2017, Scopus ID: 6602445231

Москва



Список литературы

1. Zhang Q., Gao J., Wu J.T., Cao Z., Zeng D.D. Data science approaches to confronting the COVID-19 pandemic: a narrative review // Philosophical Transactions. Series A, Mathematical, physical, and engineering sciences. 2021. Vol. 380. P. e20210127. https://doi.org/10.1098/rsta.2021.0127

2. Bozkurt A., Karakaya K., Turk M., Karakaya Ö., Castellanos-Reyes D. The impact of COVID-19 on education: A metanarrative review // TechTrends. 2022. Vol. 66. P. 883–896. https://doi.org/10.1007/s11528-022-00759-0

3. Mennella C., Maniscalco U., De Pietro G., Esposito M. Ethical and regulatory challenges of AI technologies in healthcare: A narrative review // Heliyon Volume. 2024. Vol. 10. Iss. 4. P. e26297. https://doi.org/10.1016/j.heliyon.2024.e26297

4. Kim J., Monroy-Hernandez A. Storia: Summarizing social media content based on narrative theory using crowdsourcing // CSCW '16: Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work and Social Computing (February 27 – March 2, 2016). San Francisco, 2016. P. 1018–1027. https://doi.org/10.1145/2818048.2820072

5. Рудакова Г.М., Корчевская О.В. Разработка системы по обработке нарративных данных // ИТНОУ: Информационные технологии в науке, образовании и управлении. 2018. № 5(9). С. 33–38. EDN: https://elibrary.ru/yofcnn

6. Бойченко А.Е., Жучкова С.В. Что скрывает русский рэп? Тематическое моделирование текстов русскоязычной хипхоп сцены // Журнал социологии и социальной антропологии. 2020. Т. 23. № 2. С. 130–165. EDN: https://elibrary.ru/rqypza. https://doi.org/10.31119/jssa.2020.23.2.6

7. Ghodratnama S., Beheshti A., Zakershahrak M., Sobhanmanesh F. Intelligent narrative summaries: From indicative to informative summarization // Big Data Research. 2021. Vol. 26. P. 1–13. https://doi.org/10.1016/j.bdr.2021.100257

8. Messaoudi C., Guessoum Z., Ben Romdhane L. Opinion mining in online social media: a survey // Social Network Analysis and Mining. 2022. Vol. 12. P. 25. https://doi.org/10.1007/s13278-021-00855-8

9. Jaidka K. Chapter 17: Public opinion analytics with social media // In: Research Handbook on Social Media and Society / Ed. M.M. Skoric, N. Pang. 2024. P. 224–239. https://doi.org/10.4337/9781800377059.00028

10. Oghaz T.A., Mutlu E.C., Jasser J., Yousefi N., Garibay I. Probabilistic model of narratives over topical trends in social media: A discrete time model // Proceedings of the 31st ACM Conference on Hypertext and Social Media (HT '20). New York, 2020. P. 281–290. https://doi.org/10.1145/3372923.3404790

11. Shahsavari S., Holur P., Wang T., Tangherlini T.R., Roychowdhury V. Conspiracy in the time of corona: automatic detection of emerging COVID-19 conspiracy theories in social media and the news // Journal of Computational Social Science. 2020. Vol. 3. P. 279–317. https://doi.org/10.1007/s42001-020-00086-5

12. Sharma K., Zhang Y., Liu Y. COVID-19 vaccine misinformation campaigns and social media narratives // Proceedings of the International AAAI Conference on Web and Social Media. 2022. Vol. 16. Iss. 1. P. 920–931. https://doi.org/10.1609/icwsm.v16i1.19346

13. Edinger A., Valdez D., Walsh-Buhi E., Trueblood J.S., Lorenzo-Luaces L., Rutter L.A., Bollen J. Misinformation and public health messaging in the early stages of the MPOX outbreak: Mapping the Twitter narrative with deep learning // Journal of Medical Internet Research. 2023. Vol. 25. P. e43841. https://doi.org/10.2196/43841

14. Shafiq W. Optimizing organizational performance: A data-driven approach in management science // Bulletin of Management Revew. 2024. Vol. 1. Iss. 2. P. 31–40. URL: https://bulletinofmanagement.com/index.php/Journal/article/view/48 (дата обращения: 05.09.2024).

15. Saura J.R., Ribeiro-Soriano D., Palacios-Marqués D. Data-driven strategies in operation management: mining usergenerated content in Twitter // Annals of Operations Research. 2024. Vol. 333. P. 849–869. https://doi.org/10.1007/s10479-022-04776-3

16. Sarioguz O., Miser E. Data-driven decision-making: Revolutionizing management in the information era // Journal of Artificial Intelligence General Science. 2023. Vol. 4. Iss. 1. P. 179–194. https://doi.org/10.60087/jaigs.v4i1.131

17. Adegoke B.A., Odugbose T., Adeyemi C. Harnessing big data for tailored health communication: A systematic review of impact and techniques // International Journal of Biology and Pharmacy Research Updates. 2024. Vol. 03. Iss. 02. P. 001–010. https://doi.org/10.53430/ijbpru.2024.3.2.0024

18. Johnson N.F., Velásquez N., Restrepo N.J., Leahy R., Gabriel N., El Oud S., Zheng M., Manrique P., Wuchty S., Lupu Y. The online competition between pro-and anti-vaccination views // Nature. 2020. Vol. 582. P. 230–233. https://doi.org/10.1038/s41586-020-2281-1

19. Germani F., Biller-Andorno N. The anti-vaccination infodemic on social media: A behavioral analysis // PLoS One. 2021. Vol. 16. Iss. 3. P. e0247642. https://doi.org/10.1371/journal.pone.0247642

20. Mønsted B., Lehmann S. Characterizing polarization in online vaccine discourse – A large-scale study // PLoS One. 2022. Vol. 17. Iss. 2. P. e0263746. https://doi.org/10.1371/journal.pone.0263746

21. Nguyen A., Catalan-Matamoros D. Anti-vaccine discourse on social media: an exploratory audit of negative tweets about vaccines and their posters // Vaccines. 2022. Vol. 10. Iss. 12. P. 2067. https://doi.org/10.3390/vaccines10122067

22. Воронцов К.В. Задачи и методы понимания естественного языка для мониторинга медиа-пространства // В книге: Математические методы распознавания образов: тезисы докладов 20-й Всероссийской конференции с международным участием, г. Москва, 2021 г. Москва: Российская академия наук, 2021. С. 362–367. URL: http://machinelearning.ru/wiki/images/0/02/Mmpr_2021.pdf (дата обращения: 05.09.2024).

23. Danto A. Narrative sentences // History and Theory. 1962. Vol. 2. Iss. 2. P. 146–179. URL: https://abuss.narod.ru/Biblio/eng/danto_narrsentences.htm (дата обращения: 05.09.2024).

24. Genette G. Narrative discourse: An essay in method. New York: Cornell University Press, 1983. 285 p. URL: https://ia802908.us.archive.org/24/items/NarrativeDiscourseAnEssayInMethod/NarrativeDiscourse-AnEssayInMethod.pdf (дата обращения: 05.09.2024).

25. Kempen G. Sentence parsing // In: Language Comprehension: A Biological Perspective. Berlin, Heidelberg: Springer, 1998. P. 213–228. https://doi.org/10.1007/978-3-642-97734-3_7

26. Гиниятуллин В.М., Салихова М.А., Хлыбов А.В., Чурилов Д.А., Чурилова Е.А. Оценка семантической близости между критериями оценивания в рабочих программах вуза // Современные наукоемкие технологии. 2021. № 1. С. 12–19. EDN: https://elibrary.ru/rfttvv. https://doi.org/10.17513/snt.38464

27. Белова К.М., Судаков В.А. Исследование эффективности методов оценки релевантности текстов // Препринты ИПМ им. М.В. Келдыша. 2020. № 68. 16 с. http://doi.org/10.20948/prepr-2020-68


Рецензия

Для цитирования:


Петров Е.Ю., Саркисова А.Ю., Дунаева Д.О., Воронов А.С., Мягков М.Г. Методология извлечения нарративов из больших массивов данных социальных сетей. МИР (Модернизация. Инновации. Развитие). 2024;15(3):404-420. https://doi.org/10.18184/2079-4665.2024.15.3.404-420

For citation:


Petrov E.Yu., Sarkisova A.Yu., Dunaeva D.O., Voronov A.S., Myagkov M.G. Methodology for extracting narratives from social media big data. MIR (Modernization. Innovation. Research). 2024;15(3):404-420. (In Russ.) https://doi.org/10.18184/2079-4665.2024.15.3.404-420

Просмотров: 250


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-4665 (Print)
ISSN 2411-796X (Online)