DOI: https://doi.org/10.20998/2227-6890.2019.01.17

МЕТОД АВТОМАТИЧНОГО ВИЗНАЧЕННЯ СЕМАНТИЧНО БЛИЗЬКИХ ФРАГМЕНТІВ НОВИННИХ ТЕКСТІВ

Світлана Валентинівна Петрасова, Яна Романівна Галкіна, Ілля Олександрович Мануйлов, Бородіна Олександра Русланівна, Софія Ігорівна Швець

Анотація


Складність семантичного аналізу текстової інформації, що міститься в новинних повідомленнях, визначається багатозначністю і синонімічністю, які властиві мові на всіх рівнях її представлення, що, перш за все, впливає на визначення смислової близькості мовних одиниць. Виявлення семантично близьких фрагментів текстів або перефразувань є актуальною проблемою у таких наукових напрямках як семантичний пошук інформації, видобування інформації, машинний переклад, визначення порушень авторських прав і т.п., крім того широко використовується при рерайтингу. У статті проаналізовано основні проблеми рерайтинга, зокрема перефразування синтаксичних одиниць тексту зі збереженням смислового навантаження. Розглянуто сучасні методи визначення семантичної близькості слів, вказано основні переваги та недоліки. Запропоновано метод автоматичного виявлення синонімічних фрагментів новинних текстів на основі використання WordNet та розроблених синтаксичних правил, які зберігають інформацію про граматичні характеристики слів. Перевагою даного методу є те, що аналізується як граматична структура мови, так і смисл слів. Досліджуваний корпус представлено новинними текстами інформаційного агентства Reuters, служб CNN і BBC World News. Запропонований метод ідентифікації семантично зв’язних фрагментів тексту дозволяє виявити спільний інформаційний простір актуальних новин та може використовуватися для ефективного визначення близьких за змістом текстів в інформаційно-пошукових, експертних, аналітичних інформаційних системах. Вирішення завдання автоматичного визначення семантичної близькості може застосовуватися при автоматизованій побудові онтологій по тексту, для розширення існуючих і створення нових тезаурусів.


Ключові слова


рерайтинг; перефразування; семантична близькість; синтаксичні правила; WordNet; корпус новинних текстів

Повний текст:

PDF

Посилання


Колоев А.С. Рерайт как новое явление в современной журналистике. Вестник Санкт-Петербургского университета. Серия. Филология. 2012. Вып. 1. С. 221–226.

Большаков И.А. Два метода синонимического перефразирования в лингвистической стеганографии. Труды международной конференции «Диалог 2004». URI: http://www.dialog-21.ru/media/2496/bolshakov.pdf (дата обращения 16.09.2018).

Senellart P., Blondel V.D. Automatic Discovery of SimilarWords. In Survey of Text Mining II. Springer, 2008. P. 25–44.

Wang T., Hirst G. Extracting Synonyms from Dictionary Definitions. Proceedings of International Conference on Recent Advances in Natural Language processing 2009. URI: ftp://ftp.cs.toronto.edu/pub/gh/Wang+Hirst-RANLP-2009.pdf (accessed 18.09.2018).

Мисуно И.С., Рачковский Д.А., Слипченко С.В. Векторные и распределенные представления, отражающие меру семантической связи слов. Математические машины и системы. 2005. № 3. С. 50–66.

Митрофанова О.А. Семантические расстояния: проблемы и перспективы. Материалы ХХХIV Междунар. филол. конф. 2005. С. 59–63.

Kleinberg J. Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1999. № 46 (5). Р. 604–632.

Панченко А.И., Филиппович Ю.Н. и др. Метод и система извлечения семантических отношений из статей Википедии на основе компонентного анализа. Материалы Междунар. науч. конф. М.: Эйдос, 2012. С. 339–341.

Pantel P., Lin D. Discovering word senses from text. Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York : ACM, 2002. P. 613–619.

Dorow B. A graph model for words and their meanings. Dissertation, 2006. 187 р.

WordNet. URI: https://wordnet.princeton.edu (accessed 21.09.2018)

Петрасова С.В., Хайрова Н.Ф., Киселева В.Ю. Идентификация смысловой близости фрагментов текстов наукометрических баз. International Journal of Information Technologies & Knowledge. Bulgaria (ITHEA), 2018. Vol 12. № 1. P. 32–42.

Reuters. URI: https://www.reuters.com (accessed 10.09.2018).

CNN. URI: https://edition.cnn.com (accessed 10.09.2018).

BBC. URI: https://www.bbc.com/news (accessed 10.09.2018).

Koloev A.S. Rerajt kak novoe javlenie v sovremennoj zhurnalistike [Rewrite as a new phenomenon in modern journalism]. Vestnik Sankt-Peterburgskogo universiteta [Bulletin of St. Petersburg University]. 2012, issue 1, pp. 221–226.

Bol'shakov I.A. Dva metoda sinonimicheskogo perefrazirovanija v lingvisticheskoj steganografii [Two methods of synonymous rephrasing in linguistic steganography]. Trudy mezhdunarodnoj konferencii «Dialog 2004» [Proceedings of the international conference "Dialogue 2004"]. Available at: http://www.dialog-21.ru/media/2496/bolshakov.pdf (accessed 16.09.2018).

Senellart P., Blondel V.D. Automatic Discovery of SimilarWords. In Survey of Text Mining II. Springer, 2008. pp. 25–44.

Wang T., Hirst G. Extracting Synonyms from Dictionary Definitions. Proceedings of International Conference on Recent Advances in Natural Language processing 2009. Available at: ftp://ftp.cs.toronto.edu/pub/gh/Wang+Hirst-RANLP-2009.pdf (accessed 18.09.2018).

Misuno I.S., Rachkovskij D.A., Slipchenko S.V. Vektornye i raspredelennye predstavlenija, otrazhajushhie meru semanticheskoj svjazi slov [Vector and distributed representations reflecting the measure of the semantic connection of words]. Matematicheskie mashiny i sistemy [Mathematical machines and systems]. 2005, no. 3, pp. 50–66.

Mitrofanova O.A. Semanticheskie rasstojanija: problemy i perspektivy [Semantic distances: problems and prospects]. Materialy XXXIV Mezhdunar. filol. konf [Proceedings of XXXIV Intern. philol. conf.]. 2005, pp. 59–63.

Kleinberg J. Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1999, no. 46 (5), pp. 604–632.

Panchenko A.I., Filippovich Ju.N. et al. Metod i sistema izvlechenija semanticheskih otnoshenij iz statej Vikipedii na osnove komponentnogo analiza [Method and system for extracting semantic relations from Wikipedia articles based on component analysis]. Materialy Mezhdunar. nauch. konf. [Proceedings of the Intern. scientific conf]. Moscow: Eidos, 2012, pp. 339–341.

Pantel P., Lin D. Discovering word senses from text. Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2002. pp. 613–619.

Dorow B. A graph model for words and their meanings. Dissertation, 2006. 187 р.

WordNet. Available at: https://wordnet.princeton.edu (accessed 21.09.2018).

Petrasova S., Khairova N., Kysilova V. Identification of Semantic Similarity of Text Fragments in Scientometric Bases. International Journal of Information Technologies & Knowledge. Bulgaria (ITHEA), 2018, vol. 12, no. 1, pp. 32–42.

Reuters. Available at: https://www.reuters.com (accessed 10.09.2018).

CNN. Available at: https://edition.cnn.com (accessed 10.09.2018).

BBC. Available at: https://www.bbc.com/news (accessed 10.09.2018).




ISSN 2227-6890. Вісник Національного технічного університету «ХПІ». Серія: Актуальні проблеми розвитку українського суспільства