Корпус української мови

Корпус української мови
Корпус української мови
Посилання	mova.info/corpus.aspx
Комерційний	ні
Реєстрація	Необов'язкова
Мови	українська
Стан	Активний

Корпус української мови — електронний корпус текстів української мови обсягом понад 100 млн слововживань, розміщений на лінгвістичному порталі MOVA.info. Розроблений у лабораторії комп'ютерної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка під керівництвом Наталії Дарчук.

Корпус призначений для здійснення статистично обґрунтованих лінгвістичних досліджень з української мови, для використання під час укладання словників, граматик та для довідкового використання широким колом користувачів.

Для того, щоб отримати доступ до додаткових можливостей, потрібна реєстрація на порталі, але до основного корпусу доступ є вільним. Корпус відкритий, до нього часто додаються нові тексти.

Історія створення корпусу

Корпус створила команда людей у лабораторії комп'ютерної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка. Лінгвістичну частину розробила Наталія Дарчук. Розробку програмного забезпечення здійснив Віктор Сорокін. Над вебдизайном порталу працювала Олена Сірук. Також участь у роботі над корпусом брали Оксана Зубань, Маргарита Лангенбах, Ярина Ходаківська^[2].

Склад корпусу

До корпусу входять такі підкорпуси (розділи): законодавчі, наукові, фольклорні тексти, поетична мова, публіцистика, художня проза. Найбільше (майже 47 млн слововживань) у корпусі відводиться на публіцистику.

Корпус має синтаксичний підкорпус, за допомогою якого можна дослідити сполучуваність лексем в обраній зоні пошуку (підкорпусі), ввівши або морфологічні ознаки словосполучення, або лексичну модель словосполучення, або синтаксичні ознаки.

На базі корпусу у розділі "N-грами" інтерактивно можна побудувати словник двох, трьох, чотирьох та п'яти-грам на основі вибраної зони пошуку (підкорпусу).

За текстами з корпусу є можливість в інтерактивному режимі сформувати частотні словники у розділах "Частотні словники" та "Статистика". Для цього необхідно обрати відповідні лінгвістичні та статистичні параметри.

У розділі "Частотні словники" представлено переважно статичні словники, які не змінюються при подальшому наповненні корпусу (вказується, з якого року не проводились зміни). Також у розділі "Частотні словники" можна скористатися функцією підрахунку відстані між текстами.

На відміну від розділу "Частотні словники", розділ "Статистика" дозволяє укладати частотні словники на основі будь-якого тексту з корпусу (необхідно вказати відповідні лінгвістичні та статистичні параметри).

Можливості пошуку у корпусі

Пошук у Корпусі української мови можна здійснювати за конкретною лексемою, словоформою або за морфологічними ознаками (частиною мови та її граматичними категоріями). Можна розширити пошук до двох слів.

Можна вказати кількість слів, які будуть виведені перед і після шуканого слова (глибину контексту), максимально - 20 слів. Можна вибрати стать авторів, серед текстів яких здійснюватиметься пошук. На вибір дається три види представлення результатів пошуку: табличний і цитування та цитування параграфу.

У результаті пошуку Корпус повертає лексему (словоформу) в контексті. Для того, щоб побачити інформацію про твір, до якого входить текстова ілюстрація із результату пошуку, потрібно натиснути на «джерело». Виведеться стиль тексту, кількість словоформ, речень. Опціонально для текстів різних підкорпусів: коли, де і ким видано, рік, місце, жанр.

Наукові публікації на матеріалі корпусу

Посилання

Лінгвістичний портал MOVA.info [Архівовано 2 травня 2022 у Wayback Machine.]
Лабораторія комп'ютерної лінгвістики (стаття на сайті Навчально-наукового інституту філології) [Архівовано 19 квітня 2022 у Wayback Machine.]

Див. також

Примітки

↑ http://www.mova.info/Page2.aspx?l1=14#:~:text=Портал%20MOVA.info%20створено%20на%20некомерційних%20засадах [Архівовано 2 травня 2022 у Wayback Machine.].
↑ Архівована копія. Архів оригіналу за 2 травня 2022. Процитовано 2 травня 2022.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)

[1] ttp://www.mova.info/Page2.aspx?l1=14#:~:text=Портал%20MOVA.info%20створено%20на%20некомерційних%20засадах [Архівовано 2 травня 2022 у Wayback Machine.].

[2] Архівована копія. Архів оригіналу за 2 травня 2022. Процитовано 2 травня 2022.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)

[1]

[2]