![]() | Ця стаття посилається на первинні джерела. |
Корпус української мови | |
---|---|
Посилання | mova.info/corpus.aspx |
Комерційний | ні [1] |
Реєстрація | Необов'язкова |
Мови | українська |
Стан | Активний |
Корпус української мови — електронний корпус текстів української мови обсягом понад 100 млн слововживань, розміщений на лінгвістичному порталі MOVA.info. Розроблений у лабораторії комп'ютерної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка під керівництвом Наталії Дарчук.
Корпус призначений для здійснення статистично обґрунтованих лінгвістичних досліджень з української мови, для використання під час укладання словників, граматик та для довідкового використання широким колом користувачів.
Для того, щоб отримати доступ до додаткових можливостей, потрібна реєстрація на порталі, але до основного корпусу доступ є вільним. Корпус відкритий, до нього часто додаються нові тексти.
Історія створення корпусу

Корпус створила команда людей у лабораторії комп'ютерної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка. Лінгвістичну частину розробила Наталія Дарчук. Розробку програмного забезпечення здійснив Віктор Сорокін. Над вебдизайном порталу працювала Олена Сірук. Також участь у роботі над корпусом брали Оксана Зубань, Маргарита Лангенбах, Ярина Ходаківська[2].
Склад корпусу
До корпусу входять такі підкорпуси (розділи): законодавчі, наукові, фольклорні тексти, поетична мова, публіцистика, художня проза. Найбільше (майже 47 млн слововживань) у корпусі відводиться на публіцистику.
Корпус має синтаксичний підкорпус, за допомогою якого можна дослідити сполучуваність лексем в обраній зоні пошуку (підкорпусі), ввівши або морфологічні ознаки словосполучення, або лексичну модель словосполучення, або синтаксичні ознаки.
На базі корпусу у розділі "N-грами" інтерактивно можна побудувати словник двох, трьох, чотирьох та п'яти-грам на основі вибраної зони пошуку (підкорпусу).
За текстами з корпусу є можливість в інтерактивному режимі сформувати частотні словники у розділах "Частотні словники" та "Статистика". Для цього необхідно обрати відповідні лінгвістичні та статистичні параметри.
У розділі "Частотні словники" представлено переважно статичні словники, які не змінюються при подальшому наповненні корпусу (вказується, з якого року не проводились зміни). Також у розділі "Частотні словники" можна скористатися функцією підрахунку відстані між текстами.
На відміну від розділу "Частотні словники", розділ "Статистика" дозволяє укладати частотні словники на основі будь-якого тексту з корпусу (необхідно вказати відповідні лінгвістичні та статистичні параметри).
Можливості пошуку у корпусі

Пошук у Корпусі української мови можна здійснювати за конкретною лексемою, словоформою або за морфологічними ознаками (частиною мови та її граматичними категоріями). Можна розширити пошук до двох слів.
Можна вказати кількість слів, які будуть виведені перед і після шуканого слова (глибину контексту), максимально - 20 слів. Можна вибрати стать авторів, серед текстів яких здійснюватиметься пошук. На вибір дається три види представлення результатів пошуку: табличний і цитування та цитування параграфу.
У результаті пошуку Корпус повертає лексему (словоформу) в контексті. Для того, щоб побачити інформацію про твір, до якого входить текстова ілюстрація із результату пошуку, потрібно натиснути на «джерело». Виведеться стиль тексту, кількість словоформ, речень. Опціонально для текстів різних підкорпусів: коли, де і ким видано, рік, місце, жанр.
Наукові публікації на матеріалі корпусу
- Бобкова Т. Корпус текстів: основні аспекти визначення [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н. Дослідницький корпус української мови: основні засади і перспективи [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н., Лангенбах М. Електронний словник як дослідницька база даних [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н., Лангенбах М. Електронний словник мови Тараса Шевченка: методика і технології укладання [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н. Автоматичний синтаксичний аналіз текстів корпусу української мови [Архівовано 27 квітня 2022 у Wayback Machine.]
- Дарчук Н. Теоретичні питання моделювання ідеографічного тезауруса української мови [Архівовано 27 квітня 2022 у Wayback Machine.]
- Комп'ютерна лінгвістика: сучасне та майбутнє. Матеріали міжнародної науково-практичної конференції [Архівовано 27 квітня 2022 у Wayback Machine.]
- Зубань О. Електронні частотні морфемні словники в Корпусі української мови [Архівовано 2 травня 2022 у Wayback Machine.]
- Зубань О. Стилеметричні ознаки морфемних структур слів у поетичному мовленні Т. Шевченка (на матеріалі Корпусу української мови) [Архівовано 2 травня 2022 у Wayback Machine.]
- Лангенбах М. Автоматичне синтаксичне анотування текстів Корпусу української мови: проблеми та шляхи їх вирішення (презентація) [Архівовано 30 грудня 2019 у Wayback Machine.]
- Лангенбах М. Синтаксичний підкорпус: база даних граматичних конструкцій та модуль пошуково-аналітичних систем (презентація) [Архівовано 2 травня 2022 у Wayback Machine.]
Посилання
- Лінгвістичний портал MOVA.info [Архівовано 2 травня 2022 у Wayback Machine.]
- Лабораторія комп'ютерної лінгвістики (стаття на сайті Навчально-наукового інституту філології) [Архівовано 19 квітня 2022 у Wayback Machine.]
Див. також
Примітки
- ↑ http://www.mova.info/Page2.aspx?l1=14#:~:text=Портал%20MOVA.info%20створено%20на%20некомерційних%20засадах [Архівовано 2 травня 2022 у Wayback Machine.].
- ↑ Архівована копія. Архів оригіналу за 2 травня 2022. Процитовано 2 травня 2022.
{{cite web}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)