Українська мовна модель ШІ: досвід і виклики

Марія Бондаренко
Автор:
Марія Бондаренко - Репортерка, авторка розслідувань
5 хв читання

За останні два роки технології штучного інтелекту стали невід’ємною частиною нашого життя. Проте українська мова досі залишається на периферії розробки великих мовних моделей. Чому це відбувається, і що потрібно для створення якісної української мовної моделі ШІ? Над цими питаннями я працювала останні шість місяців, спілкуючись із розробниками, лінгвістами та експертами галузі.

Під час нашого розслідування виявилося, що проблема полягає не лише в технічних обмеженнях, а й у складній взаємодії комерційних інтересів, наукових ресурсів та мовної політики.

Чому українська мова залишається поза увагою

“Головна проблема – це відсутність достатнього обсягу якісних даних українською мовою для тренування моделей,” – пояснює Олексій Петренко, дослідник штучного інтелекту з Інституту кібернетики. За його словами, для тренування конкурентоспроможної моделі потрібні сотні гігабайтів текстового матеріалу, які проходять ретельну обробку і структурування.

Ситуація ускладнюється тим, що великі технологічні компанії зосереджують свої ресурси на мовах із найбільшою кількістю користувачів. “Бізнес-логіка тут проста – повернення інвестицій. Англійська, китайська, іспанська мають пріоритет через розмір їхньої аудиторії,” – коментує Марина Височанська з Асоціації розробників програмного забезпечення України.

Дані, які мені вдалося отримати від трьох незалежних джерел у галузі, свідчать, що на розробку якісної мовної моделі витрачається від 2 до 5 мільйонів доларів, не враховуючи вартість обчислювальних ресурсів.

Українські ініціативи та перші успіхи

Незважаючи на перешкоди, українські розробники не стоять осторонь. За останній рік з’явилося кілька важливих проєктів, спрямованих на створення україномовних моделей ШІ.

“Наш проєкт UkrainianLLM почався як волонтерська ініціатива групи інженерів та лінгвістів,” – розповідає Андрій Гончаренко, один із засновників проєкту. “Ми почали зі збору текстових корпусів українською мовою з відкритих джерел – українських медіа, літературних творів, наукових публікацій.”

Український мовний датасет, над яким працює команда, вже містить понад 20 ГБ очищених текстів. Це суттєво, але все ще недостатньо для створення моделі рівня GPT-4 чи Llama 3.

Цікаво, що до процесу долучаються й академічні установи. Львівський національний університет та Київський політехнічний інститут спільно працюють над лінгвістичним аналізом специфіки української мови для адаптації алгоритмів машинного навчання.

Проблеми та виклики

Під час моїх розслідувань вималювалося кілька ключових перешкод для розвитку україномовних моделей ШІ:

1. Обмеженість даних. “Українська мова має значно менше оцифрованого контенту порівняно з англійською чи російською,” – пояснює професор Тарас Винник з кафедри комп’ютерної лінгвістики ЛНУ. За його оцінками, доступний обсяг українських текстів у 40-50 разів менший за англомовний корпус.

2. Фінансування. Розробка мовних моделей потребує значних інвестицій. “Без державної підтримки чи залучення великих приватних інвесторів важко конкурувати з глобальними гравцями,” – зазначає Сергій Дорошенко, СЕО української ІТ-компанії, яка працює з технологіями ШІ.

3. Обчислювальні потужності. За даними Міністерства цифрової трансформації, Україна має обмежений доступ до потужних обчислювальних кластерів, необхідних для тренування великих мовних моделей.

4. Лінгвістичні особливості. Українська мова має складну морфологію та синтаксис, що створює додаткові виклики для алгоритмів машинного навчання.

Перспективи і наступні кроки

Попри складнощі, експерти залишаються оптимістичними. “Ми бачимо зростання зацікавленості в розвитку української мовної моделі як з боку держави, так і з боку міжнародних партнерів,” – повідомляє Михайло Федоров, віце-прем’єр-міністр з питань цифрової трансформації.

За інформацією з надійних джерел у Міністерстві цифрової трансформації, в наступному році планується виділити близько 50 мільйонів гривень на підтримку проєктів зі створення українських мовних моделей.

Крім того, важливу роль відіграє міжнародна співпраця. “Ми ведемо переговори з провідними світовими розробниками ШІ щодо включення української мови до їхніх мультимовних моделей,” – розповідає Оксана Лисенко з Українського інституту розвитку штучного інтелекту.

Що може зробити кожен

Доступність якісних мовних моделей українською – це питання не лише технологічного розвитку, але й інформаційної безпеки та культурної ідентичності. Як показало моє розслідування, існує кілька шляхів, якими кожен може посприяти розвитку української мовної моделі:

1. Волонтери можуть долучитися до ініціатив зі збору та розмітки даних українською мовою.

2. Розробники можуть приєднатися до відкритих проєктів на кшталт UkrainianLLM.

3. Бізнес може інвестувати в розробку спеціалізованих мовних рішень для українського ринку.

4. Освітні установи можуть впроваджувати курси з обробки природної мови та машинного навчання з фокусом на українську мову.

“Створення повноцінної української мовної моделі – це марафон, а не спринт,” – підсумовує Андрій Гончаренко. “Але кожен крок наближає нас до мети – зробити українську мову повноправним учасником світу штучного інтелекту.”

Це розслідування показало, що розвиток української мовної моделі ШІ – це комплексне завдання, яке потребує координації зусиль держави, бізнесу, науковців та громадянського суспільства. Але враховуючи темпи розвитку технологій та зростаючий інтерес до цієї теми, є всі підстави сподіватися, що вже за кілька років ми побачимо потужні мовні моделі, які вільно спілкуватимуться українською.

Поділитися цією статтею
Репортерка, авторка розслідувань
Стежити:
Марія Бондаренко – журналістка-розслідувачка, яка понад 7 років займається темами війни, безпеки, економіки та корупції. Закінчила Навчально-науковий Інститут журналістики КНУ імені Тараса Шевченка та пройшла навчання в кількох міжнародних програмах для розслідувальної журналістики. Відома своїми матеріалами про оборонну сферу, допомогу військовим і волонтерам, а також розслідуваннями про непрозорі державні закупівлі. Її статті відзначаються глибиною аналізу та вмінням знаходити важливі деталі у складних темах. У UkrainianNews Today Марія пише про війну, оборону та антикорупційні розслідування.
Коментарів немає

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *