ХАЛЫҚАРАЛЫҚ «ҚАЗАҚ ТІЛІ» ҚОҒАМЫ МЕН OPENAI СЕРІКТЕСТІГІНІҢ АЛҒАШҚЫ НӘТИЖЕЛЕРІ ҰСЫНЫЛДЫ

Астанадағы Халықаралық «Қазақ тілі» қоғамының кеңсесінде OpenAI компаниясы өкілдерінің қатысуымен кездесу өтті. Жиында қазақ тілін цифрлық кеңістікте дамытуға бағытталған бірлескен жобаның іске асу барысы мен алғашқы нәтижелері таныстырылды. Кездесуде қатысушылардың назарына көлемі 10 миллиардтан астам токеннен тұратын қазақ тілінің мәтіндік корпусы (Kazakh Text Corpus), 10 мың сағаттан асатын дыбыстық деректер қоры (Speech Corpus) және үлкен тіл модельдерін бағалауға арналған AI Evaluation Benchmark Suite жинағы ұсынылды.

Бұл ауқымды бастама 2025 жылғы 7 қарашада Вашингтонда Халықаралық «Қазақ тілі» қоғамы мен OpenAI арасында жасалған келісім аясында жүзеге асып жатыр. Жобаның басты мақсаты – сапалы цифрлық контент пен сенімді деректер қорын қалыптастырып, үлкен тіл модельдерінің қазақ тіліндегі жұмыс сапасын арттыру. Бүгінде бастама қазақ тілінің цифрлық экожүйесін дамытуға бағытталған маңызды жобалардың біріне айналды.

Жоба аясында жинақталған қазақ тілінің мәтіндік корпусының (Kazakh Text Corpus) көлемі 10 миллиардтан астам токенді құрады. Тілдік қор толықтай шынайы дереккөздерден алынып, терең тазартудан, жіктеуден және құпия мәліметтер сүзгісінен өтті, сондай-ақ қажетті метадеректермен құрылымданды.

Корпусқа қазақ тілінің тарихи даму кезеңдерін көрсететін мазмұнмен қатар, шетелдегі қазақ диаспораларының тілдік мұрасы да енді. Мұнда білім, ғылым, технология, экономика, құқық, медицина, тарих, этнография, медиа және балалар контенті толық қамтылған.

Сонымен қатар мәтінді оптикалық тану жүйесі (OCR) кирилл қарпіндегі қазақша мәтінді 99% дәлдікпен оқи алатынын көрсетті. Күрделі құрылымды беттер мен бағандарды талдауға арналған құжат құрылымын тану жүйесінің де (Layout Parsing) дәлдігі 99%-ға жетті. Екі жүйе де бір мезетте үлкен көлемдегі топтастырылған деректерді өңдей алады.

Жасанды интеллект жүйелерінің қазақ тілін меңгеру деңгейін тексеретін арнайы AI Evaluation Benchmark Suite бағалау жүйесі әзірленді.

Бұл жүйе үлкен тіл модельдерін бірнеше негізгі бағыт бойынша сынайды: мәтінді түсіну (Reading Comprehension), грамматика (Grammar), тілдің табиғилығы (Kazakh Language Naturalness),мақал-мәтелдер мен тұрақты тіркестерді қолдану (Proverbs & Idioms), академиялық аударма (Academic Translation), қазақ тілінен ағылшын тіліне аударатын көркем аударма (Literary Translation), балалар әдебиетінің аудармасы (Kids Literature Translation), қауіпсіздік (Safety) және этнографиялық білім (Ethnography). Қазіргі уақытта тоғыз бағыттың жетеуі толық дайын, ал Safety және Ethnography бөлімдері бойынша жұмыс аяқталуға жақын.

Бұл бағалау жүйесі ағылшын тілінен аударылмай, қазақ тілінің тілдік және мәдени ерекшеліктерін ескере отырып, қазақ тілінде құрастырылды. Оның алғашқы қорытындысы бойынша мәтінді түсіну (Reading Comprehension) көрсеткіші – 76,89%, грамматика (Grammar) – 72,24%, мақал-мәтелдер мен тұрақты тіркестерді қолдану (Proverbs & Idioms) – 71,90% болды. Ал қазақ тілінің табиғилығы (Kazakh Language Naturalness) әзірге 23,08% деңгейінде. Аударма сегментінде жоғары нәтижелер тіркелді: академиялық аударма (Academic Translation) – 85,81%, көркем аударма (Literary Translation) – 86,46%, балалар әдебиетінің аудармасы (Kids Literature Translation) – 89,22%.

Жобаның аудиоқорына қазірдің өзінде 10 810 сағаттық аудио-материал жиналып, тазаланды. Оның ішінде 1000 сағаттық «алтын стандарт» деректер жиыны (Gold Standard Dataset) қолмен транскрипцияланып, сарапшылардың қатаң тексеруінен өтті. Деректердің 70%-дан астамы 44 кГц және одан жоғары жиілікте жазылған, ал қор толықтай табиғи сөйлеу үлгілерінен тұрады.

Қазіргі уақытта қазақ тіліндегі дыбысты мәтінге айналдыру (Speech-to-Text Models)үлгілерінің дәлдігі 92%-дан асады. Дегенмен, кейбір ЖИ жүйелерінің қазақ тілін қырғыз, татар, кейде түрік тілімен шатастырып алатын тұстары анықталды.

Халықаралық «Қазақ тілі» қоғамы тіл модельдерінің қазақша сөйлеу қабілетін тексеретін Automatic Speech Recognition (ASR) бағалау бенчмаркін жасап жатыр. Ол сөздерді тану дәлдігін (WER), таңбаларды тану дәлдігін (CER) жәнетүрлі тақырыптарды қамту деңгейін терең бағалауға мүмкіндік береді.

Алдағы уақытта қазақ тіліндегі дыбысты тану үлгілерінің дәлдігін 99%-ға дейін жеткізу жұмыстары жалғасады. Осы серіктестіктің аясында қазақ тілінде бұрын-соңды болмаған ауқымды мәтіндік және дыбыстық деректер қоры, жоғары дәлдіктегі цифрландыру құралдары және үлкен тіл модельдерінің сапасын бағалайтын кешенді инфрақұрылым жасалды. Бұл жұмыс қазақ тілінің цифрлық әлемдегі өрісін кеңейтіп, оның жасанды интеллект дәуіріндегі бәсекеге қабілетті тілдер қатарынан нық орын алуына жол ашады.

Версия для печати