Мәтіндегі сөздердің қолдану жиіліктерін зерттеу

МАЗМҰНЫ

КІРІСПЕ ....................................................................................................

1 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің лексикалық, статистикалық моделі

1.1 Қазақ тіліндегі мәтіндерді зерттеуде лингвистикалық статистика элементтерін қолдану...............................................................................

1.2 «Ана тілі» оқулығы мен хрестоматиясы бойынша қазақ мәтіндерінің жиілік сөздіктерін құрастыру...................................................................

2 «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің лексикалық, морфологиялық және стилистикалық ерекшеліктері

2.1 Кері жиілік сөздер................................................................................

2.2 Мәтіндердегі жиілік сөздіктің статистикалық және ақпараттық сипаттамалары (аналитизм және синтетизм коэффициенттер)............

ҚОРЫТЫНДЫ .........................................................................................

ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕ ТІЗІМІ..........................................

КІРІСПЕ

Зерттеу жұмысының өзектілігі: Еліміздің жарқын болашағына қол жеткізудің бірден – бір көзі білімді де, парасатты жастарды тәрбиелеу – бүгінгі күннің талабы. Осы орайда елімізде атқарылып жатқан игі істер жетерлік. 2007 жылғы Елбасы Н.Назарбаевтың «Жаңа әлемдегі жаңа Қазақстан» атты Қазақстан халқына жолдауына «Біз бүкіл елімізде стандарттар деңгейінде сапалы білім беру қызметіне қол жеткізуге тиіспіз», деп атап көрсетті. Жолдауда еліміздің ішкі және сыртқы саясатының аса маңызы 30 бағытының он жетіншісі және орта білім беру, сондай – ақ кадрларды қайта даярлау жүйесін әлемдік стандартқа жақындатуға бағытталатындығы баршаға аян.

Қазақстан Республикасының «Білім туралы» Заңы 47 бабының 3 – ші тармақшасында білім алушылар мен тәрбиеленушілердің Қазақстан Республикасының Үкіметі белгіленген тәртіппен білім беру ұйымдарында ақпараттық ресурстарды тегін пайдалануға, оқулықтармен, оқу – әдістемелік кешендермен және оқу – әдістемелік құралдармен қамтамасыз етілуге тиістілігі сараланып көрсетілген. Әрбір азаматтың жан-жақты, терең білім алуына, еліміздің әлемдегі 510 өркениетті елдің қатарына енуіне өз үлестерін қосуына жағдай жасалған.

Компьютерлік техниканың дүниеге келуі қазіргі кезде инженерлік экономикалық есептерді шешуді жеңілдетумен қатар, білім сапасының қарыштап дамуына да игі әсер етті. Компьютер арқылы мәтінді бір тілден екінші тілге аударуға, ғылыми – техникалық мәтіндердің рефераттары мен аннотацияларын автоматты жолмен жасауға, қажетті ақпаратты жолмен жасауға, қажетті ақпаратты жедел тауып алуға кең жол ашылды.

Компьютер бұл күндері практикалық тіл білімі саласындағы әсіресе, еңбекті көп қажет ететін іс – әрекеттерді ішінара автоматтандыруда, мәтін түріндегі материалдарды әр алуан белгілеріне қарай сұраптауды жиі пайдаланып жүр.

Компьютерлік техниканың өркендеуі, дәл әдістердің табуы тіл білімінің сан алуан салаларын, соның ішінде, лингвистика ғылымының да жеделдете дамытуға ықпалын тигізді. Үнді – Еуропа тіл білімі мамандары қолданған математикалық және кибернетикалық әдістердің түркітану бағытындағы зерттеулерге де әсері тимей қойған жоқ. Алайда бұл құбылыс 1960 жылдарға дейін айтарлықтай еленіп, ескерілмеді.

Лингвистикалық зерттеуді автоматтандыруда «адам – машина - адам» жүйесі басшылыққа алынады. Осыған орай, адам мен компьютер қызметіндегі кейбір ұқсастықтар мен айырмашылықтарды саралап көрсетуге болады. Атап айтқанда шапшаң әрекет жасайды және барлық амалдарды дәлме дәл орындайды, оның жадындағы ақпарат ұзақ мерзім бойында сақталады. Әрі қажетті сәтінде қолма – қол іздеп табуға мүмкіндік бар. Ал адамның ми қызметінің ерекшелігі эвристикалық (тапқыштық) қабілетінде. Демек, лингвистикалық зерттеулерді автоматтандыру жұмысы компьютердің аталған мүмкіндіктері мен адамның ойлау қабілетінің ерекше қасиеттерін ескере отырып, жүзеге асыруы тиіс.

Лингвистикалық зерттеулерде компьютерді қолдану әріптердің, фонемалардың, сөздердің сөз тұлғаларының, сөз тіркестерінің т.б. жиілік тізбелерін – сөздіктерін жасаудан басталады. Әр кезеңдегі түрлі авторлар арқылы жалпы лексикологияның мәселелері, жалпы халықтық лексиканың құрылымы, оның әр алуан қабаттарының ара қатынасы, қазіргі замандағы тілдік норма, жазушы тілінің функционалдық стилі мен ерекшеліктері, сөз қорының тарихи дамуы және т.б. аса маңызды мәселелер принциптік тұрғыдан жаңаша пайдаланылып отыр.

Лингвистика ғылымының негізін қалаушы ғалымдардың бірі Дж.Гринберг нысандарды зерттеудің қарапайым түрімен шектеліп қоймай, оларды салыстыру мен жіктеуге көшу керектігін «Один из шагов, которое должна предпринимать любая наука, если она хочет ясно осмыслить потенциальные возможности своего научного метода, заключается в том, чтобы не ограничиваясь простым описанием изучаемых объектов, перейти к их сравнению и классификации» атты пікірімен тұжырымданған.

Қазіргі уақытта тілтану мен әдебиеттану ғылымында тіл мен сөйлеу мәнерін үйренудің статистикасы жайлы бай тәжірибелер жинақталған. Мұнда тіл белгілері мен сипаттамаларының объективті мәндерін анықтау көзделеді. И.А.Бодуэн де Куртенэ, М.Н.Петерсон, Е.Д.Поливанов және білімпаздар тілдік элементтерді сандық тұрғыдан бағалауға тырысқан.

Кеңес дәуіріндегі П.М.Алексеев, Г.Г.Белоногов, М.Г.Бород, А.Н.Гвоздев, Б.Н.Головин, Р.Г.Пиотровский, Р.М.Фрумкина сынды тілтанушы ғалымдар тіл біліміне лингвистикалық статистика әдістерін қолдану мүмкіндіктерін зерттеп, құнды еңбектер жариялаған.

Тілді зерттеудің жаңа бағытын эстондық Я.Микк пен Ю.Тулдаева, өзбекстандық С.А.Мухамедов, қарақалпақстандық М.Айымбетов, қырғызстандық Т.Салыковтар өз ана тілдерін зерттеу ісінде қолдану мүмкіндіктері арқылы жүзеге асырған.

Әлемнің алдыңғы қатарлы ғалымдарының озық тәжірибелерін елімізде Қ.Б.Бектаев, А.Қ.Жұбанов,Ә.Ахабаевтар қазақ тілін зерттеуге қолданған. Қ.Б.Бектаевтың «Статистико – информационная типология тюркского текста» атты монографиясында (1978) және Р.Г.Пиотровский, А.А.Пиотровскаялармен авторлық бірлестіктегі «Математическая лингвистика» (1977), А.Қ.Жұбановтың «Квантитативная структура казахского текста» (1987) еңбектерінде лингвостатистикалық әдістерді тілге қолданудың қыр-сырлары жете зерттелген.

Қ.Молдабеков, Б.Қалыбеков, М.Ермекбаевтар бала тілінің лексикалық қорының өзгерісі мен даму ерекшеліктеріне байланысты зерттеулер жүргізген. Зерттеу жұмыстарында балаларға арналған оқулықтар мен көркем әдебиет мәтіндерін лингвостатистикалық талдау арқылы алынған алфавиттік – жиілік сөздіктер негіз болған. Атап, айтқанда Қ.Б.Бектаевтың «Қазақ ертегілері тілінің алфавитті – жиілік сөздігі» (1973), Қ.Б.Бектаев пен Қ.Молдабековтың авторлық бірлестікте дайындаған «Балалар әдебиетінің алфавитті – жиілік сөздігі» (1990), Б.Қалыбековтың «Бастауыш мектеп оқушылары мәтіндерінің алфавитті жиілігі сөздігі» (1999) атты еңбектері жарық көрді. Жаңа бағыт жоғарыдағы қазақ тілтанушы ғалымдарының докторлық және кандидаттық диссертацияларына да арқау болады.

Тілтанушы ғалым Р.Г.Пиотровскийдің пікірінше, адамның тілдік қызметі мәтіннің морфологиясы мен лексикасын танып білу құралы болып табылады да қабылданатын ақпараттың 65-82% - ын қамтиды. Демек, біз сөйлеу қызметінің осы аспектісіне көңіл аударуға тиіспіз. Белгілі тілтанушы Э.Бенвенистің адам тілінде сөйлеусіз ешнәрсе болмайтындығы («nihil est in lingua – guob non prius fuerif in oration») жайлы қанатты сөзінің бүгінгі күнге дейін күшін жоймағандығына көз жеткіземіз. Сондықтан, қазіргі кезеңде тілді зерттеу мен салыстыруды осы жүйеден туындайтын мәтіндерден бастаған жөн.

Квантитивтік жеке ақпараттық модельдерді құру және оларды талдау қандай да бір тілдің мәтіндерін толық зерттеудің негізгі құралының бірі болып табылады. Қарапайым лексикалық – статистикалық модельді құруда тілдің келесі статистикалық сипаттамалары негізге алынады:

а) жиілік сөздіктегі лексикалық бірліктің (ЛБ) реттік номері мен жиілігінің арақатынасы;

ә) мәтіннің жиілігі жоғары ЛБ – лер тобымен қамтылуы;

б) мәтін тілінің аналитизм мен синте,тизм дәрежелері;

в) жиіліктері өзара тең ЛБ-лер тобының арақатынасы және т.б.

Бастауыш сынып оқушылары тілдік қорларының дамуына күнделікті қолданыстағы лексикалық қоры көлемді «Ана тілі» оқулығы мен хрестоматиясы ықпал етеді. Соңғы 25-30 жылда еліміздің білім саласындағы жаңашыл жаңалықтарға байланысты, мектеп оқулықтарының мазмұны да түбегейлі өзгерістерге ұшырап, әрбір кезеңде жаңаланып, жарық көріп отырады. Оқулықтардың көпшілігі бірнеше жыл бойы сынақтан өткізілсе, бірқатары түсті дайындалып, қолданысқа жіберіледі. Қ.Молдабеков, Б.Қалыбеков және М.Ермекбаевтардың зерттеулерінде қазақ мемлекеттеріндегі бастауыш сынып оқулықтарының (БСО) аралас жанрлы мәтіндері бойынша құрастырылған жиілік сөздіктерді зерттеу нысаны ретінде қарастырылған. Осы кезге дейін БСО ішінде әдеби жанрды қамтитын оқулықтардың мәтіндеріне жеке дара зерттеулер жүргізіліп, жиілік сөздіктер құрастырылмаған. Сондықтан, компьютерлік технмика мен бағдарламалық жабдықтардың соңғы жетістіктерін қолдана отырып, «Ана тілі» оқулығы мен хрестоматиясының мәтіндеріне лингвостатистикалық талдау жасау зерттеу жұмысының өзектілігін көрсетеді. Осы оқулықтардың лингвистикалық, стильдік және квантитавтік сипаттамаларын анықтауда лингвостатистикалық әдіс – тәсілдердің айрықша маңызы зор. Балалардың жас ерекешеліктеріне қарай мәтіндердің лексикалық жағынан мақсатқа сай құрастырылуы мен грамматикалық жағынан толықтылығын зерттеу – бүгінгі таңдағы оқулық сапасын арттырудың өзекті мәселелерінің бірі. Бұл БСО мәтіндерінің лексикологиясы мен терминологиясына қатысты мәселелерді теориялық тұрғыдан шешуге негіз болады.

1998-2004 жылдарда 1-4 сыныптарға арналып, жарық көрген «Ана тілі» лқулығы мен хрестоматиясы мәтіндерінің лексикасы мен морфологиясының квантитативтік ерекшеліктері ғылыми еңбегіміздің зерттеу нысанын құрайды.

Зерттеу мәні: 1998-2004 жылдарда жарық көрген «Ана тілі» оқулығы мен хрестоматиясының 267329 сөз қолданыстан тұратын мәтіні.

Зерттеу мақсаты:

Лексикалық қоры көлемді «Ана тілі» оқулығы мен хрестоматиясы негізінде бастауыш сынып оқулықтары мәтіндерінің

- Лексикалық – статистикалық моделін құру;

- Лексикалық, морфологиялық және статистикалық ерекешеліктерін анықтау.

Осы мақсатты жүзеге асыру үшін лингвистика әдісімен компьютер арқылы шешеілетін келесі міндеттер қойылды:

1. Қазақ тіліндегі мәтіндерді зерттеуде лингвистикалық статистика элементтерін қолданудың жолдарын анықтау.

2. Компьютерлік бағдарламалар арқылы жиілік сөздіктер құрастырудың кезеңдерін (алгоритмін) айқындау және алфавиттік – жиілік (АЖС), жиілік сөздік (ЖС) және кері жиілік сөздік (КЖС) құру мақсатында квантитативтік тәжірибе жүргізу;

3. 1998-2004 жж. жарық көрген 1-4 сыныптарға раналған «Ана тілі» оқулығы мен хрестоматиясы лексикасының негізгі квантитативтік – құрылымдық заңдылықтарын анықтау.

4. «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің ықтималдық статистикалық моделін құру және олардың морфологиялық құрылымының квантитативтік сипаттамаларын анықтау.

5. Зерттелінетін мәтіндердегі жалғаулардың құрамын статистикалық талдау жасау және БСО мәтіндерінің объективтік анықтау, алынған нәтижелерді бір қатар үнді – еуропа тілдері бойынша өлшеу нәтижелеріменсалыстыру.

Зерттеу болжамы: Қойылған міндеттер жүзеге асырылған жағдайда, 1998 – 2004 жылдарда жарық көрген, лексикалық қоры бай «Ана тілі» оқулығы мен хрестоматиясы мәтіндеріне жүргізілген лингвистикалық талдау нәтижелері бой»ынша қазақ мектептері бастауыш сынып оқулықтары мәтіндерінің лексикалық, морфологиялық құрамдарын анықтауға, ықтималдық – с татистикалық моделін құруға және оларды 1970-ші, 1990 – шы жылдардағы бастауыш сынып оқулықтары мәтіндері сипаттамаларымен салыстыруға болар еді. Сол арқылы жаңа оқулықтар, балаларға арналған оқу-әдістемелік құралдарды дайындауда жиі қолданылатын сөздер тобын тірек ретінде пайдалануға мүмкіндік туады. Бұл игілікті істің өз кезегінде оқулықтардың сапасын арттыруға, оларды баланың психофизиологиялық ерекщеліктеріне лайықтап дайындауға игі ықпал етері анық.

Зерттеу әдіснамасы: Ғылыми еңбекте негізгі мәселені зерттеуде жиілік сөздіктер құруға және мәтіннің ақпараттық, статистикалық сипаттамаларын есептеуге қатысты қағидалар , тіл білімінің теориялық заңдылықтары басшылыққа алынды.

Зерттеу әдістері: Зерттеу жұмысында мәтінді квантитативтік – лингвистикалық , психологиялық модельдеу, лексико – грамматикалық талдау, салыстыру, сипаттау, жүйелеу, бақылау әдістері қолданады.

Зерттеу жұмыстары үш кезеңде жүргізіледі.

Бірінші кезеңде (1994-2000) зерттеу тақырыбына байланысты лингвостатистикалық, психологиялық , педагогикалық, әдістемелік, ғылыми еңбектерге шолу жасалынып, 1990 – шы жылдардағы сынып оқулықтарының мәтіндері компьютерге енгізілді. Жинақталған ақпараттар арнайы компьютерлік бағдарламалар арқылы өткізілді.

Екінші кезеңде (2000-2005) компьютер арқылы алфавиттік – жиілік, кері – жиілік сөздерді құрастырудың кезеңдері (алгоритмі) айқындалады. Соның нәтижесінде 1998-2004 жылдары жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы мәтіндері компьютерге енгізіліп, жиілік сөздер құрастырылады. Зерттелінетін мәтіндердің жиілік сөздіктері бойынша статистикалық және ақпараттық сипаттамалары есептелініп, Цифр тәуелділігі бойынша модельдеу үрдісі жүзеге асырылады.

Үшінші кезеңде (2005-2008) «Ана тілі» лқулығы мен хрестоматияс мәтіндерінің сөз таптары, жалғаулары құрамдарына статистикалық талдау жасалынып, қазақ тіліндегі мәтіндердің объективтік қиындығын анықтау жолдары қарастырылады. Зерттелінетін мәтіндердің жиілік сөздерді негізінде ортақ сөздіктер құрастырылып, олардың корреляциялық байланыс дәрежесі анықталады. Жиі қолданылатын сөздер мен кірме сөздердің құрамына лингвистикалық тұрғыдан талдаулар жасалынды.

Зерттеудің ғылыми жаңалығы.

- 1998-2004 жж.жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы мәтіндеріне тұңғыш рет лингвистикалық – статистикалық талдау жасалынып, олардың лексикалық қоры анықталды;

- компьютер арқылы жиілік сөздер құрастырудың жолы (алгоритмі) кезең – кезеңімен айқындалып, оқулықтар мәтіндерінің жиілік сөздіктерін құрастыру нәтижесінде жиі және сирек қолданыстағы сөздердің лингвистикалық сипаттамаларына талдау жасалынды. Сол арқылы мәтін неғұрлым көлемді болған сайын, соғұрлым сөздердің орта және аз жиілікті сөздер орналасқан телімдеріндегі статистикалық және ақпараттық сипаттамалар шамалары аз болғандығына көз жеткізілді;

- ықтимал сөздікке арналған Цип – Мандельброт - Ғ = ( Ci + B) формуласын «Ана тілі» оқулығы мен хрестоматиясының жиілік сөздігіне қолдануға болатындығы тәжірибе жүзінде анықталады. Зерттелінетін мәтіннің ЖС – терінің түрлі телімдеріне Цип заңының y параметрі түрліше мен қабылдайтындығы, В параметрі мәнінің 2,63-9,63 аралығында жататындығы дәлелденді. «Ана тілі» оқулығы мен хрестоматиясы мәтіндеріне жиі қолданылған 1500 сөз бүкіл мәтін көлемінің 77,35% - ын құрайтындығы және оқулық құрастырушылар мен балалар жазушыларының -да, - де, -мен, - ал, -үшін, - ма шылауларын жиі қолданылатындығы анықталады. Жиілік сөздіктер бойынша зерттелінетін мәтіндердегі жиілігі жоғары сөздердің, кірме сөздердің морфологиялық құрамына лингвистикалық талдау жасалынды:

- әртүрлі сөздердің ЖС үшін есептелген r - корреляциялық коэффициентінің арифметикалық орта мәні бойынша сөздердің жиіліктері мен реттік нөмерлері арасында күшті кері тәуелділіктің бар екендігі анықталып, таңдама көлемінің өсуіне қарай рангілік үлестірудің бастапқы және соңғы бөліктерінде сызықтық тәуелділіктен ауытқушылық байқалатындығына (билогаримдік координатта) көз жеткізілді;

- мәтіннің объективтік қиындығын анықтау жолдары қарастырылып, кері жиілік сөздіктер арқылы алынған 1998-2004 жылдардағы 1-4 сынып «Ана тілі» оқулығы мен хрестоматиясы, 1970-ші, 1990 – шы жылдардағы БСО, БӘ мәтіндері жалғауларының құрамына тұңғыш рет статистикалық талдау жасалынды.

Зерттеудің теориялық маңызы:

- 1998 – 2004 жж. жарық көрген 1-4 сыныптарға раналған «Ана тілі» оқулығы мен хрестоматиясы мәтіндері бойынша құрылған сөздер арқылы оқулық мазмұндарының өзгерту динамикасына талдау жасалынды;

- 1998 – 2004 жж. жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің статистикалық және ақпараттық сипаттамалары анықталып, 1970 – ші, 1990 – шы жылдардағы БСО сандық сипаттамаларымен салыстырылды;

- оқулықтардағы сөз таптарының, кірме сөздердің және жалғаулардың құрамын статистикалық талдау жасалынды.

Зерттеудің тәжірибелік маңыздылығы: Зерттеу нәтижелері тіл білімін зерттеушілер, лк\ексикографтар, оқулық дайындаушы мамандар бастауыш сынып мұғалімдері үшін құнды материал болып табылады.

Сондай – ақ:

- Бастауыш сынып оқулықтары лексикографиясын теориялық тұрғыдан зерттеуде;

- Бастауыш сынып оқулықтары морфологиясын теориялық тұрғыдан зерттеуде;

- Қазақ мектептері үшін бастауыш сынып оқулықтарын, оқу лексикографиясын дайындаудың теориялық әдіснамалық негіздерін анықтауда;

- Оқу сөздіктерін құруда пайдалануға болады.

Қорғауға ұсынылған тұжырымдар:

- Типологиялық, стилистикалық және ақпараттық – статистикалық зерттеулер үшін 1-4 сыныптарға арналға. «Ана тілі» оқулығы мен хрестоматиясы бойынша кең көлемді лингвостатистикалық материалдардың

жинақталып, талданылуы;

- Зерттелінетін мәтін бойынша құрастырылған жиілік сөздіктің Ципф тәуелділігі бойынша модельденуі;

- Мәтіннің объективті қиындығын анықтау жолдарының айқындалуы;

- «Ана тілі» оқулығы мен хрестоматиясы мәтіндерін зерттеу барысында алфавиттік – жиілік, кері – жиілік және жиілік сөздіктердің дайындалуы, солардың негізінде жиі қолданылатын сөздер тобының анықталуы, сөз таптарының жалғауларының және кірме сөздердің құрамына лингвостатистикалық талдаулардың жасалануы.

1 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің лексикалық, статистикалық моделі

1.1 Қазақ тіліндегі мәтіндерді зерттеу лингвистикалық статистика элементтерін қолдану.

Тілдік құбылыстардың сандық сипаттамаларын зерттеу тіл білімінде тосын жаңалық емес, өйткені ол өткен ғасырдың 60-70 жылдарына дейін айқындалмаған пішінде қолданылып келеді. Өзге қоғамдық және жаратылыстану ғылымдары сияқты тіл білімінде де сандық бағалаулардың қажеттілігі теориялық лингвистиканың алдына жаңа мақсаттар қойды. Бұл зерттеу жұмысында 1998-2004 жылдары жарық көрген «Ана тілі» оқулығы мен хрестоматиясы бойынша қазақ бастауыш сынып оқулықтары мәтіндерінің сөздік қорын зерттеуде статистикалық әдістерді қолдану мүмкіндіктері қарастырылған.

Сөздік қор - күрделі обьект, көптеген теориялық және қолданбалы есептерді шешуде оның кейбір қасиеттері, дербес жағдайда, негізгі сандық сипаттамалары негізге алынады. Көлемі алдын ала белгілі мәтін мен оның сөздігі арасындағы ықтималды сандық қатынасты анықтаү, мәтін бойынша сөздердің үлестірілу түрін болжау, мәтін көлемінің өзгеруіне қарай сипаттамаларының өзгерісін білу қажеттілігі туындайды. Сандық бағалауларды қолданып, қарапайым тәсілдер арқылы дәлелді тұжырымдар алуға мүмкіндік беретін зерттеудің обьективті әдістемесін кұруға болады.

Мәтінді былайша зерттеу ана тілі мен шет тілін оқытудың тиімді әдістерін анықтауға, байланыс желілері арқылы жіберілетін хабарламаларды лексикалық тұрғыдан кодтау әдістерін кұруға, сондай- ақ ғылыми ақпараттарды автоматты түрде өңдеуге, сақтауға және тұтынушыларға тасымалдауға қатысты мәселелерді шешуге игі ықпал етеді.

Мәтіннің статистикалық құрылымын жекелеген сөздер түрғысынан зерттеу тіл білімінде күрделі мәселелердің біріне жатады.

Алғашқы кездері белгілі бір ұзындықты мәтін бойынша құрастырылған және әрбір сөздің не сөздер тобының тұсына жиіліктері көрсетілген сөздердің тізімі жиілік сөздік (ЖС) ретінде қарастырылған.

Тілдің сөздік қорын зерттеуде статистикалық әдістерді қолдану ЖС-терді құрастыруымен тығыз байланысты. Ең алғашқы жиілік сөздікке 1898 жылғы 11 млн сөз қолданысты қамтитын Кедингтің неміс тілі сөздігі жатады. Жиілік сөздіктер келесі мәселелерді шешу мақсатында дайындалады:

1. Ана тілін, шет тілін оқытуды жетілдіру.

2. Сөйлеу тілі немесе жазба тіл негізі болатын түрлі кодтау жүйелерін жетілдіру.

3. Сөз тұлғаларының, сөздердің, сөз тіркестерінің қолдану жиілігі бойынша жекелеген әдеби мұраларды, авторлардың шығармаларын зерттеу.

Алғашқы ЖС-тердің көпшілігі бірінші мәселені шешуге бағытталды.

Себебі, өзге тілді оқып-үйренуге барлық сөздерді есте сақтау қиын болғандықтан, тіл үйренушілер үшін анағұрлым жиі қолданылатын сөздерді іріктеп алудың зор мәні бар болды. XX ғасырдың алғашқы жартысында тіл үйренушілер санының айтуына қарай ағылшын, неміс және француз тілдерін үйрету мақсатында түрлі ЖС-тер жарық көрді.

Осындай сөздіктердің ең алғашкы 1911 жылы Р.Элдридждің авторлығында жарық көрді. Бұл- ағылшын тілін оқып- үйренуші американ жұмысшы- иммигрантарына арналған «Ағылшын тілінің кең қолданылатын алты сөзі еді» еді (Қосымша A:Eldridge R., 1911). Сөздік жалпы 44000 сөз қолданыстан тұратын газеттің 4 номері бойынша құрылған. Автор бұл сөздікте екі адамның бірімен- бірі еркін қарым- қатынаста бола алатындай кең қолданылатын сөздердің минимумын анықтауды мақсат еткен.

1920 жылы Х.Кенинстон сөздің жиілігі ғана маңызды рөл атқармайтындығына, сондай- ақ, сөздің мәтін түріне қарай қолдану дәрежесін анықтау керектігіне көз жеткізді. Ол сөздің сөйлеу тілінде, я болмаса жазба тілде, мысалы, газет тілінде не көркем әдебиетте қолданылу жиілігі мен рангісін қоса көрсетуді ұсынған (Қосымша A: Kenigston 1929). Бұл жаңа бастама 1931 жылғы Е.Торндайктың ағылшын тілі сөздігіне (Қосымша A:Thorndike Т., 1931), Г.Вандер Бекенің француз тілі создігіне (Қосымша А: Vander Веке G.,1934) және т.б. арқау болған. Кейінірек ЖС дайындау мәселесі де күрделене түседі: М.Вестің сөздігінде сөздердің ғана емес, олардың жекелеген бөліктерінің де жиіліктері есепке алынды. (Қосымша A:West М., 1953), 1929жылы Х.Кенигстонның испан тілінен, 1931жылы Е.Хочтың неміс тілінен фразеологиялық жиілік сөздіктері жарық көрді. (Қосымша А:Наисһ Е.,1931), 1939жылы П.Дидрихтың «Латын сөздері мен олардың жалғауларының жиіліктері» атты жиілік сөздігі (Қосымша A:Diedrich P., 1939), 1934жылы Н.Итонның ағылшын, француз, неміс және испан тілдеріндегі ең жиі қолданылатын 1000 сөзді қамтитын жиілік сөздігі әлемнің түкпір- түкпіріне тарады (Қосымша A:Eaton Н., 1934).1953 жылы Гарсия Ос испан тілінің жиілігі сөздігін дайындап, лексиканың сан қырын статистикалық әдістермен зерттеуге әрекет жасады (Қосымша A:Garcia Hoz V., 1953). Сөйлеу тілін зерттеуге қатысты Ж.Блек пен М.Ошерменнің колледж студенттеріне арналган сөйлеу тілінің сөздігі (Қосымша A: Black J., Aucherman М.,1955) жарық көрді. Сөздіктердің көпшілігі шет тілін оқытуды жетілдіру мен ана тілін меңгертуді жақсарту мақсаттарында дайындалғанымен, лингвистиканың теориялық мәселелерін зерттеуде құнды материалдар болып табылады. Чех және тілдерді бойынша сөз таптарының статистикасы Ж.Желикнек, Ж.Вечка және М. Течителовалардың авторлығында жарық көрген чехтілінің жиілік сөздігінде (Қосымша А: 1961), Э.А.Штейнфельдтің орыс тілінің жиілік сөздігінде келтірілді (Қосымша А: Штейнфельдт Э.А.., 1963).

Сөздіктердің бірқатары тиімді кодтау мәселесіне арналды. Кединг сөздігі стенографиялық жазбалар жүйесін жетілдіруге бағытталды. Мұнда анағұрлым жиі қолданылатын сөздерді қарапайым тіркестермен алмастыру ұсынылды. 1923жылы Г.Хедеманнның дат тілі, 1929 жылы О.Меленнің швед тілі бойынша сөздіктері жарық көрді (Қосымша A: Hedemann Н., 1923; Меііn O.V., 1929).

Телефон және телеграф байланыс жүйесін жетілдіруде 1930 жылы Н. Френч, К.Картер және У.Кенигтердің телефон әңгімелері бойынша дайындаған сөздігінің маңызы зор болады. (Қосымша А: 1930)

1955-1957 жылдары П.Гироның француз тілі сөздігінде сөздердің жиіліктерімен қоса кейбір грамматикалық категориялардың жиіліктері жайлы да мәліметтер қамтылды. (Қосымша А: 1955:1957)

1956-1961 жылдары жарық көрген «Пушкин тілінің сөздігінде» сөздердің жиіліктері туралы толық мәліметтер келтірілді. (Қосымша А: Пушкин А.С., 1956-1961).

ХХғасырдың 60-шы жылдарынан бастап, әлемдік тіл біліміндегі жаңа бағыт қазақ ғалымдарының да еңбектерімен толықтырылды. «Абай тілі сөздігі» (Қосымша А: Абай, 1968), Қ.Б.Бектаевтың «Қазақ тілінің алфавитті сөздігі» (Қосымша А: Бектаев Қ.Б., 1972); Ә.Ахабаевтың «Қазіргі қазақ газеттері тілінің алфиттік- жиілік сөздігі» (Қосымша А: Ахабаев Ә., 1973), Қ.Б.Бектаев, А.Б. Белботаев, Қ.Молдабековтердің «Ғ.Мүсіреповтің « Кездеспей кеткен бір бейне» повесі тілінің , алфавитті- жиілік сөздігі» (Қосымша А: Бектаев Қ.Б., Белботаев А.Б., Молдабеков Қ., 1973), I. Кеңесбаевтың «Қазақ тілінің фразеологиялық сөздігі» (Қосымша А: Кеңесбаев I., 1977), Қ.Б. Бектаев пен Қ.Молдабековтің «Балалар әдебиеті тексінің алфавитті жиілік сөздігі» (Қосымша А: Бектаев Қ.Б., Молдабеков Қ., 1988., 1988), «Бастауыш класс оқулықтары тексінің сөздігі» (Қосымша А: Бектаев Қ.Б., Молдабеков Қ., 1990), осы жолдар иесінің «1992-1995 жж. бастауыш класс оқулықтары тексінің алфавитті жиілік сөздігі [34], Қ.Б. Бектаев, А.Қ. Жұбанов, С. Мырзабеков және А.Белботаевтардың авторлық бірлестігінде жарық көрген «М.О.Әуезов 20 томдық шығармалар текстерінің жиілік сөздіктері» (Қосымша А: Бектаев Қ.Б., Жұбанов А.Қ., Мырзабеков С, Белботаев А., 1995), Қ. Молдабек , БІ.Б. Балқыбекова, Р.И. Кенжебековалардың «1 класс оқулыктары тексінің түсіндірме сөздігі» (Қосымша А: Молдабек Қ., Балқыбекова Ы.Б., Кенжебекова Р.И., 1997), А.Б. Салқынбай, Е. М.Абақанның «Лингвистикалық түсіндірме сөздігі» (Қосымша А: Салынбай А.Б., Абақан Е.М., 1998), Б.Қалыбековтің «Бастауыш сынып оқулықтары мәтіндерінің алфавитті- жиілік сөздігі» (Қосымша А: Қалыбеков Б., 1999);, Қ.Молдабек бастаған авторлар тобының «2-сынып Ана тілі оқулығы мәтінінің түсіндірме сөздігі» (Қосымша А:Қ. Молдабек, Ермекбаев М., Кенжебекова Р.И., және т.б. 2001), Г.Ғ.Еркибаеваның «Қазақ тілінің бстауыш сыныптарға арналған қысқаша лингвистикалык сөздігі» (Қосымша А: Еркибаева Г.Ғ 2005) қазақ лингвистикалық» статистика саласындағы елеулі еңбектердің қатарына жатады.

Жиілік сөздіктердің алуан түрлілігіне байланысты оларды дайындаудың әдістемелері де түрліше болады. Енді түркі тілдерін зерттеу статистикалық әдістерді қолдану тарихына тоқталайық. Соңғы жылдары әлемдік тіл білімінде математикалық әдістер кең колданыс табуда. Тіл білімінде ғана емес, сондай - ақ , психология, әлеуметтану, археология және басқа да гуманитарлық ғылымдарда математикалық әдістердің қолданылуы салалары дамуының жаңа кезеңін сипаттайды. Түрлі математикалық әдістердің ішінде лингвистикада ықтималдық статистикалық әдіс жиі қолданылатындығымен ерекшеленеді. Бұл әдіс тілдің сан түрлі үрдістеріне негізделген заңдылықтарын анықтауға мүмкіндік береді. Ыктималдык-статистикалық әдіс, қазақ, өзбек әзірбайжан, татар, қырғыз, қарақалпақ тілі сияқты түркі тілдерін зерттеуде нәтижелі қолданылуда.

Қ.Б.Бектаев - бүкіл түркі тілдеріне алғаш рет лингвистикалык статистика әдісін қолданудың гылыми негізін қалаған ғалым . Оның еңбектері инженерлік лингистика ғылымы бағытының пайда болуы мен дамуына үлкен үлес қосты [ 1]. Қазақ ҚСР Ғылым академиясының Тіл білімі институтына қарасты «Статистикалық- лингистикалық зерттеу және автоматтандыру» тобын, проефессор Р.Г. Пиотровскиймен бірге бүкіл одақтық «Статистика речи» тобын ұйымдастырып, басқарған. Кеңес дәуірінде КСРО Министрлер кеңесінің Ғылым мен техника жөніндегі Мемлекеттік комитетінің машиналық аударма жайында координациялық кеңесінің мүшесі қазақ тілі компьютерлік қорының негізін қалаушысы болған. Сөздердің жиіліктерін зерттей келе олардың үлестіру заңдылығын анықтаған, бұл заңдылық тіл білімінде «Бектаев эектісі» деп аталып жүр. Ғалымның «Қазақ тілінің кері алфавитті сөздігі» (1972), 2 томдық «Математические методы в языкознаии» кітабы (1973- 1974), авторлық бірлестікте Мәскеу қаласында жарық көрген «Математическая лингвистика» (1977) оқулығы, «Статичестико-инормационная типология тюркского текста» (1978), «М.О.Әуезовтың «Абай жолы» романының жиілік сөздігі (1979), «Орыс -қазақша математикалық сөздік» (1986), «Ықтималдықтар теориясы және математикалық статистика» (1990), «Қысқаша қазақша-орысша сөздік» (1989-1991), «Үлкен қазакша-орысша, орысша- қазақша сөздігі» (1999) еңбектері қаз тіл білімінің лингвстатистикалық әдістермен зерттеуге негізделген жаңа саласын дамытуға қосқан ерен үлесін көрсетеді.

М.Балақаев әдеби тіл нормасын сақтау мақсатында баспасөз мәтіндері бойынша қазақ тіліне орыс тіліне енген термин сөздерді санау барысында олардың саны барған сайын көбейіп келе жатқандығы келе жатқандығы жайлы тұжырым жасаған [ 2].

Ә.Ахабаев өзінің диссертациялық жұмысын қазақ публицистикасының лексикалық - морфологиялық құрылым зерттеуге арналған. Жартылай өткізгіштерге негізделген, қазіргі заманғы компыотерлермен салыстырганда мүмкіндігі анағұрлым төмен., үшінші буын ЭЕМ- дерімен «Социалистік Қазақстан», « Лениншіл жас», «Оңтүстік Қазақстан», және «Коммунизм туы» газеттерінің 146634 сөз колданыстан тұратын мәтіңдерін өңдеп, сандық сипаттамаларын анықтауы -оның жүргізілген зерттеу жұмыстарының ауқымдылығын көрсетеді. Сонымен бірге, Ә.Ахабаев дублет сөздердің колдану нормасын анықтауда олардың жиіліктерін статистикалық критерий ретінде алуды ұсынған.

А.Қ.Жұбанов өз диссертациялық жұмысында мәтіндері ЭЕМ-ге енгізу жолдарын қарастырып, сын есімдердің және олардың шырайларынының сандық сипаттамаларын анықтаған [ 3]. А.Қ.Жұбанов - түркі тілдерін зерттеуде ЭЕМ-ді қолдануға алғаш бетбұрыс жасаған қазақ ғалымдарының бірі. Ол Қ.Б.Бектаевпен бірге түркі тілдерін ЭЕМ-ге енгізу және автоматты түрде өндеу барысында мәтінді индекстеу мен кодтаудың жалпы принциптерін негізделген.

Д.А.Байтанаева қазақ тіліндегі фонемаларға статистикалық- ақпараттық талдау жүргізген. Зерттеу барысында тілдің түрлі жанрлары үшін талдау нәтижесінің де түрліше болатындығын анықтаған [ 4].

Х.Арғынов «Қалың мал», «Ботагөз» романдары мен «Ер Тарғын» жырындағы сөйлемдерді санау арқылы қазақ тіліндегі сөйлем түрлерінің қолданылу жиілігін анықтай отырып, қазақ тілінің синтаксис сапасын жазған [5]. Мәтіндерге тыңғылықты статистикалық талдау жүргізудің нәтижесінде автор толып жатқан тың тұжырымдар мен құнды ұсыныстар жасаған. Еңбекте статистика жайлы сөз жоқ. Сонда да Х.Арғыновтың қазақ тілінің синтаксисіне статистикалық әдістері алғаш қолданушылардың бірі деуге болады.

А.Хасенова қазақ тіліндегі етістіктердің лексикалық - семантикалық сипатын [6]. С.Мырзабеков етістіктің жасалу жолдарын статистикалық әдістермен зерттеген [7]. С.Мырзабеков өзінің диссертациясында XX ғасырдың орта тұсындағы қазақ тілін зерттеу сипатына «1935 жылдан 1965 жылға дейінгі аралықта қазақ тілін зерттеушілер нақты сандық деректерге онша бой ұра бермейді, көбіне аз, көп, сирек, жиі, жуық, шамалас, үнемі, үнемсіз тәрізді сөздерді қолдануға бейім, санды қолданса, оның өзі бір цифрдан аспайды» деп баға берген [8,7-8].

А.Б.Белботаев жиілік сөздіктер негізінде қазақ тіліндегі жалғаулардың құрылымдық түрлерін [9]. М.Әуезов шығармаларындағы орыс тілі арқылы енген бөгде тілдердің лексикасын, лингвистикалық терминдер мәселесін зерттеген [10].

А.Р. Зекенова қазақ драматургтері мен М.Әуезов пьесалары тілдерін жиілік сөздіктері арқылы зерттеп, қазақ тілінің стильдік ерекшеліктерін анықтаған [11].

М.Малбақов қазақ лексикографиясының тарихын зерттеу барысында ХҮІІІ ғасырдың II жартысынан 1917 жылға дейінгі кезеңде жарық көрген сөздіктердің фонетикалық, грамматикалық сипаттамаларына талдау жасаған, сөздіктердің құрылымдық- типологиялық ерекшеліктерін анықтап, зерттеу жұмыстарын жүргізген [ 12]. Ол қазақ тілінен алғашқы жазба мәліметтердің Ресей империатрицасы II Екатеринаның бастамасымен әлем халықтарының тілдері жайлы мәліметтермен бірге 1766-1777 жылдары жинақталғандығын анықтаған. 1777 жылы Өскемен қорғанында генерал Скалонның тапсырмасымен құрастырған орысша- жазбаша сөздікті қазақтың жазба мәдениетінің алғашқы туындыларынның біріне жатқызған.

Т.И.Ибрагимов 1971 жылы В.И.Ульянов- Ленин атындағы Қазан университетінде қорғаған «Изучение образования слогов и структуры их сочетаний в татарском литературном языке» атты кандидаттық диссертациясында татар әдеби тіліндегі буындылардың статистикалық сипаттамаларын буындардың түрлі типтерінің ықтимал үлестірілуін зерттеген [ 13]. Атап айтқанда , татар тіліндегі сөздердің орташа ұзындығы 2,41 буыннан тұратындығын, ашық буындардың қолданылу пайызы 5 1,8% -ды кұрайтындығын, сөздің басында буындардын «дауыссыз- дауысты» типі (40,6%), сөздердің соңында «дауыссыз- дауысты- дауыссыз» типі (52,9%) өзгелерінен көп қолданылатындығын лингвостатистикалық әдістермен анықтаған.

С.А. Ризаев өзбек әдеби тіліндегі қос фонемалы тіркестердің жиілігі мәселесін зерттеген [ 14]. Өзбек тіліндегі публицистикалық , ғылыми және көркем әдебиет мәтіндері мен қазақ тіліндегі ертегі және ғылыми мәтіндердегі фонемалар жиілігін салыстырған. Жүргізген статистикалық талдаулары жанр ерекшеліктерін сипаттайтын фонемалар тобын құруға мүмкіндік берген.

Т.И.Курбанов өзбек әдеби тіл публицистикалық стилінің лексикалық, фразеологиялық, грамматикалық және функциональдіқ ерекшеліктерін зерттеуде сипаттау, салыстыру және лингвостатистикалық әдістерді қолданған. [ 15]. Ол «Публицистический стильсовременного узбекского литературного языка» атты диссертациялық жұмысында статистикалық талдау нәтижесі бойынша өзбек тілінің функционалдық стильдерінде сөздердің қолдану жиілігін аныктаған. Публистикалық стильдің лексикалық құрылымын идеологиялың және эмоциональдық-экспрессивтік лексикаларға жіктеу барысында идеологиялық лексиканың негізін коғамдық-саяси терминдер құрайтындығын көз жеткізген. Мысалы, совет (786), социализм (107), социалистик (544), саясат (328), партия (1039) және т.с.с. сөздердің жиіліктері мейлінше жоғары.

С.У.Мусаходжаев өзбек ғылыми техникалық мәтіндеріне, электротехника және электроника салалары терминологияларына лингвостатистикалық талдау жүргізу барысында мәтіндердегі сөз тұлғаларының, терминдерінің статистикалық және ақпараттық

сипаттамалаларын анықтаған; «модель», «модельдеу» ұғымдарына нақты анықтама берген. Атап айтқанда, «Под моделью мы будем поминать систему некоторых обьектов, струкура и поведение которое соответственно воспризводит структуру и поведение другой системы обьектов. Моделируя исследуемый обьект (текст, речь) мы заменяем этот обьект другим более упрощенным обьектом - моделью , чтобы получить детальную инормацию об исходном объекте. Моделируемый текст служит аналогом той системы обьектов - оригиналом и моделью существует тесная связь, заключающаяся в их сходстве» деп аталатын үғымдардың ара- жігін ашып көрсеткен [16,8]. 1986жылы Өзбек КСР Ғылым академиясының А.С.Пушкин атындағы тіл және әдебиет институтында «Лингвостатистический анализ узбекского

научно- технического текста и терминологии подъязыка электротехники и электроники» атты тақырыпта кандидаттық диссертация жұмысын профессор Қ.Б.Бектаев пен доцент С.А. Ризаевтардың жетекшілігінде табысты қорғаған.

1987 жылы Қ.К. Бектаевтың жетекшілігімен қарақалпақстандық ізденуші М.К.Айымбетов жоғарыдағы институтта «Опыт лингвостатистического анализа лексики и морфологии каракалпакского публицистического текста» тақырыбында диссертация жұмысын қорғаған. М.К.Айымбетов қарақалпақ публицистикалық мәтіндерінің лексикасы мен морфологиясын статистикалық әдіспен зерттеп, қарақалпақ тілінің қазақ және өзбек тілдеріне лексикалық жағынан жақындық дәрежесін анықтаған[17]. Зерттеу барысында қазақ, қарақалпақ және өзбек тілдері жиілік сөздерінің жиі қолданылатын 200 сөзі қазақ- қарақалпақ , өзбек-қарақалпақ жұптары бойынша Спирмен рангілік коэффицентімен салыстырылған. Салыстыру барысында қазақ және қарақалпақ тілдерінің мәтіндері семантикалық тұрғыдан өзбек және қарақалпақ мәтіндеріне қарағанда 8%-ға жақындығын дәлелдеген.

Д.А. Рахманов әзірбайжан тілі мәтіндеріне графема мен фонемалар деңгейінде статистикалық- диструбутивтік талдау жасаған, графемалардың, фонемалардың, буындардың және бір буынды сөздердің жиілік сипаттамалары анықтаған [18]. Стаистикалық әдістер арқылы әзірбайжан тіліндегі дауысты дыбыстар 43,31%-ды, ал дауыссыз дыбыстар 56,69%-ды құрайтындығын есептеген. Д.А. Рахмановтың ойлап тапқан әзірбайжан тілі графемаларын тиімді орналастыру схемасы 1987 жылы Кировоград қаласындағы «Пишмаш» өндірістік бірлестігінде баспа машинкасындағы әріптер клавиштерінің орындарын анықтауға практикалық қолданыс тапқан.

Т.Садыков өзінің «Проблемы моделирования тюркской морфологии (аспект порождения киргизской именной словоформы)» атты монографиясында қырғыз тілінің морфологиялық құрылым жүйесі түрде талдаған .

С.И.Ибрагимов қырғыз тілінің ғылыми- техникалық сипаттағы мәтіндеріне жүргізген статистикалық талдауы барысында зат есімнің өзге сөз таптарымен синтаксистік байланыстарын анықтаған [19].

Ж. Жетешиков қырғыз публицистикасындағы зат есімдердің сөз өзгертуші жұрнақтарының статистикасын зерттеген және оларды қазақ тілі бойынша алынған сандық мәліметтермен салыстырған [20].

М.Хусаинов турік тілі лексикасының реформалау нәтижесін бағалауда статистикалық талдауды қолданса [21], А.Бабанаров түрік газеттерінің лексикалық- статистикалық құрылымын өзінің құрған жиілік сөздігі бойынша зерттеген [22].

Түркі тілдері бойынша жүргізілген зерттеулерге шолу ықтималдық-статистикалық әдістің қолдану аумағының өскенін, тілдің барлық салалаларында дерлік қолданыс тапқанын көрсетеді. Бұл- әдістің әмбебаптығымен, зерттеу обьектісінен тәуелсіздігімен түсіндіріледі.

Қазақ балалар әдебиетінің, бастауыш мектеп оқулықтарының мәтіндерін квантитативтік- статистикалық талдау- қазақ тіл білімін лингвостатистикалық әдістермен зерттеуші кұрамдас бөлігі болып табылады. Демек, қазақ тіліндегі бастауыш мектеп оқулықтары тілін зерттеу тарихына кеңірек тоқталу қажеттігі туындайды.

Қ.Молдабаев өзінің кандидаттық диссертациясында 1970 жылдардағы балалар әдебиеті мен бастауыш сынып окулықтарының мәтіндері бойынша типологиялық , стилистикалық және ақпараттық- статистикалық зерттеулер үшін үлкен мәні бар 241984 сөз қолданыстан тұратын материалдарды жинақтап, талдаудан өткізген [22]. Квантитативтік, лингвистикалык талдау арқылы алғаш рет 7-10 жас аралығындағы бабаларға БӘ мен БСО мәтіндерінің лексикалық- морфологиялық жалпы құрылымын анықтаған. БӘ мен БСО мәтіндері морфологиясы мен лексикасының сандық сипаттамаларын психолингвистикалық тест нәтижелерімен салыстыра отырып, бастауыш сынып окушылары тілі лексикалық- грамматикалық жүйесінің фонтогенетикалық қалыптасуының динамикасын (өзгерісін) жасаған. Қ.Молдабековтің зерттеулерінде БӘ және БСО мәтіндері бойынша типологиялық, стилистикалық және ақпараттық - типологиялық зерттеулер үшін үлкен лингвостатистикалық материал алынып, талданған.

Қ.Қалыбеков оз зерттеуінде 1950 жылдардағы бастауыш сынып оқулықтарының лексикалық қорын анықтап, олардың морфологиялық құрылымына статистикалық талдау жасаған . БСО лексикалық жүйесін зерттеуде статистикалық әдістерді қолдану ерекшеліктеріне тоқталып, оқулық мәтіндерінің жиілік кұрылымы мен лексикалык минимумын анықтауға, мәтіндерді лексикалык жүйені реттеудің мәселелерін шешуге әрекет жасаған. Атап айтқанда, балаларға 1950 жылдардағы оқулық мәтіндерін лингвостатистикалық әдіспен реттеп, олардың лексикалық қорын анықтаған; оқулықтарын мәтіндерінің жиілік сөздіктері арқылы жиі және сирек қолданылатын сөздердің лингвостатистикалық сипаттамасын берген; БСО мәтіндерін квантитативтік әдіспен зерттеу нәтижесінде оқулық мәтіндерінің лексикалық- граматикалық құрылымын анықтаған; 1950 жылдардағы оқулықтардың лексикасын 1970- ші жылдардағы БСО (Қ.Молдабеков), 1990шы жылдардағы БСО (Қ.Мамаев), 2000-ші БСО (М.Ермекбаев) мәтіндері бойынша алынған мәліметтермен салыстыру арқылы әрбір 20 жыл аралығындағы оқушылардың сөздік қорының өсу динамикасын анықтаған; 1950 жылдардағы БСО мәтіндерінің 50%-ын құрайтын жиі қолданылатын 200 сөздің (93046 соз қолданыстағы 132522 буын) ерекшеліктеріне талдау жасаған.

Т.М.Әбдікәрім зерттеу жұмыстарында бастауыш мектепке арналған «Әліппе» мен «Ана тілі» оқулықтарының мәтіңдемесін кұрастыру проблемасын оңтайлы шешу мәтінді лингвистикалық, коммуникативтік және әлеуметтік мәдени деп аталатын үш деңгейлік талдауды ұсынып, ана тілін оқытуға арналған түпнұсқа мәтінге қойылатын талаптарды айқындаған [23]. Тіл білімінің сөздік қорына «мәтіндеме» терминін енгізіп, мәтіндердің әркелкі типтерін және олардың бастауыш мектепте жағдаяттармен, тақырыптармен және қарым-қатынас салаларымен байланыстыра оқытудың ар-жігін айқындап, мәтіндеме кұрау жүйесін ұсынған. Ғылымда алғаш рет оқулық мәтінінің ғылыми теориялық сипаттамасын беріп, мәтінге қойылатын талаптар мен оның ғылыми негізін анықтаған. Бастауыш сыныптарға байланысты тіл дамыту мәселесінің теориялық негізін айқындап, оқушы тілін мәтін арқылы дамытудың , берілген мәтінмен «Мазмұндас мәтін құрау» әдісінің жолдары мен тәсілдерін негізде, оны практикада қолданудың жолдарын тәжірибе жүзінде тексеріп, олардың тиімділігін көрсеткен.

Бастауыш сынып оқулықтарынын тілін зерттеуге арналған М.Ә.Ермекбаевтың жұмысында бастуыш мектеп оқушыларының сөздік қорын молайту мәселелері қарастырылған: БСО мәтіндері статистикалық әдіспен зерттеліп, сирек қолданылатын сөздер іріктелініп алынған: бастауыш мектеп оқушыларының сөздік қорын белгілері мен жаттығулар жүйесіне қойылатын талаптар сараланған . М.Ермекбаев 1-сынып бойынша «Ана тілі», «Әліппе», «Математика», «Дүниетану» оқулықтарының , ал 2-4сыныптар бойынша «Ана тілі», «Қазақ тілі», «Матемтика», «Дүниетану» оқулықтарының мәтіндерін статистикалық әдістермен зерттеп, әрбір сынып бойынша сөз қолданыстардың, лексикалық тұлғалар мен сирек колданылған сөздердің сандарын анықтаған. Әрбір сөз кеспе қағаздарға жазылып, алфавиттік ретке, түбірлі келтірілген- бүкіл зерттеу үрдісі қолмен жүргізілген.

Алайда А.Мамаеваның «Әліппе» оқулығының 1995 жылғы «Рауан» және 2002жылғы «Атамұра» баспаларынан жарық көрген нұсқаларының компьютерлік бағдарламалар арқылы анықтаған сандық сипаттамалары М.Ермекбаевтың зерттеу нәтижелерімен алшақтықты көрсетеді. М.Ермекбаев «Әліппе» оқулығында барлық сөз қолданыс 3623-ті, лексикалық тұлға 1432-ні және сирек қолданылатын сөздер 66,20%-ды құрайтындығын анықтаған [24]. Ал А.Мамаеваның зерттеулерінде «Әліппе» (1995ж.) оқулығындағы сөз қолданыстар 3031-ді, лексемалар 1181-ді, сирек қолданылатын сөздер (жиілігі 1 мен 2-ге тең сөздер) 698- ді және олардың пайыздың үлесі 59,10%-ды құраған. «Әліппе» (2002ж.) оқулығы бойынша компьютер арқылы жүргізілген есептеулері бұл сандық көрсеткіштердің 421 7-ге, 1469-ға және 71,86%-ға тең екендігін көрсетеді [56]. Біздің ойымызша, А.Мамаеваның зерттеулерінде оқулықтардың мәтіндері компьютер жадына сканер құрылғысы арқылы енгізілгендіктен, ешқандай қолданыстың назардан тыс қалуы мүмкін емес. Мұнда сөз түлғалары да автоматты түрде алынған. М.Ермекбаевтың жұмысында сөз қолданыстардың сөз тұлғаларды алу үрдісі қарастырылмаған, квантитативтік зерттеу үрдісі «қолмен» жүргізілгендіктен, ішінара қателіктерге жол берілген деп ойлаймыз.

М.Ермекбаев зерттеулерінде 2000 жылдардағы 1-4 сыныптың 16 оқулығы мәтіндері бойынша сөз қолданыс саны 368965, сөз түлғалары саны - 40142 және сөз саны - 13869 болса, біздің зерттеулерімізде осы жылдардағы.

1-4 сынып «Ана тілі» окулығымен хрестоматиясының 8 кітабының сандық сипаттамалар 267329-ға, 481 78-ге 15493-ке тең. Демек, «Ана тілі» оқулығы мен хрестоматиясында сөз қолданыс саны алдыңғы зерттеулерден 1,38 есе кем болганымен, сөз тұлга саны 8036-ға , ал әртүрлі сөз саны 1624-ке артық. Бұл, біріншіден, соңғы оқулықтардың мәтіндерінің лексикалық қорының байлығын көрсетеді. Екіншіден, М.Ермекбаевтың зерттеу мақсаты бастауыш мектепте оқытылған лексикалық минимумды анықтау болғандықтан лексикалық тұлғалар бірқатар қосымша шарттарға сай іріктелініп алынған [24].

Атап айтқанда:

1) Лексикалық тұлғалардың құрылымынан техникалық, ғылыми терминдер таулары мен жалқы есімдер алынып тасталған;

2) Тек көп мағыналды сөздер есепке алынған; көп мағыналық касиеті жоқ сөздер қарастырылмаған;

3) Жекелеген сөздер жұрнақтардан ажыратылып, түбір күйінде берілген. Мысалы, шөптегі, шөптей, шөпті, шөпше сөздерінің орнына тек шөп сөзі алынған;

4) Өзге сөздермен байланысу қабілеті бар , сөздер ғана іріктелінген. Өздерінің тіркесу қабілеттінің аясы тар сөздер бастауыш мектеп оқушыларының сөздік қорын молайтуға қорын әсер етпейді деи есептеліп, лексикалық түлғалар құрамынан шығарылған. Мысалы, қалбаңда, қалбаңдай сөздерінің тек зат есімге, ал қалғып- мүлгіп сөзінің тек адам сөзіне ғана тіркесе алатындығын негізге алған.

Жалпы алғанда, мәтіндерді лингвостатистикалық әдістермен зерттеуде математика ғылымының «Ықтималдықтар теориясы», «Математикалық статистика» сияқты құрамдас бөлімдерінің жиынтық, статистикалық жиынтық, таңдама, жиынтықтың біртектігі, үлестіру заңы сияқты бірқатар терминдерін қолдануға тура келеді. Енді осы терминдерді толығырақ қарастырайық.

Сандық немесе сапалық белгіле ( белгілерге) ие. ЛБ-лерді біріктіретін статистикалык жиынтық - бас жиынтық делінеді. Бас жиынтықтағы ЛБ-лердің саны шектеулі, я шексіз болуы мүмкін. Егер бас жиынтықтағы ЛБ саны шектен тыс коп болса, онда зерттеу үшін қарастырылатын оның бөлігін таңдама жиынтық (таңдама) деп атайды.

Статистикалык зерттеудің нәтижесі бақылауды ұйымдастыруға тәуелді болғандықтан зерттелінетін белгіні, жиынтық бірлігін және бақылауды орындау әдісін алдын ала тағайындау талап етіледі. Статистикалық бақылау бойынша бас жиынтық түгелдей не таңдау әдісімен зерттелінуі мүмкін. Бас жиынтықтың бірліктерін санауға мүмкіндік болғанда, не бас жиынтықтың барлық бірліктерін қамту қажет болған жағдайда жаппай бақылау әдісі қолданылады. Әдетте, бас жиынтық үлкен көлемді болып, жаппай тексеруді жүргізуге мүмкіндік болмайтын жағдайлар да кездеседі. Мұндайда бақылау жүргізу барысында бас жиынтьықтың бөлігі, яғни таңдама қарастырылады. Таңдама түрліше тәсілмен құрылады. Бірақ таңдама бойынша алынған зерттеу нәтижелері бас жиынттыкқа жалпыланытындығы назарда болуы тиіс.[57]. Енді таңдама кұрастырудың тәсілдеріне тоқталайық.1

1. Кездейсоқ таңдау. Тәсіл бойынша жеке ЛБ-лерді таңдау теңнегі, не ойын кубын лақтыру, жеребе тастау немесе кездейсоқ сандар кестесі арқылы жүргізіледі. Бұл жағдайда жиынтықтық әрбір таңдамада болу мүмкіндігі бірдей болады. Таңдама бірліктерін мұндай тәсілмен іріктеу ұзак уақыт пен қыруар жұмысты қажет ететіндіктен практикада сирек қолданады.

2. Механикалық таңдау тәсілі бойынша таңдаманы құрайтын ЛБ-лер белгілі бір ретпен формальды түрде анықталады. Мысалы, обьект бірліктерін ойша нөмерлеп, әрбір 5-ші, сондай-ақ , 10-шы, т.с.с.номерден соң 6-сын, 11-шісін, 21-шісін т.с.с. арқылы таңдама құруға болады.

3. Сериялық таңдау тәсілімен таңдама серия бойынша кездейсоқ түрде жасақталады. Ал кездейсоқ алынған ЛБ-тері түгелдей бақыланады.

4. Типтік таңдау. Мұнда бақылаудың алдында бас жиынтық кандай да бір белгісі біртектес таңдамаларға бөлшектенеді де, одан қажетті ЛБ-лер кездейсоқ түрде алынады. Лингвистикалық есептерді шешуде типтік таңдама мен сериялық тандаманы үйлестіріліп, бірге қолдануға болады. Статистикалық бақылауды жүргізу обьектілер жиынын қарастырудан басталады. Обьектілер әрқайсысы бір обьектіден екінші обьектіге көшкенде өзгеріп отыратын көптеген белгілерімен ерекшеленуі мүмкін. Барлық белгілерді қамтуға мүмкіндік болмағандықтан, олардың ішіндегі тек біреуіне ғана аударылып, қалған белгілер үшін жиындағы обьектілер «тең құқықты» деп ұйғарылады. Осындай обьектілер жиыны статистикалық жиынтық деп, құраушы обьектілері жиынтық бірліктері делінеді.

Обьектілер сандық және сапалық қасиеттерге ие болуы мүмкін. Жиілік сөздіктегі ЛБ-лердің қолданылу жиілігін, рангісін статистикалық жиынтықтың сандық қасиетін сипаттайтын бірлігі ретінде қарастыруға болады. Зерттеу барысында кейде альтернативтік сапалық белгілерді қарастыру қажеттілігі туындайды. Мысалы,антоним сөздерді зерттеу барысында берілген сөзді «А», ал оған қарама-қарсы мағыналы сөзді «А» ретінде белгілеуге болады. Осыған орай лингвистикалық статистикада сандық және сапалық белгілер статистикасы терминдері қолданылады. Сапалық белгіге түрлі сандарды меншіктей отырып, сандық сипаттамаларды, сондай- ақ белгінің сандық мәндерін топтастырып, сапалық сипаттамаларды анықтауға болады.

Лингвистикалық статистикада ЛБ-лердің сандық және сапалық белгілермен бірге жиынтықтағы алатын орнын (рангісін) анықтау да маңызды рөл атқарады. Статистикалық зерттеулерде, көбінесе, ЛБ-нің дәл сандық сипатттамасын беру мүмкін болмайтын немесе олай етуді қажет етпейтін жағдайлар да кездеседі. Мұнда ЛБ мәтіндері қандай да бір ретпен (тәртіппен) орналастырылып, нөмерленуі тиіс. Мысалы, сөздердің не сөз таптарының тізімі қолдану жиілігіне қарай өсуіне кему ретімен

орналастыралады және т.с.с. Сонымен, белгі мәндерін өсуі немесе кему тәртібімен орнастырып, олардың алып тұрған орнын (поэзиясын) нөмірлеп, реттелген (рангіленген) сандар қатарын аламыз. Бұл қарапайым статистикалық модель қызметін атқарады. Әдетте, модельге ықтималдық теориясы аппаратын қолдану арқылы статистиканың рангілер теориясы құрылады.

Статистиканың зерттеулерде таңдамалардағы ЛБ қасиеттері бас жиынтыктың кез-келген бөлігіне жалпыланады. Бұл заңдылық бас жиынтық біртекті болған жағдайда ғана орындалады. Статистикалық жиынтық бір немесе мәтіннен тұруы мүмкін. Ал зерттелінетін мәтіндегі қандай да бір тілдік құбылыс бірнеше мәтіннен іріктеліп алынатын жағдайлар да кездеседі. Егер де берілген мәтінде қандай да бір тілдік құбылыс бірнеше рет қайталанып кездесетін болса және қарастырылатын мәтіндер жиынтығында да осы тұрақтылық сақталынса, онда мәтін статистикалық тұрғыдан біртекті деп ұйғарылады.

Тілдік құбылыстың жиілігіне таңдама көлемі ғана емес, тіл стилінің әртүрлілігі, шығарма жанры, сондай- ақ автордың стилі де ықпал етеді. Сондықтан статистикалық бақылаулар үшін мәтінді таңдау және даярлау аса маңызды іс болып табылады.

Лингвистикалық статистикада статистикалық қатарлардың ЛБ-лерін салыстырудың бірнеше әдістері қолданылады. Мысалы, екі катардың орташа мәндерін, диссертацияларын және т.б. салыстыруға болады. Алдын ала берілген шарттарға сай қолданылатын формулалар негізінде таңдамалардың бір не әртүрлі бас жиынтықтарға тиістілігін анықтауға болады. Егер де салыстырылатын таңдамалардың сипаттамалары (х, х, а, а,) өзара тең немесе өте жақын мән қабылдаса, онда олардың бір бас жиынтыққа тиістілігі жайлы тұжырым жасалынады.

Р.Г.Пиотровский, Қ.Б.Бектаев және А.А. Пиотровскаялардың пікірінше, екі қатардың орташа мәндері мен дисперсияларын мәтіннің біртектілігін анықтайтын критерийлер ретінде алуға болатындықтан [58], мәтіндерді салыстыруда қолданылатын негізгі формулаларды қарастырайық. Атап айтқанда:

а) берілген мәтіндегі бір ғана тілдік құбылысты бақылау барысында алынған екі вариациялық қатардың арифметикалық орташа мәнін салыстыру әдісін қарастырайық. Бұл әдіс бір-бірінен тәуелсіз, кездейсоқ тандамалар үшін жарамды болғандықтан, бақыланатын тілдік құбылыс нормаль заң бойынша үлестірілуі, не соған жақын болуы тиіс.

Саны , п>20 таңдамалыларды салыстыруда (1) формуласы колданылады. РІ>3 жағдайында салыстырылатын ЛБ-лердің орта мәндерінің ауытқуы маңызды деп есептелініп, таңдамалардың әртүрлі статистикалық жиынтықтарды сипаттайтындығы туралы тұжырым жасалынады. ІуІ<3 мәні үшін таңдамалар бір ғана бас жиынтыққа тәуелді деп есептелінеді ә) таңдамалар диперсиясын салыстыруда Ө критериі қолданылады:

Бұл теңсіздік дисперсия ауытқуының маңыздылығын, яғни таңдамалардың әртүрлі жиынтыққа тиістілігін сипаттайды.

Тілдік құбылыстарды зерттеу барысында лингвистикалық статистика элементтерін қолданудың бірқатар ұстанымдарын ескерген жөн :

Біріншіден, тіл стильдері тілдік құбылыстардың жиілігіне ықпал ететіндіктен поэзиямен, сөйлеу тілін жазба тілмен араластыруга болмайды.

Екіншіден, кітап тілін зерттеуде оның негізгі стильдік ерекшеліктері ескерілуі тиіс: а) көркем әдебиет тілі; э) публицистика тілі және б) ғылыми еңбектер тілі. Кітап стилі бойынша бақылау нәтижесі аталған ерекшеліктерді қамтитын бірдей көлемді таңдамалар негізінде тұжырымдалады.

Үшіншіден, көркем әдебиет тілін зерттеу барысында сұхбаттар мен кейіпкерлер репликасы ескерілмей, тек автор сөздері ғана бақылауға алынуы тиіс.

Төртіншіден, зерттелінетін мәтін біртекті болмаса, онда ол бірнеше таңдамаға бөліктеніп, олардың ішінен біртектілері ғана іріктеліп алынуы тиіс.

Бесіншіден статистикалық сипаттамалардың ауытқу аралықтары мәтіннің біртектілігіне сәйкес тарыла тарыла түсетіндігіне назар аударған жөн.

Жаратылыстану ғылымдарында кеңінен таныс "Хи-квадрат" критериін тіл білімінде де қолдануға болады.

Бір немесе бірнеше авторларға тиісті көлемдері бірдей, не әртүрлі мәтіндердің тілдік құбылыстарын салыстыруда олардың кездесу жиіліктері бір-бірінен ерекшеленеді. Сондықтан, тәжірибе барысында алынған, салыстырылатын жиіліктер немесе үлестердің ауытқуларының маңыздылығын тағайындау қажеттігі туындайды. А.Қ.Жұбанов,Қ.Молдабековтер статистикалық жолмен алынған сандар белгілі бір шекаралықта жататындықтан, сандардың арифметикалық теңсіздіктеріне сүйене отырып, тілдік құбылыстар жайында жасалынған тұжырымдар үнемі дұрыс бола бермейді деген қорытынды жасайды [25]. Мысалы, екі не одан көп өзара тең емес сандар бір бас жиынтық құрамындағы таңдаманын сипаттауы мүмкін. Математикада және лингвистикада кеңінен қолданылатын "Хи-квадрат" критериінің бірдей және әртүрлі көлемді таңдамаларға қолданылатын үлгілерін қарастырайық.

Көлем әртүрлі таңдамаларға арналған "Хи-квадрат" критериі үшін Ван дер Варденнің

(х – n_хр)²{n_х + п₂)

_хп₂рд

түріндегі формуласы қолданылады. [60]. Мұндағы р - салыстырылатын екі жиынтықтағы тілдік құбылыстың кездесу жиіліктері:

хі және х₂ - салыстырылатын тілдік құбылыстың сөздіктердегі абсолюттік жиіліктері не рангілері; п- және- п-өзара тең емес таңдама көлемдері; ц мәні ц~\-р формуласымен анықталатын және 1-ден кіші болатын статистикалық шама.

Кесте 1 - Жиілік сөздіктеріндегі жиі қолданылатын сөздер бойынша есептелген үшін "Хи квадрат" критериі мәндері____

№ №	Зат есім	«Ана тілі» оқул. Мен хрестом (1998-2004) N-267329		БСО(1990) N 996374		'Хи квадрат" критериінің
						абсолюттік жиілік бойынша мәні		рангі бойынша мәні және маңызды,
		Ғ	і	Ғ	і	және маңызды, маңызсыздығы		Маңызсыздығы
1	жер-з.	1509	16	1260	16	0,14	<3,84	0,22	<3 ,84
2	су-з.	534	62	922	26	179,55		9,43
3	күн-з	1400	18	903	28	41,12		4,18
4	үй-з.	926	34	37	37	2,60	<3,84	1,13	<3 ,84
5	адам-з.	892	38	41	41	2,54	<3,84	1,16	<3,84
6	көз-з.	896	37	54	54	25,33		6,67
7	құс-з.	378	104	58	58	71,02		6,59
8	жол-з.	735	47	60	60	6,31		4,50
9	бас-з.	858	40	68	68	52,38		12,74
10	ел-з.	880	39	90	90	133,32		29,72
11	қол-з.	754	46	94	94	78,47		25,57
12	бет-з.	349	115	96	96	5,7		0,012	<3 ,84
13	сөз-з.	1684	14	3	3	24,92		5,45
14	жақ-з.	377	105	113	113	0,46	<3,84	3,14	<3 ,84
15	іш-з.	345	16	89	89	10,52		0,49	<3 ,84
16	ағаш-з	333	121	62	62	79,71		10,57
1	дала-з.	264	146	105	105	19,92		1,63	<3 ,84

«Ана тілі» оқулығы мен хрестоматиясы (1998-2004ж.), БСО (1990 ж.) оқулықтарының мәтіндері бойынша іріктелініп алынған жиілігі ең жоғары 17 сөздің маңызды, маңызсыздығын анықтайық.

1-кестеден жиі кездесетін зат есімдердің қатарына 1-2 буынды сөздер енгендігін көреміз. Мұндағы таңдама (мәтін) көлемдері сәйкесінше, n=267329 және п₂=226374. Ғ және і - әрбір сөздің абсолюттік жиілігі мен жиілік сөздіктегі алатын орнының нөмірі (рангісі). Кестедегі 3,84 саны "Хи-квадрат" критериінің арнайы кестесі бойынша анықталады [26]. Еркіндік дәрежесі -еркін вариацияланатын ЛБ-лер санын сипаттайтын шама.

Біздің жағдайымызда п =2, ал кестелік шама сдан бір бірлікке кем болатындықтан, п=2-1 = 1. Кестедегі 0,05 саны орналасқан баған 95%-дық сенімділікпен алынған маңыздылық дәрежесін сипаттайды. Егер де нэтиже кестелік шамадан кіші болса, онда айырмашылық маңызсыз деп есептелінеді. Керісінше жағдайда айырмашылық маңызды деп саналады.

Жер зат есімінің солюттік жиіліктері бойынша жиілік сөздіктердегі кездесуінің маңызды-маңызсыздығын анықтау жолын қарастырайық. Алдымен, р мәні есептелінеді:

(3) формула Х_2,n₁_,р- және p мәндерін койып, х₂ критериінің мәнін анықтаймыз.

Шарт бойынша критерий мәні 3,84-тен кем болғандыктан, жер сөзінің қарастырылған сөздіктердегі қолдануында айырмашылық жоқ. Осылайша, зерттеу барысы сөздердің абсолюттік жиіліктері бойынша маңызсыз сөздердің саны 4-ке, ал рангілері бойынша 7-ге тең екендігін көрсетеді. Сөздердің рангілері арқылы есептеген «Хи квадрат" критериінің мәні жер, үй, адам, бет, жақ, іш және дала сөздерінің қарастырылған оқулықтардағы қолдануларында өзгеріс болмағандығын, яғни маңызсыздығын білдіреді.

Көлемдері бірдей таңдамалар үшін «Хи-квадрат" критериі формуласымен анықталады. Мұндағы, х - зерттелінетін тілдік құбылыстың арифметикалық орташа мәні; (х-х)- эмпирикалық қатардың орташа мәннен ауытқу шамасы.

Тілдік құбылыстарды салыстыруда олардың үлестері жайлы көбірек сөз қозғалады.

Үлес дегеніміз бас жиынтыктың қандай да бір бөлігінің салыстырмалы мәні. Үлес дүрыс бөлшек не пайыз түрінде берілуі мүмкін.

Берілген құбылыстың үлестерін салыстыруда екі жиынтықтың орташа үлестерінің квадраттары ауытқуының түріндегі формуласы қолданылады. Мұндағы, р және ц зерттелінетін тілдік құбылыстардың орташа үлесетерінің мәндері, n және п₂ - таңдама көлемдері.

Мәтіндердің лексикалық байлығының көрсеткіштерін есептеу барысында жағдайында ауытқу маңызды деп, ал болғанда маңызсыз деп ұйғарылады. Біз осы ұсынысты басшылыққа аламыз.

1990-шы және 2000-шы жылдардағы "Ана тілі" оқулықтары бойынша әрқайсысы 1500 сөз қолданыстан тұратын таңдамаларда етістік 377 және 343 рет кездескен. Енді осы сөз табының үлестерін салыстырайық. Қарастырылып отырған жай үшін р орташа үлесі жоғарыдағы үлестердің жарты қосындысына тең. Таңдамалар көлемдері өзара тең:

Демек, таңдамалардағы етістік сөз табы үлестерінің айырмашылығы маңызсыз болып табылады.

Әдетте үлестіру сипаттамаларының көп болуы статистикалық зерттеулер жүргізуді қиындатады. Сондықтан берілген статистикалық жиынтықтың негізгі қасиеттерін жалпылауға мүмкіндік беретін саны жағынан аз сипаттамаларды анықтау қажеттілігі туындайды. Мұндай сипаттамалар арқылы, Қ.Б.Бектаевтың пікірінше, тек эмпирикалық сипаттап қана қоймай, оның теориялық үлестерге қатысын да анықтауға болады [57]. Эмпирикалық үлестірулердің көңіл аударатын маңызды сипаттамаларына түрлі орталар (арифметикалық орта , гармоникалық орта, медиана, мода, квартильдер, децильдер және т.с.с), сондай- ақ , түрлі ауытқу (шашырау) өлшеуіштері (құлаш, абсолюттік ауытқу, орташа квадраттык ауытқу, дисперсия, вариация коэффиценті және т.с.с.) жатады. Ықтималдық тар теориясында қарастырылған мұндай сипаттамалар эмпирикалық (тәжірибелік) немесе статистикальқ параметрлер делінеді.

Зерттеу жұмысында қолданылған формалар статистикалық жиынтықтардың сипаттамаларын анықтауға мүмкіндік береді. Мұндай жиынтықтағы зерттелінетін тілдік құбылыс нормаль үлестіру заңына бағынады. Сондыктан тілдік құбылыстың үлестіру заңын анықтаудың үлкен маңызы бар. Р.Г. Пиотровский, Қ.Б. Бектаев және А.А. Пиотровскаялар «Математическая лингвистика» атты ецбектерінде зерттелінетін құбылыс нормаль үлестірумен сипапатталмаған жағдайда қандай да бір беріктікпен алынған формулаларды қолдануға болатындығын, бірақ жиынтық көлемінің (N) үлкен болуы шарт екендігін тұжырымдаған [27].

Қандай да бір тілдік құбылыстың үлестіру заңы деп тілдік құбылыстың мүмкін мәндерінің тізімін айтады. Мұнда әрбір мән өзінің қолданылу ықтималдығымен (салыстырмалы жиілігімен) берілетіндіктен, кез келген вариациялық қатар мәндерін графиктік түрде сипaттауға болады. Вариациялық қатар мәндері бойынша тұрғызылған үлестіру қисығы зерттелінетін тілдік құбылыстың үлестіру заңын анықтауға мүмкіндік береді.

Тіл - көптеген өлшемдермен сипатталатын обьективті жүйе болгандықтан, бұл жүйенің барлық элементтерінің үлестіру сипатын анықтау мүмкін емес. Сондықтан әрбір тілдік құбылыс бірлігінің үлестіру заңдылығын жеке анықтау керек.

Лингвистикалық бірліктердің үлестіру заңдылықтары жайлы мәселені тереңірек зерттеген ғалымдардың бірі. P.M. Фрумкина. Ол Лингвистикалық зерттеулерде статистикалық талдауды қолданған, өзге ғылым салаларында обьектілерді сипаттауға пайдаланып жүрген математикалық әдістермен лингвистикалық есептерді шешуге болатындығына назар аударған [28].

Тілтанушы ғалымдар Г.В.Ермоленко мен *Р.Т. Могилевский өздерінің «Учебное пособие по лингвистической статистике» атты оқу құралында математикалық статистикадағы үлестіру заңдарының ішінде үлестірудің нормаль заңының (Гаусс заңының) рөлі үлкен екендігіне ғалымдардың назарға аударған [29]. Себебі, нормаль үлестіруде элемент саны шектеулі болатындығы белгілі.

Берілген тілдік құбылыс элементтерінің нормаль үлестірілетіндігін сипаттайтын вариациялық қатарға сәйкес кисықтың түрі ординатаның ең үлкен мәніне қатысты қоңырау тәрізді формаға ие. Нормаль үлестіруге сай қисықты алу үшін көлденең ось (ОХ) бойынша % вариантта мәндері, ал тік ось (ОҮ) бойына олардың жиіліктері т орналаластырылады. X шамасының өзгеруіне сәйкес қисық колденең ось бойымен жылжиды және қоңырау тәрізді түрі өзгеріссіз қалады. Қисықтың түрі а мәніне қатысты өзгереді. Сирек кездесетін тілдік құбылыстардың жиілік ықтитмалдықтары да темен болады. Бұл заңдылық Пуассон- Борткевич үлестіру заңымен сипатталады.

Тәжірибе барысында алынған х мәндері о теңдігін қанағаттандырса, яғни эмпирикалык вариациялық қатардың арифметикалық ортасы оның дисперсиясына тең болса, зерттелінетін тілдік құбылыс Пуассон үлестіруіне бағаланады. Тілтанушы ғалым А.Я. Шайкевич мәтін бөліктерінің өзгеруіне сәйкес бір ғана мәтіндегі тілдік бірліктердің статистикалық үлестірілуі де түрліше өзгеретіндігін делелдеген болатын [30]. Ол берілген тілдік кұбылыстың үлестірілуі жайлы мәселенің абстрактілігіне, тек мәніннің бөліктеріне қатысты ғана бұл сұрактың мәні бар болатындығына тоқталған. Қ.Б.Бектаев пен К.Ф. Лукьяненковалар өз зерттеулерінде сөз тұлғалары мен үш буынды тіркестердің қандай да бір үлестіру заңына бағынуының шарттарын анықтаған [31]. Авторлар сөз тұлғаларының абсолюттік жиіліктеріне сәйкес реттік номерлері мен үлестіру заңының түріне қатысты тәуелділікті тауып, үлестіру заңдылықтарын ЭЕМ арқылы анықтаудың ортақ алгоритмін жасаған.

Тілтанушы ғалымдар Қ.Б.Бектаев, Р.Г. Пиотровский, Г.В. Ермоленко және Р.И. Могилевскийлер сөз қолданыстардың, сөз түлғаларының және қызмеші сөздердің жиілік сөздіктегі үлестірілу заңдылықтары жайлы бірқатар құнды пікірлер айтқан. Атап айтқанда:

1) Қ.Б.Бектаев жиілік сөздіктің түрлі статистикалық тобына жататын сөз тұлғаларының эмпирикалық үлестірілуі де әртүрлі заңдарға бағынатындығын анықтаған. Жүргізген лингвостатистикалық тәжірибелері барысында тізімнің басы нормаль заңмен сипатталып, орта бөлігі сөз тұлғалының көпшілігі нормаль заңға бағынатын аралас аймақтан тұратындығына, соңынан сөз тұлғаларының көпшілігі Пуассон заңына бағынатын кері құбылыс байқалатындығына жеткізген

2) Г.В.Ермоленко пен Р.И.Могилевский кеме механизмдері туралы ағылшын тіліндегі ғылыми- техникалык мәтіндерде қолданылған сөз қолданыстардың 90 %-ы Пуассон заңына бағынатындығына анықтаған [32].

3) Қ.Б.Бектаев пен Р.Г.Пиотровский зерттеліңген мәтіндердегі қызметші сөздер тек нормаль заң бойынша үлестірілетіндігін негіздеген [33].

Бақылау нәтижелері бойынша құрылған вариациялық қатарлар эмпирикалық қатарлар, ал мұндай қатарлардың жиіліктерінің үлестірілуің сипаттайтын қисықтар үлестірудің эмпирикалық қисықтары делінеді. Үлестірудің нормаль заңын бірнеше жиынтықтың үлестірулерінің теорялық заңы ретінде қолдануға болады. Себебі, бұл элементтерінің саны шекті кұбылыстарды зерттеуге арналған.

Статистикада эмпирикалық үлестірудің нормаль үлестіруге жақындығын тексеруде үйлесімділік критерилері пайдаланылады. Эмпирикалык қатардың нормаль катарға жақындығын анықтауға ықпал ететін бірқатар қарапайым тәсілдерді қарастырайық:

а) Нормаль үлестіру заңдары үшін орташа квадраттық ауытқудың (β) қатынасы тұрақты шама болатындығы дәлелденген [60]. Мысалы, - р

= 1,25 болсын дейік. Мұндағы β- қатынасының 1-ден кем немесе 1-ге тең болмайтындыгын көрсетейік. -Р Р

қатынасының ең кіші мәні ретінде 1,01 саны алынсын. Бұл саны алынсын.

Бұл сан 1,25 санынан, ягни «критикалык саннан» 0,25- ке кес, оның ең үлкен мәні 1,25+0,24=1,49 тең. Демек, (1,01; 1,49) аралығын эмрикалық үлестірудің нормаль үлестіруге жақындығын сипаттайтың –қатынасының шекаралыктары ретінде қабылдауға болады. 1-сынып «Ана тілі» (2002ж) оқулығы мәтініндегі «және» шылауының үлестірілу сипатын анықтайды. Бас жиынтық 5 таңдамадан және әр таңдама 300 сөз колданыстан тұратындай етіп алынды. «Және» шылауының кездесу жиілігі 2-кестеде берілген:

Кесте 2- «Және» шылауының үлестірілуі

Р.н.	Жиілігі (х)	Таңдама саны (m)	(Xm)	(х-х)	(х-х)	(х-х) m	/х-х/ m
1.	7	1	7	3,8	14,44	14,44	3,8
2.	1	1	1	-2,2	4,84	4,84	2,2
3.	2	1	2	-1,2	1,44	1,44	1,2
4.	2	1	2	-1,2	1,44	1,44	1,2
5.	4	1	4	0,8	0,64	0,64	0,8
		5	16			22,8	9,2

Демек, - > 1 болғатындықтан,

және шылауыныц эмпирикалық үлестірілуі нормаль заңы бағынады.

ә) Эмпирикалық үлестірудің нормаль үлестіруге жақындығын анықтайтын келесі қарапайым тәсіл- Вестергардт сандары арқылы сипатталатын тәсіл. Вестергардт сандарының жиынтығын 0,3; 0,7; 1,1 және 3 сандары құрайды. Бұл әдіс бойынша эмпирикалық үлестіру бір мезгілде төрт шартты қанағаттандырған жағдайда ғана нормаль үлестірілген деп есептелінеді. Шарттарды тексеру үшін, алдымен тәжірибелік вариациялық қатардың орташа мәні (β) мен оның орташа квадраттық ауытқуы (а) есептелінеді.

Бірінші шарт: у =-0,3 және / =+0,3 аралығында зерттелінетін

жиынтықтың 1 бөлігі жатуы тиіс. 4

Екінші шарт: х=-0,7 және х =+0,7 аралығында зерттелінетін

жиынтықтың _1 бөлігі жатуы тиіс. 2

Үшіиші шарт: х=-1,1 және х= + 1,1 аралығында бүкіл жиынтыктың

_3 бөлігі орналасуы тиіс.

Төртінші шарт:х =-3 және х=+3 аралығында бүкіл жиынтыктың 0.998

бөлігі қамтылуы тиіс.

Берілген таңдама бойынша кандай да бір тілдік кұбылыстың кездесуінің орташа мәнін есептеуге болады. Мысалы, зерттеу нәтижелері бойынша 1998-2004 жылдары «Ана тілі» оқулығы мен хрестоматиясында кездескен сөздердің орташа мәні -17,25- ке, 2000жж. БСО-да 26,60-ка, 1990жж. БСО-да 17,7-ге, 1970жж. БСО-да-19,70-ке, 1950жж. БСО-да -1 8,06-ға, БӘ-де -9,65-ке тең екендігі анықталған. Таңдама көлемі кішірейген сайын қолданылатын түрлі сөздердің саны арттады, яғни таңдама көлемі мен сөздердің орташа мәні кері пропорциональдық тәуелділікпен сипаттталады. Сондай- ақ, орташа мән автор стильмен, мәтіннің жанрымен (поэзия, проза, ғылыми т.б.) де ерекшелінеді.

Математикалық статистикада кеңнен танып өсудің (кемудің) орташа коэффициенте тілдік құбылыстардың өзгерісін анықтауда қолдануға болады. Мұнда al,a2,...a оң сандары үшін геометриялық орташа мән осы сандардың көбейтінділерінің n-ші дәрежелі түбіріне тең:

Мұндағы у1 мен у- қарастырылатын тілдік кұбылыстың алғашқы және соңғы кезеңге тиісті мәндері, ал п- кезең саны.

Сонымен, зерттеу мақсаты статистикалык бақылау жүргізу барысында тілдік қүбылыстың бірқатар статистикалық сипаттамаларын толық анықтауды көздейді.

1. Тілдік құбылысты сапалық тұрғыдан талдай отырып, бүкіл зерттеу барысында өзгермейтіндей есептеу бірлігі анықталуы тиіс.

2. Бақылау барысында алынған статистикалык мәліметтер бойынша вариациялық қатарлар және оларға сәйкес кестелер құрылуы керек.

3. Зерттелінетін бас жиынтықтың статистикалык формулалармен сипатталу дәлдігін анықтау мақсатында эмпирикалық үлестірудің нормаль үлестіруге жақындығы тексерілуі керек.

4. Қандай да бір тілдік құбылыстың вариациялық қатарын талдау барысында осы қатардың

а) орташа арифметикалық шамасы;

ә) орташа квадраттық ауытқуы;

б) таңдаманың орташа мәні;

в) шекті қателіктері.

Сияқты негізгі сипаттамалырын анықтау керек.

5. Тілдік жүйенің өзгерісін зерттеуде өсудің (кемудің) орташа коэффииентін қолднаған тиімді. Өсудің (кемудің) отараша коэффициенті арқылы зерттелінетін тілдік кұбылыстың екі не одан да көп кезеңдері қолданылуының өзгерісі анықталады.

7. (статистикалық зерттеу барысында алынған шамаларды салыстыруда арифметикалық теңсіздіктер накты тұжырымдар жасау үшін жеткіліксіз болатындықтан, «Хи- квадрат» критерийін қолдану керек.

8. Зерттелінетін тілдік кұбылыстар арасындағы тәуелділікті анықтауда алдымен байланыс түрінде, соңынан корреляция коэффицентіне сай формуланы таңдау қажет. Тәжірибелік белгілердің байланысын есептеуде ассоциация коэффициентін қолдануға және ол формуласы бойынша есептілінеді. [61]. Бұл коэффициент тек екі сапалық белгінің арасындағы байланысты анықтауға мүмкіндік береді.

Енді, жоғарыда сипатталған математикалық статистика элементтерінің «Ана тілі» оқулығы мен хрестоматиясы бойынша казақ тіліндегі мәтіндердің жиілік сөздіктерін кұрастыруға қолдану жолын қарастырайық.

1.2 «Ана тілі» оқулығы мен хрестоматиясы бойынша қазақ мәтіндерінің жиілік сөздіктерін құрастыру

Осы уақытқа дейін тілтану мен әдебиеттану салаларында тіл және оның стильдері туралы бай білім тәжірибелері жинақталады. Олар тілді зерттеуде статистиканы қолдану арқылы тілдің сандық белгілері мен сипаттамаларын негізге алу керектігін дәлелдейді.

Ф.де Соссюр, И.А. Бодуэнде Куртенэ, Б.Н. Головин, P.M. Фрумкина, Р.Г. Пиотровский, Қ.Б. Бектаев, А.Қ. Жұбанов сынды ғалымдардың тілдік элементтерді сандық тұрғыдан бағалауға көңіл аударуы кездейсоқтық емес [34]. И.А. Бодуэн де Куртенэ XIX ғасырдағы тіл біліміне «Метод исследования в язызокознании все больше приближается к методу точных наук: все больше тонкого анализа, больше абстракции» деген сипаттама берген [5,72]. Ол статистикалық есептеулер негізінде, шексіз аз шама, шексіз аз айырмашылық, туынды айырмашылық сияқты түсініктерді енгізе отырып, тілді зерттеу мүмкіндіктеріне тоқталған. XX ғасырлардағы тіл білімінің даму жолын анықтай отырып, тілтанушы ғалымдарды сандық , математикалық есептеулерді жиі қолдануға, тіл білімін неғұрлым көбірек нақты ғылымға жақындата түсуге шақырған. Бұл тіл білімінде шындыққа үйлесімді қорытындылар мен дәлелдеген тұжырымдар жасауға ықпал етті.

Тіл білімінің дамуына үлкен үлес косқан ғалымдардыңы бірі P.M. Фрумкина зерттеу нысандары жайлы толық ақпарат болмаған жағдайларда да статистикалық әдістер арқылы берілген дәлдікпен және сенімділікпен алынған қорытындылар жасауға болатындығын тұжырымдаған [35].

Лингвистикалык тұжырымдарды негіздеуде бұл пікірдің алатын орны ерекше.

Ыктималдық- статистикалық заңдылықтар арқылы табиғат пен қоғамдағы жүйелерінің ортақ байланыстарын анықтауға олардың кездесу жиіліктері негізге алынады. Лингвистикалық құбылыстардың жиілігі әмбебап лиигвистикалық категория болып табылады. Статистикалық әдістерді қолдану барысында алынған сандық белгілерін тіл құрылымы сапалық бслгілерімен байланыстылығын Б.Н. Головин зерттеген, статистикалық есептеулер нәтижесінде алынған сандық көрсеткіштер жекелеген зерттеушілердің субьективті көзқарастарын дәлелдеуге, жалпылауга мүмкіндік береді.

Тілтанушы ғалым Т.Р. Қордабаев қазақ тіл білімінің сандық сипатын зерттеу қажеттілігі жайлы 70-ші жылдардың ортасында « ... тілдің құрылымында оның элементтерінің сандық шамасының да атқаратын рөлі аз емес. Онда белгілі бір элемент, форма көп болса, екінші біреулері сан жағынан одан әлдеқайда аз болады; бірі өнімді, актив қызмет атқарса, екіншісі өнімсіз , пассив болады, өте сирек қолданылады, т.б. Бұларды айқындау , есепке алу ғылым үшін қажетті ақ. Өйткені тіл білімі үшін тілдік элементтердің сапалық сипаты мәнді болса, сандық сипаты да сондай мәнді»- деген құнды пікір жасаган[36, 166]. Тілтанушы ғалым математикалық әдістің негізгі мақсаты тілдің, сөйлеудің сандық сипатын, тіл құрылымының қызметімен, дамуымен байланысып жататын сандық заңдылықтарды анықтау, солардың сырын ашу екендігін айқындаған. Тілдің элементтерінің, формаларының сандық жағы, сандық сипаттамалары оның зерттеу материалы болатындығын атап көрсеткен. Бірақ Т.Р. Қордабаев еңбектерінде қолданылатын математикалық әдістің түрі мен қолданылу жолы ашып айтылмаған. Алайда ғалымның жоғарыдағы тұжырымы қазақ математикалық лингвистикасының дамуына негіз болған.

Математикалық модельдеуді тілге колдану, тіл білімін автоматтандыру талабы ақпараттар теориясы негізінде, соның қажеттілігінен туып, соңғы жылдары тез қарқынмен дамып келе жатқан информатика ғылымының әсерінен пайда болды. Бұл әдіс кеңес тіл білімінде 50-жылдардың екінші жартысынан бастап, электрондық есептеуіш машинаның пайда болуымен, ене бастады. Бірақ ол кездері математикалық әдісті қазақ тіл біліміне қолдануға болатындығы туралы мәселенің басы ашылмады. Себебі, математикалық әдістер мен модельдеуді қазақ тіл біліміне қолдану үшін, біріншіден, солардың өзін жақсы білу керек болды. Ал лингвистердің барлығы бірдей математиканың заңдарын, формулаларын біле бермеді. Екіншіден, бұл әдісті жақтаушылардың өздері де бір пікірде болмады. Оны қалай және тіл білімінің қай саласына жемісті қолдану керек деген сауалға әрбір тілтанушы өзінің кабілеті шеңберінде жауап беріп жүрді. Бірақ, бертін келе елеулі қиыншылықтарға қарамастан , математикалық әдіс дұрыс қолданылған жағдайда, тіл білімін зерттеуде едәуір септігін тигізетіндігіне көптеген ғалымдардың көздері жетті.

Қ.Б. Бектаев тұңғыш рет қазак тіл білімін зерттеуде математикалық аппаратты қолдану жолдарын анықтады. Аппараттық қондырғы ретінде ЭЕМ-дері пайдалануды және оған ақпаратты енгізуге арнайы кодтау жүйелерін қолдануды ұсынды.

Қ.Б. Бектаев тұңғыш рет қазақ тіл білімін зерітеудс математикалық ақпаратты қолдану жолдарын анықтады. Аппараттық қондырғы ретінде ЭЕM-дері пайдалануды және оған ақпаратты енгізуге арнайы кодтау жуйелерін қолдануды ұсынды. 1975жылы жарық көрген Қ.Б.Бектаевтың монографиясындағы қазақ тіліндегі мәтіндер бойынша ЭЕМ арқылы алған зерттеу нәтижелері қазақ математикалық лингвистикалық ғылымы негізінің калануына елеулі үлес қосты. Ғалым бұл еңбегінде қазақ тілі бойынша алынған сандық сипаттамаларды батыс және орыс ғалымдарыныц үнді-еуропа тілдері бойынша зерттеу нәтижелерімен салыстырып, кұнды тұжырымдар жасаған . 1970 жылдардағы үлкен ЭЕМ-дерге ақпараттар перфокарталар, перфоленталар арқылы енгізіліп, сақталынған. Перфокарталарға мәліметтерді енгізу орасан зор уакытты талап еткен. ЭЕМ-нің жұмыс істеу мүмкіншілігі шектеулі болғандықтан , көлемді мәтіндерді енгізіп, өңдеуде қиыншылыктар кездескен. Қ.Б.Бектаевтың басшылығымен мәтінді өңдеудің нақты алгоримдері дұрыс құрылғанымен, сол алгоритмдерді ЭЕМ-ге «түсінікті тілге»- бағдарламаға айналдыратын бағдарламалау жүйелері жақсы жетілмеген болатын.

Ақпарат ғасырында, компютерлік техникалардың соңғы жетістіктерін қолдана отырып, балалар тілін, соның ішінде қазақ балаларының тілін лингвистикалық статистика әдістерімен зерттеу — бүгінгі күннің талабы. Себебі, дәлелді мәліметтерге негізделген зерттеу нәтижелері жаңа буын оқулықтарын баланың психологиялық және физиологиялық ерекшеліктеріне сай етіп, құрастыруға ықпал етеді.

Қ.Молдабековтің пікірінше, қоршаған ортаның үздіксіз әсер етуі барысында баланың тілді меңгеруіне бір жағынан, оның болашақ азамат ретінде рухани, әрі мәдени-эстетикалық қалыптасуы, екіншісі жағынан, ұлттың өмір сүруі мен бірлігі әсер етеді. Ол өзінің 1985 жылғы бастауыш мектеп мәтіндерін лингвостатистикалық зерттеу жайлы диссертациялық жұмысында 1970 жылдардағы бастауыш мектеп оқулықтары мен балалар әдебиеті мәтіндерін Қ.Б.Бектаевтың ұсынған кодтау жүйелері мен бағдарламалау тобын қолдана отырып, ЭЕМ-ге енгізілген. 1980-ші жылдардағы IBM фирмасының IBM PC XT дербес комьютерлерінің жарық көруіне байланысты, ақпараттарды компютерге пернетақта арқылы енгізіп, иілгіш магниттік дискі жинақтағыштарда (дискеттерде) сақтауға мүмкіндік туды. Алайда, дискеттердің қолданылу мерзімінің шектеулілігінен Қ.Молдабеков зерттеу нәтижелерінің электрондық нұсқалары сақталмады. 1990-шы жылдары біз Қ.Молдабековтің баспадан шығарған сөздіктерін компьютерге енгізіп, өңдедік.

Тілді толық меңгеру балалық шақтан бастап, бірнеше кезеңдері қамтитын күрделі үрдіс болып табылады. Ф.де Соссюрдің пікірінше, тілді үйрену барысында, біріншіден, бала тіл арқылы әрқашан өзінің тілегін жеткізуге, ойын айтуға тырысады, ал екінші жағынан, өздерінің тілін тезірек үйретуге ұмтылған үлкендердің лингвистикалық қысымына ұшырайды. Алайда, бұл екі іс-әрекетте, біздің ойымызша, бала тілінің қалыптасып дамуына әcep етеді. Себебі, үлкендердің ықпалынсыз баланың ой-өрісінің қалыпты дәрежеде дамуы, өзіндік тұлға болып қалыптасуы қиын.Сабилік шағында бала күнделікті тұрмыстық терминдерді ігеріп, ауызекі сөйлеуді үйренсе, мектеп қабырғасында көркем әдебиет , ғылым тілді меңгеріп, сөздік қорын молайтады.

Бала тілінің қалыптасуы мен дамуын зерттеу тіл табиғатының бірқатар теориялық мәселелерін талдауға мүмкіндік береді. Сондықтан да XX ғасырдың басында М.Картий , А.Уотс, Е.А.Горп сияқты бірқатар тілтанушылар мен психологтар бала тілін зерттеуге бет бұра бастады. Осы кезеңде бала тілінің әр түрлі жас кезеңдеріне қатысты статистикалық зерттеулер жүргізудің алғашқы қадамдары жасалынды: баланың ой-өрісінің деңгейін білдіретін алғашқы жиілік сөздер жарыққа шықты. А.Уотс баланың ақыл-ой мен тілінің дамуын оның психологиялық дамуының көрсеткіші ретінде қараған.

Қалыптасып келе жатқан бала тілі оның жүйе ретінде дамуының көрсеткіші қызметін аткарады. А.Н. Гвоздев баланың ана тіліне меңгеруі барлық адамдарға бірыңғай әсер ететін және тілдің құрылымына да өзіндік үлес қосатын жалпы психофизиологиялық шарттармен анықталатындығын мәлімдеген.

А.Н. Мещеряков солқыр, саңырау, эрі мылқау балалардың психикасының қалыптасуын зерттей келе, баланың сойлеу қызметіпіц қалыптасу үрдісін туа пайда болатын қүрылымға жатқызатын Еурона психолингвистикасы окілдерінің козқарастарын теріске шығарған[731. Ол мүндай физиологиялық , лингоментальдық қүрылымдар балапыц сыртқы ортамен байланысты, яғни элеуметтік эрекетінің нәтижесі екендігіи түжырым д аған.

Адамның тілдік қызметі мәтіннің морфологиясы мен лексикасын танып- білу құралы болғандықтан, біз тілдің осы аспектілерін қарастырмақпыз. Мұнда, біріншіден, 6-10 жас аралығындағы бала тілінің лексикасын, морфологиясын, ал екіншіден, сол кезеңде бала тілінің қалыптасуымен дамуының негізгі көзі болып табылатын оқулықтар, көркем шығармалар тілін обьективті әдістемелер арқылы алдын ала зерттеу қажет. Мәселені шешу барысында мәтіндер бойынша жиілік сөздіктер кұру, алынған сөздікті квантитативтік - лингвистикалық талдау, сөздікті 1970-ші,1990-шы жылдардағы бастауыш сынып оқулықтары (БСО), балалар әдебиеті (БӘ) жиілік сөздіктерімен салыстыру сияқты зерттеу жұмыстары орындалды. Осы мақсатта 1992- 1995 жылдарда жарық көрген қазақ мектептерінің бастауыш сынып оқулықтары бойынша көлемі -226 374, 1998- 2004жж. жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы бойынша 267 329 сөз қолданыстан тұратын мәтіндер компютерге енгізіліп, өнделінді.

Соңғы жылдардағы мәтінді өңдеуді лингвистикалық, статистика әдістеріне қызығушылықтың пайда болуына байланысты жиілік сөздіктерді құру үлкен жауапкершілікті талап ететін мәселе болып отыр. Ол материалды таңдаудың бақылаудың және оны қандай да бір зерттелінетін белгілері бойынша реттестіріп орналастырудың арнайы әдісін ойлап табуды қажет етеді.

Жиілік сөздіктерді кұру барысында мәтінді тұтастай және таңдамалыларға бөліп зерттеу сияқты статистикалық тәжірибені ұйымдастырудың екі негізгі түрі қолданылды.

Лингвостатистикада мәтінді тұтастай зерттеу, біріншіден, бас жиынтық мейлінше үлкен болғанымен толық қамтуға мүмкіндік болғанда, екіншіден, қызықтыратын тілдік бірліктердің бәрін түгелдей қарастыру қажет болғaн жағдайда жүргізіледі. 1970-ші жылдардағы БСО, 1998-2004 жылдары жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің жиілік сөздіктерінде түгелдей қамтылған .

«Статистика речи» ғылыми тобы ұсынылған мәтіндердің лексикалық бірліктерін таңдамалыларға бөліп зерттеу барысында мәтін тұтастай талданбайды, тек алдынала іріктелініп алынған оның арнайы бөлігі ғана қамтылады. Зерттелінетін мәтін бойынша құрылған таңдамадағы сөз қолданыс саны 1000-нан кем болмауы тиіс. Материал көлемі зерттелініп білім саласы мамандарымен алдынала анықталады. 150000 сөз қолданыстан тұратын қазақ газеттерінің ( Қосымша А: Ахабаев Ә., 1973), 100 000 сөз қолданысты қамтитын БӘ жиілік сөздіктері осылайша құрылған (Қосымша А: Бектаев Қ.Б.., Молдабеков Қ., 1988).

Лингвистикалық статистикада жиілік сөздіктер жайлы мәселелер айрықша орын алады.

Қазіргі таңда әртүрлі жүздеген жиілік сөздіктер жарық көрген. Бұл сөздіктерде лингвистикалық статистиканың тіл біліміндегі ауқымды үлесін сипаттайтын құнды тілдік материалдар қамтылған.

Жиілік сөздер (ЖС) деп белгілі бір тілдік құбылыстың мәтіндегі, магнитофон таспасындағы, сауалнамалық сұрақтар жиынтығындағы кездесу жиілігімен берілген реттелген тізімін айтады. Кездесу жиілігі санмен көрсетіледі. Мұндай сөздіктерді құрудағы мақсат мейлінше ауқымды.

Мәтіндерді квантитативтік зерттеу барысында, алдымен, талдау бірлігін тағайындау қажеттігі туындайды. Зерттеу мақсатына қарай мұндай бірлік ретінде әріптер, фонемалар , сөз тұлғалары, сөздер, сөз тіркестері, сөйлемдер мен мәтін алынуы мүмкін.

Лексикостатистикалық жұмыстарда талдау бірлігі ретінде сөз тұлғалары, кейде сөз (лексема) қолданылуы мүмкін. Сөз тұлғалары мен сөздер сөз қолданыстардың негізінде алынады.

Сөз қолданыс деп бос орындармен шектелген әріптер тізбеген айтады. Басқаша айтқанда , сөз қолданыстар саны зерттелінетін мәтін көлсмін береді. Бір - бірімен дәл беттесетін сөз қолданыстар сөз тұлғаларын құрайды. Ал лексикалық жағынан өзара мәндес сөз тұлғаларынан сөздер (лексемалар) алынады. Сөз тұлғасы Қ.Б.Бектаев, А.Р. Зекенова және А.Б.Белботаевтардың еңбектерінде сөз форма түрінде қолданылған [37; 38].

Сөз, сөз тұлғасы және сөз қолданыс- тілдің бір- бірімен тығыз байланысты тұрақты элементтері. Сөз- сөз тұлғасынан, сөз тұлғасы- сөз қолданыстан қай кезде де аз болады. Каханов сөздердің мәтін ішінде әр түрлі тәсілмен түрленіп, алуан түрлі формаларға ие болатындығын тұжырымдаған [38]. Ал Ә.Ахабаев пен Қ.Б. Бектаевтардың пікірінше сөз тұлғасы- «дербес немесе көмекші мағыналы сөздің түбір тұлғасы мен оған жалғанған форма тудырушы морфемалардан сан алуан көріністері» болып табылады. [39, 24-25].

Сөз - тіл білімінде зертеуші ғалымдарының ол жайлы анықтамалары пікірталас тудырып келді. Атап айтқанда, Ф.Соссюр сөзді белгілі бір үғымның мәнін түсіндіретін дыбыстық кесінді қарауды ұсынса , Г.Глисон екі бос орынмен шектелген мәтін бөлігін сөз ретінде қабылдаған [40].

Сөз - ғалымдарының пікірінше, мағына мен дыбыс бірлігінен тұратын тұлға. І.Кеңесбаев : «Сөз - дыбыстар мен мағынаның тұтастығы, ақиқат заттың, құбылыстың жиынтық атауы»- деп, сөзді ұғым тұрғысынан қарайды [41; 14]. М.Оразов сөзді мағына мен дауысталудың тарихы, әлеуметтік шартты байланысы деп үғынып, оны тарихи- әлеуметтік тұрғыдан шартты байланыс негізінде туындаған деп есептейді [42].

Ғалымдардың барлығы сөзді «дыбыстар мен мағынаның «бірлігі тұрғысынан қарастырады. Бірақ, сөз дыбыстардың тек жиынтығы емес, белгілі бір ретпен айтылған дыбыстар мен мағынаның жиынтығынан тұратын күрделі тілдік және қатысымдық тұлға. Тілтанушы ғалым Ф.Оразбаева сөздің екі түрлі компоненттен құралатындығын : оның бірі -сыртқы дыбысталу формасы, ал екіншісі- ішкі мағыналық мазмұны, мағына болатындығын тұжырымдап, мағына жоқ жерде дыбысталудың да өздігінен сөз бола алмайтындығын алға тартады. [43]. Біз зерттеу барысында ғалымның осы қағидасын басшылыққа алдық. Өзіндік дыбысталу формасына ие, мағыналы сөздер ғана баланың тілдік қорын молайтуға игі ықпал етері анық.

Орыстың белгілі лингвист- ғалымы П.А. Алексеев квантитативтік зерттеулердің негізін құратын жиілік сөздерді мазмұнына қарай келесі топтарға жіктейді.

Сөздік материалының орналасу реті бойынша кұрылған жиілік сөздіктер. Бұл топқа жататын сөздіктерде зерттелетін тілдік құбылыс кездесу жиілігі бойынша кему ретімен орналасады. Кейбір сөздіктерде тілдік құбылыс әрі жиілігі, әрі алфабит бойынша кему ретімен беріледі. Мысалы, Э.А.Штейнфельдтің «Частотный словарь современного русского литературного языка» сөздігі.

Сөздіктің таңдалынған аумағы бойынша кұрастырылған жиілік сөздіктер. Бұл сөздіктерде лексикалық бірліктердің тек жиі кездесетін бөлігі ғана қарастырылады. Мысалы, Э.А.ІІІтейнфельдтің сөздігінде ең төменгі жиілік 14-ке тең.

Материал көлемі бойынша құрылған жиілік сөздіктер. Сөздік көлемі зерттелінетін материалға байланысты озгеріп отыруы мүмкін. Бұған Р.Элдридждің тіл үйренушілерге арналған сөздік кітабын жатқызуға болады.

Э Торндайк пен Л.Лорждың атақты ағылшын тілі сөздігі 18 млн. сөз қолданысты қамтитын 30 000 сөзден тұрады. Лексикалық бірліктер бойынша құрылган жиілік сөздектер. Бұл сөздіктерде сөз түбір күйінде алынады. Зат есімдер атау септігінде, жекеше түрде, етістіктер- тұйық етістік түрінде беріледі. Мысалы, Қ.Б.Бектаевтың , Қ. Молдабековтің және осы жолдар иесінің дайындаған сөздіктері .

Зерттеу мақсатына қарай кейде ЛБ ретінде сөздің орнына сөз тұлғасы да алынуы мүмкін. Мұндай сөздіктерді дайындау алдынғысына қараганда анағұрлым жеңіл, әрі компьютерде автоматты түрде құрылады.

Лингвистикада алфавиттік - жиілік (АТЖ), кері- жиілік (КЖС), жиілік сөздерді (ЖС) құру басты мәселелердің біріне жатады.

Жиілік сөздердің

1) сөз тұлғаларының, сөздердің алфавиттік-жиілік сөздерді(АТЖ);

2) сөз тұлғаларының, сөздердің кері- жиілік сөздіктері (КЖС);-

3) сөз тұлғаларының, сөздердің жиілік сөздіктері (ЖС) атты түрлері кең қолданылады.

Алфавиттік - жиілік сөздіктердің үш түрін қарастыруға болады. Сөздіктердің алғашқы түрінде зерттеліп жатқан мәтіндегі әрбір сөздің жалпы қайталау жиілігі көрсетіледі (3-кесте). Газет мәтіндерінің, 1970-жж. және 1990-шы жж. БСО-лар және «Ана тілі» оқулығы мен хрестоматиясының 1998-2004 жылдары жарық көрген нұсқаларының жиілік сөздіктері бұған мысал бола алады .

Кесте 3- «Ана тілі» оқулығы мен хрестоматиясы бойынша компютерде дайындалған жекелеген сөздердің алфавиттік- жиілік сөздігінің үлгісі

Сөз	Жиілігі	Сөз	Жиілігі
АЗУ-3	7	АЙБАЛТА-3	4
АЗУЛЫ- С	2	АЙБАЛТАДАЙ-С	1
АЗЫҚ-3	34	АЙБАР-2	3
АЗЫҚ- ТҮЛІК-3	7	АЙБАР-3	9
АЗЫҚСЫЗ-Ү	4	АЙБАРЛЫ-С	1
АЗЫҚТАНДЫРУ-Е	1	АЙБАРОВ-2	2 ^%-
АЗЫН-АУЛАҚ-Ү	6	АЙБАТ-3	11 "'
АЗЫНАУ-У	3	АЙБАТТЫ-С	1
АЗЫРАҚ-Ү	5	АЙБЕРГЕНОВ-2	7 '
АЙ-7	37	АЙБИКЕ-2	1
АЙ-3	65	АЙБОЛ-2	1
АЙ-0	15	АЙБЫН-3	4
АЙ-ШАЙ-3	2	АЙБЫНДЫ-С	1
АЙБАҚ- САЙБАҚ-С	2	АЙБЫНДЫЛЫҚ-3	1
АЙБАҚТАТУ-Е	1	АЙБЫНУ	2

Бұл АТЖ-те сөздер алфавиттік ретпен орналастырылып, әрбір сөз үшін сөз табының индексі және қолдану жиілігі көрсетілген. Зат есімдер түбір түрінде, ал етістіктер болымды және болымсыз түрге келтіріліп, тұйық рай түрінде (мысалы, азынау-е,3) берілген.

Сөздіктердің екінші түрінде әр сөздің ( сөз тұлғасының) тұсында олардың орналасқан парақ нөмерлері қоса беріледі. Сөздікің мұндай түрі алфавиттік- жиілік сөздік - сөз көрсеткіш (конкорданс) деп аталады. Мысал ретінде Н.О.Османовтың Унсури жиілік сөздігін алуға болады.

Сөздіктердің үшінші түрінде алфавиттік- жиілік түсіндірме сөздік жатады. Мұндай ЖС- терде сөздердің жиіліктері мен олардың орналасқан парақ беттеріне қоса түсіндірмелері келтіріледі. Оған «Пушкин тілі сөздігі» мен «Абай тілі сөздігі» жатқызуға болады.

АЖС-тер мен ЖС-тер, әдетте, сөздерге және сөз тұлғаларына қатысты құрылады.

2 «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің лексикалық, морфологиялық және статистикалық ерекшеліктері

2.1 Кері жиілік сөздіктер

Қаңдай да бір ЖС негізінде ондағы әрбір сөзді не сөз тұлғасын соңғы әрпі бойынша алфавит ретімен орналастыруға болады. Осындай сөздіктер кері жиілік сөздіктер (КЖС)делінеді: КЖС-тердің әдістемелік қана емес,қолданбалылық және техникалық мәні де бар. Сөздік арқылы жалғаулардың кездесу жиілігін анықтауға болады. 1998-2004 жылдардағы 1 -4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы бойынша дайындалған КЖС үзіндісі 4-кестеде келтірілген.

Кесте 4- «Ана тілі» оқулығы компьютерде дайындалған сөздердің кері жиілік сөздігінің үлгісі

	Сөз
7017	АНА-3	400	109674
7018	АТА-АНА-3	54	109728
7019	ӘЙЕЛ- АНА-3	6	109734
7020	ОТАН-АНА-3	2	109736
7021	ЖЕР-АНА-3	9	109745
7022	ТАБИҒАТ-АНА-3	3	109748
7023	БҰҒАНА-3	1	109749
7024	ДАНА-3	20	109769
7025	ҚАНА-3	1	109770
7026	ЖЫРАҚАНА-3	1	109771
7027	ДОЛАНА-3	4	109775
7028	ЗАМАНА-3	4	109779
7029	ПАНА-3	20	109799
7O30	САЙ- ПАНА-3	1	109800
7031	БАСПАНА-3	5	109805

Жиілік сөздіктер. Жекелеген сөздер, сөз тұлғалары жиіліктерінің кемуіне өсуі бойынша реттелген сөздіктер рангілік- жиілік сөздік немесе жиілік сөздіктер деп аталады. 1998-2004 жылдардағы 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы бойынша дайындалған ЖС –нің үзіндісі 5кестеде келтірілген:

Кесте 5-«Ана тілі» оқулығы мен хрестоматиясы бойынша компьютерде дайындалған сөздердің жиілік сөздігінің ститистикалық сипаттамалары

	Сөз

1	2	3	4	5	6	7	8
1	ДЕУ-Е	5853	5853	0,02189	0,02189	0,12071	0,12071
2	БОЛУ-Е	4032	9885	0,01508	0,03698	0,09126	0,21197

3	ОЛ- М	3070	12955	0,01148	0,048846	0,07401	0,28598
4	Е-Е	2773	15728	0,01037	0,05883	0,00837	0,35435
5	КЕЛУ-Е	2725	18453	0,01019	0,06903	0,06744	0,42179
6	ДА-Ш	2303	20756	0,00861	0,07764	0,05909	0,40888
7	БАЛА-3	2222	22978	0,0083 1	0,08595	0,05744	0,53832
8	БІР-А	2080	25058	0,00778	0,09373	0,05451	0,59283
9	БЕРУ-Е	1975	27033	0,00739	0,101 12	0,05231	0,64514
10	ӨЗ-М	1955	28988	0,00731	0,10844	0,05189	0,69703
11	МЕН-М	1823	308! 1	0,00682	0,1 1525	0,04907	0,74610
12	ТҰРУ-М	1698	32509	0,00635	0,12161	0,04636	0,79246
13	АЛУ-Е	1692	34201	0,00633	0,12794	0,04623	0,83869
14	СӨЗ-З	1684	35885	0,00630	0,13424	0,04605	0,88434
15	ДЕ-Ш	1581	37466	0,00591	0,14015	0,04377	0,92851

Мұндағы 3-бағанда сөздердің абсолюттік жиілігі (Ғ), 4-бағанда абсолюттік жиіліктердің жиынтығы (Ғ), -бағанда салыстырмалы жиілік (Ғ),-бағанда салыстырмалы жиіліктердің жиынтығы (Ғ), 7-бағанда орташа синтаксистік ақпарат (Н), 8-бағанда орташа синтаксистік ақпараттар жиынтығы (Н) берілген.

Салыстырмалы жиілік абсолюттік жиіліктің (Ғ), таңдама көлемі (N) қатынасын білдіреді, яғни:

Ғ-сөздердің салыстырмалы жиіліктерінің жиынтығы келесі формуламен анықталады:

Ол ЖС-нің алғашқысынан і-шісіне дейінгі лексикалык бірліктерінің бүкіл мәтінге қатысты арақатынасын білдіреді. Осы статистикалық сипаттамалар сөздердің ақпараттық сипаттамаларын да есептеуге мүмкіндік береді (7-8 бағандар).

Қандай да бір сөзге сай орташа синтаксистік ақпарат бірлікті құрайды.

Бірінші сөзден бастап, к-ші сөзге дейінгі ақпараттардың қосындысы к-ші сөзге қатысты жинақталған ақпаратты береді:

Жиілік сөздіктердің жалпы жинақталған ақпараты есептелінеді. Мұндағы, п- лексикалық бірліктердің жалпы саны.

4-8 бағандардағы сандық мәліметтер MS ExceL қолданбалы бағдарламасы арқылы автоматты түрде есептелді.Сөздіктің жекелеген аймақтары синтаксистік ақпаратының жинақталған синтаксистік ақпаратқа қатысты мөлшері формуласымен өрнектелінеді. Мұндағы, к - сөздіктің қарастырылып отырған бөлігінің төменнен шектелген лексикалық бірлігінің нөмірі. Жиілік сөздіктегі ол есімдігінің статистикалық және ақпараттық сипаттамалары төмендегіше есептелінеді.Жиілік сөздіктің жинақталған ақпараты 15493 сөздің әрқайсысының орташа синтаксистік ақпараттарының қосындысынан тұратындықтан, 10,97854-ке тең.Үнді-еуропалық және түркі тілдері үшін ЖС-нін статистикалык және ақпараттық көрсеткіштері Қ.Б.Бектаевтың еңбектерінде [20], 1998 – 2004 жж. жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы ЖС-тері үшін 6 кестеде көрсетілген

Кесте 6 – «Ана тілі» оқулығы мен хрестоматиясындағы сөздердің жиілік сөздіктерінің статистикалық және ақпараттық сипаттамалары

i	m	F	F*	f	f *	H	H*	p	p*
1	2	3	4	5	6	7	8	9	10
1	2	5853	5853	0,02189	0,02189	0,12071	0,12071	0,01100	0,02135
2	1	4032	9885	0,01508	0,03698	0,09126	0,21197	0,01931	0,01463
3	1	3070	12955	0,01148	0,04846	0,07401	0,28598	0,02605	0,01109
4	1	2773	15728	0,01037	0,05865	0,06837	0,35435	0,03228	0,00982
5	1	2725	18453	0,01019	0,06903	0,06744	0,42179	0,04380	0,00827
6	1	2303	20756	0,00861	0,07764	0,05909	0,48088	0,04903	0,00797
7	1	2222	22978	0,00831	0,08595	0,05744	0,53832	0,05400	0,00745
8	1	2080	25058	0,00778	0,09373	0,05451	0,59283	0,05876	0,00707
9	1	1975	27033	0,00739	0,10112	0,05231	0,64515	0,06349	0,00700
10	1	1955	28988	0,00731	0,10844	0,05189	0,69703	0,06796	0,00651
11	1	1823	30811	0,00682	0,11525	0,04907	0,74610	0,07218	0,00606
12	1	1698	32509	0,00635	0,12161	0,04636	0,79246	0,07639	0,00604
13	1	1692	34201	0,00633	0,12794	0,04623	0,83836	0,08059	0,00601
14	1	1984	35885	0,00630	0,13424	0,04605	0,88474	0,08458	0,00563
15	1	1581	37466	0,00591	0,14015	0,04377	0,92458	0,08842	0,00537
16	1	1509	38975	0,00564	0,14579	0,04216	0,97067	0,08842	0,00594

Мұндағы

i- сөздің рангісі (нөмірі), m – сөздің жиілігінің қайталану саны, f – сөздің абсолюттік жиілігі;

F* - жинақталған абсолюттік жиілік, F – сөздің салыстырмалы жиілігі, f * - жинақталған салыстырмалы жиілік;

H- синтаксистік ақпарат (энтропия);

H*- жинақталған синтаксистік ақпарат;

p – жинақталған синтаксистік ақпараттың синтаксистік ақпаратқа қатынасы арқылы анықталатын «ақпараттық салмақ»

p *- әрбір сөздің төменгі және жоғарғы сенімділік ықтималдықтары.

Модельдеу әдісі бойынша анықталған теориялық мәліметтердің алдын ала алынған тәжірибелік нәтижелерге жақындық дәрежесін бағалау қажеттігі туындайды. Мұнда арнайы іс-әрекеттер тізбегі қолданады. Бағалау үшін ықтималдықтың бастапқы мәні 1% және 5% деп, ал оларға сай сенімділік ықтималдықтары бастапқы мәні 99% және 95% ретінде алынады. Параметрлерді бағалаудың дәлдігі мен сенімділігі, бақылаудың салыстырмалы қателігін анықтау мәселелері Үлкен сандар заңы делінетін математикалық теоремалар диынтығымен сипатталады.

Лексикалық – статистикалық зерттеуіміздің нысаны ретінде жазба мәтіні қарастырылады. Мұндай мәтіннің элементі ретінде әріптер, фонемалар,силлабографтар, морфемалар, сөз тұлғалары, сөздер, сөз тіркестері, сөйлемдер және т.б. қарастырылуы мүмкін.

АЖС, КЖС және ЖС бірліктері ретінде сөз тұлғалары не сөздер алынады. Сөз тұлғаларын сөз қолданыстардан ажыратуда келесі ережелер басшылыққа алынды:

1) сызықша арқылы жазылған сөздер бір сөз тұлғасы ретінде қабылданды: айбақ-сайбақ, бағыт-бағдар, кекетіп-мұқату және т.б.

2) кейбір сөз тұлғаларының етістік, зат есім және т.б.сөз табы ретінде қолдануы мүмкіндігіне байланысты мәтінді дайындау барысында алдымен грамматикалыө омонимдер анықталып, арнайы белгілеулермен таңбаланды. Мысалы, асу-е.84, асу- з 11;

3) бірдей жиілікті сөз тұлғалары алфавит ретімен орналастырылды (7 - кесте):

Кесте 7 – сөз тұлғаларының кері жиілік сөздігінің үзіндісі

Реттік нөмірі	Сөз тұлғасы	Жиілігі
48073	ІСІНІҢ - 3	1
48074	ІСІНДЕ - 3	1
48075	ІСІҢДІ - 3	1
48076	ІСІҢНІҢ - 3	1
48077	ІСІҢІЗГЕ - 3	1

Жекелеген сөздердің АЖС, ЖС құру барысында сөз тұлғалары түгелдей таңбаланады. Сөз таптарын грамматикалық таңбалауда келесі белгілеулер жүйесі қолданылды (8 - кесте) :

Кесте 8 - Сөз таптарының грамматикалық белгілеулер жүйесі

Сөз табы	Белгіленуі	Мысалдар
Сын есім	С	Қызыл-с
Сан есім	А	Алты-а
Есімдік	М	Сен-м
Етістік	Е	Жүру-е
Үстеу	Ү	Азын-аулақ-ү
Шылау	Ш	Және-ш
Еліктеуіш сөздер	Л	Лап-л
Одағай	О	Ай-о
Модаль сөздер	Д	Керек-д
Зат есім Есім сөздер	З
* Кісі есімдері	2	Нұржан – 2
*Қысқарған сөздер	4	ҚР – 4
* Мәдени-ағарту және тұрмыстық орындар атаулары	5	Қазақстан Республикасы Ғылым Академиясы - 5
* Оқулықтар,мақалалар, ән-күй атаулары	6	«Әліппе»-6
* Географиялық атаулар	7	Алматы - 7
* Тарихи атаулар	8	Қазақ – 8
* Жануарларға қойылған атаулар	9	Ақтабан - 9

Компьютер арқылы сөздіктер дайындауда «Статистика речи» тобы құрылған әдістеме басшылыққа алынды.

Компьютер арқылы сөздіктер жасаудағы тәжірибеміз АЖС,КЖС,ЖС дайындауда ауқымды іс-әрекеттер орындалатындығын көрсетеді. Сөз тұлғаларының, сөздердің сөздіктерін құруда 1990-шы жылдары академик Қ.Б.Бектаевтың басшылығымен дайындалған және соңғы 10-15 жылда компьютерлік техниканың қарыштап байланысты, өзіміздің жасаған арнайы компьютерлік бағдарламамыз қолданылды. Жалпы, орындалатын іс-әрекеттердің мазмұнына талдау жасай отырып, оларды келесі кезеңдерге біріктіруге болады:

1 – кезең: Зерттелетін материалды дайындау.

1. Қажетті әдебиеттерді жинау.

2. Таңдаманың мөлшерін анықтау.

3. Омоним сөздерді, кісі есімдерін, қысқарған сөздерді, географиялық және тарихи атауларды, оқулықтар, мақалалар, ән-кұй, мәдени-ағарту және тұрмыстық атауларын арнайы белгілеулермен таңбалап шығу. Компьютерлік эвристикалық мүмкіндігінің шектеушілігінен әрбір мәтін алдын ала лексикалық – семантикалық өңдеуден өткізіледі. Мұнда сөз қолданыстардың ішінен лексикалық омонимдер анықталып, арнайы белгілеулермен таңбаланады. Ал әртүрлі сөздердің АЖС, ЖС – ін және КЖС – ін құру барысында сөз тұлғаларына түгелдей морфологиялық таңбалаулар жасалынады.

4. Арнайы белгілеулермен таңбаланған мәтінді сканер құрылғысы арқылы не DOS жүйесіе қатысты қарапайым мәтіндік арқылы редакторлардың бірінде компьютерге енгізу.

5.Енгізілген мәтіннң қатесін тексеру, өңдеу.

2- кезең. Жекелеген сөз қолданыстар қатарын алу.

1. 1-кезеңде алынған мәтінді LISTDIC. EXE бағдарламасы арқылы өңдеу;

2. Өңдеу нәтижесінде пайда болған #, % $ таңбаларын Edit , Multietit мәтіндік редакторларының бірінде жою.

3 – кезең.Сөз қолданыс қатарын алфавит бойынша орналастыру.

1. Файл атына. ТО типін қосу (файл аты латын әріптерімен беріліп, 8 таңбадан аспау тиіс);

2. Файлды SORT, BAT бағдарламасымен өңдеу.Нәтижеле алынған файл типі. FRO болады.

4 – кезең. Сөз тұлғаларын алфавиттік – жиілік сөздігін алу.

1. 3-кезеңде алынған файлды ABCFREQ. EXE бағдарламасымен өңдеу.

2. Нәтижені сөз тұлғаларының алфавиттік – жиілік сөздігі (АТЖ) ретінде сақтау.

5 –кезең. Сөз тұлғаларының кері жиілік сөздігін алу.

1. 4-кезеңде алынған АТЖ – ны 2 CBA__ FRQ.EXE бағдарламасымен өңдеу.

2. Нәтижені SORT, BAT бағдарламасымен өңдеу.

3. Нәтижені 2 CBA_ FRO. EXE бағдарламасымен өңдеу.

4. Нәтижені сөз тұлғаларының кері жиілік сөздігі ретінде сақтау.

6 – кезең. Сөз тұлғаларының жиілік сөздігін алу.

1. 4 –кезеңде алынған АЖС – ті FREQUE. EXE бағдарламасымен өңдеу.

2. Алынған нәтижені FRO SORT. BAT бағдарламасымен өңдеу.

3. Нәтижені сөз тұлғаларының жиілік сөздігі (ЖС) ретінде сақтау.

4. 1-6 кезеңдер бойынша кщмпьютер арқылы сөз тұлғаларының сөздіктерін алу жолдары 4 – суретте берілген.

5 – кезеңде алынған сөз тұлғаларының КЖС – ін пайдалана отырып, әрбір сөз тұлғасының түбір сөзі анықталады. Қазақ тілінде түбірге 800- ге тарта жалғаудың жекелей, кейде бірінен соң бірі қабаттасып жалғанатындығынан бұл кезең қолмен орындалады.

1. Жеке сөздерді жалғауларынан ажырату.

2. Нәтижені ABCFREQ. EXE Бағдарламасын өңдеп, сөздердің (лексемалардың) АТЖ – і ретінде сақтау.

8 – кезең. Сөздердің (лексемалардың) кері жиілік сөздігін алу.

1. 7-кезеңде алынған АТЖ – ны 2 CBA__ FRQ.EXE бағдарламасымен өңдеу.

2. Нәтижені SORT. BAT бағдарламасымен өңдеу.

3. Нәтижені 2 CBA__ FRQ.EXE бағдарламасымен өңдеу. Мәтінді сөздердің кері жиілік сөздігі ретінде сақтау.

9 – кезең. Сөздердің (лексемалардың) жиілік сөздігін алу.

1. 7-кезеңде алынған АТЖ – ны 2 CBA__ FRE QUE. EXE бағдарламасымен өңдеу.

2. Нәтижені 2 ҒRO SORT BAT бағдарламасымен өңдеу және сөздердің жиілік сөздігі ретінде сақтау.

7-9 кезеңдер бойынша компьютер арқылы сөздердің сөздіктерін алу жолдары.

1990 – шы жылдардағы БСО , 1998 – 2004 жылдардағы «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің жиілік сөздіктері жоғарыдағы алгоритм бойынша компьютер арқылы құрылды. Бұл АЖС,ЖС және КЖС және КЖС – тер 1998-2004 жылдардағы «Ана тілің» оқулығы мен хрестоматиясын, 1990 шы жылдардағы БСО-ны лингвистикалық – статистикалық және лексикалық – грамматикалық талдау нысаны ретінде қарастырылады. Дайындалған сөздіктер бойынша зерттелінетін мәтіндердің статистикалық және ақпараттық сипаттамаларын автоматты түрде есептеуге мүмкіндік бар.

Тілдік құбылыстарды зерттеуде әлі де болса заманауи компьютерлік техниканы қолдану үрдісі төмен. Өкінішке орай, түркі тілдерін зерттеуші көптеген ғалымдар жиілік сөздіктер құруда карточкалық жүйені қолдануда. Мұнда зерттелінетін мәтіннің әрбір сөзі жекелеген карточкаларға толтырылып, алфавиттік ретпен қойылған арнайы ұяшықтарға салынады. Бүкіл сөздік алу үрдісі қолмен атқарылатындықтан қыруар қағаз бен уақыт қажет етеді.

Ақпараттық лингвистикалық әдістермен зерттеуде. Берілген лингистикалық шаманың математикалық күтімінің немесе ықтималдығының орналасу аралығын (зонасын) анықтау басты мәселелерінің бірі болып табылады. Осы аралықта табудың аралықтың бағалау тәсілі делінетін түрін қарастырайық.

1. i- ші лексикалық бірліктің салыстырмалы жиілігі (10) формуламен өрнектелетіндігі белгілі.

2. Үлкен сандар заңына сәйкес f шамасы жағынан лексикалық бірліктің ықтималдығына жақын болады.

3. f –ді P – де алмастыру барысында бірқатар қателіктер пайда болғандықтан, осы қателіктің орналасу аралығы мен шамасын анықтау керек.

4. Осы мақсатта Ван дер Варденнің келесі теңсіздігін қолданған тиімді [60]:

Теңсіздіктің сол және оң жақ бөліктерін квадраттап, барлық мүшелерін сол жақ бөлікке ауыстырамыз.

Теңсіздіктің сол жақ бөлігін нөлге теңестіріп, P белгісіне қатысты квадрат теңдеуді шешеміз. Нәтижеде P мәндерін есептеуге мүмкіндік беттерін келесі формулалар алынады:

- 18) теңсіздік P< P< P жағдайында орындалады. Мұндағы P және P- i- ші лексикалық бірліктің ықтималдығының төменгі және жоғары аралықтары.

- Ықтималдықтар аралықтарының төменгі және жоғары шекаралықтары үшін салыстырмалы қателіктер келесі формулармен есептеледі.

P / P/ q және q мәндері 9 – кестеде келтірілген.

Қарастырылған жиілік сөздіктерде сөздердің ықтималдықтарының сенімділік аралықтары сөздіктердің жоғары бөлігінде мейлінше қысыңқы (тар). Сөздердің жиіліктерінің кемуіне қарай бұл аралықтар кеңейе тұсетіндігі байқалады. Сондықтан бас жиынтықтағы жиі кездесетін сөздердің ықтималдық мәндері мен олардың тәжирибе жүзінде алынған ықтималдықтарының арасындағы айырмашылық шамалы ғана болады (9 кесте).

Бас жиынтықтағы жиілігі төмен сөздердің ықтималдық мәндері эмпирикалық жиіліктер мәндерінен көбірек ауытқиды.

Осы жұмыстағы 9 – кесте мен Қ.Б.Бектаевтың зерттеу жұмыстарындағы мәліметтерді салыстыра отырып, сөздердің (сөз тұлғаларының) ЖС үшін ықтималдықтардың сенімділік аралықтары мен салыстырмалы қателіктері жайлы Қ.Б.Бектаевтың пікірінің растығына көз жеткіздік.

Кесте 9 – Жиілік сөздіктердің ықтималдықтарының сенімділік аралықтары (P) мен p - 0.95 салыстырмалы қателіктері

Жиілік сөздіктер	N	i= 100				i=500				I=1000
Жиілік сөздіктер	N	P	P	q	q	P	P	q	q	P	P	q	q
«Ана тілі » оқулығы мен хрестоматиясы (1998-2004)	267329	0,001300	0,00159	0,933	0,936	0,00025	0,00039	0,985	0,986	0,00011	0,00021	0,992	0,993
БСО (1990)	226374	0,00138	0,00170	0,111	0,100	0,00029	0,00045	0,241	0,194	0,00012	0,00023	0,372	0,271
БСО (1970)	241984	0,00142	0,00173	0,106	0,090	0,00027	0,00042	0,239	0,193	0,00011	0,00021	0,372	0,271
БӘ	97260	0,001098	0,00155	0 190	0,159	0,00021	0,00042	0,436	0,303	0,00009	0,00025	0,393	0,393

Таңдаманың жеткілікті көлемін анықтау лингвистикалық зерттеу жұмыстарын жүргізу барысында өзекті мәселелердің біріне жатады. Кез – келген тіл маманы зерттелетін тілдік құбылыс жайлы толыққанды мағлұмат алуы үшін күтілетін нәтиженің сенімділігі мен дәлдігі алдын ала тағайындалады. Көп жағдайда 95% -дық сенімділік алынады.

Мұндағы:

p – алынатын нәтиже сенімділігі;

z - мәні нәтиженің p сенімділігі бойынша анықталатын тұрақты шама.

Лингвистикада, әдетте, p мәні үшін 0,90 – 0,95 немесе 0,99 сандары алынады.

Бұл жағдайда z –ның кестелік мәндері, сәйкесінше, 1,65, 1,96 немесе 2,58 – ге тең болады.

q – салыстырмалы қателіктің мәні;

f – жиілік сөздікте жиі қолданылатын ЛБ – лер тобын төменнен шектейтін ЛБ-нің салыстырмалы жиілігі.

Таңдаманың жиілікті көлемін келесі түрде анықтауға болады.

1. Берілген лексикалық бірліктің абсолюттік таңдама көлеміне қатынасы салыстырмалы жиілікті (f) сипаттайды.

2. Шағын көлемді үшін (мысалы, көлемі 10 000 немесе 20 000 сөз қолданысы) байқаук статистикалық эксперимент жүргізіледі.

3. Эксперимент қорытындысы бойынша байқау жиілік сөздігі құрылады.

4. Байқау жиілік сөздіктерге сөздердің жиіліктерінің ықтималдықтары

p= 0.90 (0,95 немесе 0,99) болатындай және алдын ала берілген салыстырмалы қателік мәнін қанағаттандыратындай жиі кездесетін ЛБ –лер тобы таңдалады. Әдетте, салыстырмалы қателіктің мәні 0,3 -,33 шамасында болуы тиіс.

5. F мәні өте аз болған жағдайда келесі қарапайым формула қолданылады:

Эксперимент бойынша алынған f мәні 0,000115 – ке, q мәні – 0,33-ке және p мәні 0,90 – ға тең болсын. F мәні өте аз шама болғандықтан, таңдаманың қажетті көлемі (14) формуламаен есептелінеді.

Демек, жиілік ықтималдығ 0,90 салыстырмалы қателігі 0,33 және жиі кездесетін ЛБ-лердің төменгі шекарашылық мәні 0,00115 болатындай таңдама жуықтап алғанда, 22000 сөз қолданыстан тұруы тиіс.

Бірқатар теориялық және қолданбалы есептерді шешуде таңдамадағы сирек, орташа және жиі қолданылатын ЛБ-лер тобын,олардың мәтінді қамту пайызын анықтау қажеттілігі туындайды.

Осындай есептерді шешу жолы төменде келтірілген:

1. Алдымен,сирек жәнен жиі қолданылатын ЛБ-лердің төменгі шекаралығы анықталады. Жиілігі бірге және екіге тең ЛБ – лер сирек, ал жиілігі екіден жоғары болатындары жиі кездесетіндерге жатқызады. Демек, кездесу жиілігі екіге және ұшке тең болатын ЛБ-лер арасында шекаралық мәндер орналасады.

Сирек қолданылатын, яғни жиіліктері 1-ге және 2-ге тең ЛБ-лер жиілік сөздіктердің негізгі бөлігін құрайды. Қ.Б.Бектаевтың зерттеулері бойынша сирек кездесетін ЛБ-лер түрлі тілдегі жиілік сөздіктердің 60% -ын [20], біздің зерттеулерімізде 1990 жылғы БСО үшін 66%, БӘ үшін - 76% және 1998-2004 жж. жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы үшін 50,6 % екендігін көрсетті. Демек, «Атамұра»баспасынан жарық көрген «Ана тілі» оқулығы мен хрестоматиясында сирек кездесетін сөздер мейлінше аз қолданылады.

2. Мәтіннің жиі қолданылатын лексикалық бірліктермен қамтылу коэфиценті өрнегімен анықталынады. Мұндағы, N- таңдама көлемі, n (1,2) – берілген таңдамадаңы жиілігі бірге және екіге тең сирек қолданылатын ЛБ-лер саны. Мәтіннің жиі қолданылатын ЛБ-лермен қамтылу коэфиценті 10-кестенің соңғы бағанында берілген:

Кесте 10 – Сирек кездесетін сөздердің статистикалық және ақпараттық сипаттамалары

Сөздердің жиілік сөздіктері	Жанры	N	L	F=1	f, %	F<2	f(F<2) %	f%
«Ана тілі» оқулығы мен хрестоматиясы (1998-2004)	Әдеби	267329	15493	5605	36,01	7879	50,62	97,05
БСО (1990)	аралас	226374	12813	4843	37,80	8431	65,80	96,3
БСО (1970)	аралас	241984	12281	4685	38,15	8103	66,02	96,64
БӘ	аралас	97260	110668	5096	46,04	8432	76,18	91,33
Орысша (Садчикова, 1969)	Химия Полим.	107835	15847	8189	40,90	11628	73,38	89,2
Франц. (Кочеткова,1969)	Элек- торника	99994	8108	3316	38,74	4543	56,03	95,05
Румын. (Ешан,1966)	Элек-троника	199967	14292	5537	44,14	7724	54,04	96,01
Испан. (Михайлова,1972)	Радио-электрон.	200000	13507	5933	43,34	7981	59,09	96,01
Франц. (Чапля,1971)	Мұнай мен газ өңдеу	200093	11830	5127	34,29	6922	58,09	96,5
Ағылшын (Каширина,1973)	Қатты денелер физикасы	200134	8214	2814	34,21	3948	48,06	98,0

Сирек кездесетін сөздер саны зерттелетін тілдің байлығының, жазушының немесе ақынның жекелеген ерекшеліктерінің көрсеткіші екендігі белгілі. 1998-2004 жылдары жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы үшін сирек кездесетін сөздер барлық сөздердің 50,62 пайызын құрағанымен, жиі қолданылатын сөздермен қамтылу коэффициенті 97,05 % - ға тең. Қазақ БӘ (76,38 % ) мен химия сапласы бойынша орыс тіліндегі мәтіндер (73,38 %) өзгелерімен салыстырғанда анағұрлым бай тілде жазылған. Қарастырылған мәтіндердің ішінде қатты денелер физикасы бойынша ағылшын тіліндегі мәтін сирек қолданылатын сөздермен өте аз (48,06 %) қамтылған. Зерттеу барысы таңдама көлемінің ұлғаюына қарай ақпараттық және коэффициенттер мәндерінің өһсетіндігін көрсетеді.

Мәтін көлемі (сөз қолданыстар), сөз тұлғалары және сөздердің жалпы сандарының арақатынасын білудің практикалық мәні зор. Аталған тілдік бірліктер арқылы зерттелінетін мәтіннің аналитикалық және синтетикалық дәрежесін анықтау жолдары, мәтіндердің статистикалық және ақрпараттық сипаттамаларының арақатынасы келесі бөлімде қарастырылады.

Кесте 13"Ана тілі" оқулықтары сөздігі

Оқулықтар

Сыныптар

Ана тілі

1 -сынып

8910

2867

1454

Ана тілі

2-сынып

13983

4649

1926

3-сынып "Ана тілі" оқулығы (N=20857 и У=6076) үшін (29) формула бойынша есептелген

L=14 *6076^о,6=2608 саны алдын ала анықталған әртүрлі сөздер санына жақсы жуыктайды (1=2730).

Ь параметрі V және L арасындағы қатынасты айқынырақ сипаттайды.
Мысалы, L =0,6 мәні V мәні 1%-ға артқанда, L мәні шамамен алғанда 0,6%-ға
өсетіндігін көрсетеді. Осы тұрғыдан Ъ параметрін тілдің аналитизмі мен
синтетизмінің көрсеткіші ретінде қолдануға болатындығы көрінеді: b
шамасының анағұрлым үлкенірек мәндерінде берілген мәтін тілі соғұрлым
аналитикалық болады. Әртүрлі сөз тұлғаларының саны артқан сайын түрлі
сөздер саны күрт көбейеді. Салыстыру барысында қарастырылатын мәтіндер
үшін тәжірибе шарты бірдей болуы тиіс. Мысалы, сөз ретінде барлық
лексикалық-семантикалық үлгілердің жиынтығы немесе әртүрлі сөздердің
қарастырылуы алдын ала бекітілуі тиіс. Ю.Тулдава өз зерттеулерінде а және һ
параметрлерінің 500 болатындығын дәлелдеген. рактикада кейде V шамасының L-ге тәуелділігін,
яғни кері қатынасты анықтау қажеттілігі туындайды. Бұл жағдайда формула
түріне келтіріледі. Мұндағы, а = е ^ь және Осылайша,мәтіннің

көлемімен N аналитизм (L /Ү) және синтетизм (V/ L) көрсеткіштері арасындағы байланысты анықтауға болады. Б9л шамалардың арасында корреляциялық байланыс бар. Мәтін көлемі оның аналитизм және синтетизм дәрежелерінің сандық шамаларына ықпал етеді. Көлемі бірдей мәтіндердің сөздіктері олардың функциональдық және стильдік ерекшеліктеріне қатысты түрліше сипаттамалы болып келуі мүмкін. L/V қатынасы N шамасының өсуіне қарай біртіндеп кемиді, яғни бұл шамалардың арасыңдағы тәуелділік дәрежелік сипатқа ие. мұндағы, с және d-параметрлер. Сонымен, "сөз түлға-сөз" қатынасының заңдылықтарын _чбілу V және L мәндерін алдын-ала болжауға, N шамасының түрлі мәндері үшін аналитизм мен синтетизм шамаларының сандық мәндерін анықтауға мүмкіндік береді. Бұл өз кезегінде тілді типологиялық тұрғыдан зерттеуге, мәтінді автоматты түрде өңдеудің маңызды мәселелерін шешуге игі ықпал етеді. Орташа жиіліктердің (N/V) немесе N/ L өсу динамикасы мәтіннің қандай да бір бөліктеріндегі ЖС түрлі телімдерінің статистикалық және ақпараттық сипаттамаларымен тығыз байланысты. Анағұрлым жиі қолданылатын сөздердің (сөз тұлғаларының) жиынтығымен аны мәтінін акпараттық сипаттамалары, статистикалық сипаттамалар сияқты, квантитативтік типологияның маңызды шамаларының бірі ретінде қарастырылады. Мәтіннің статистикалық және ақпараттық сипаттамалары ЖС-нің соңына қарай біртіндеп өсе отырып, ақырында 100%-ды кұрайды. Бұл сипаттамалар ЖС телімдеріне, таңдама көлеміне, тілдердің түрлері мен стильдеріне қатысты өзгеріп отырады. Осы Заңдылықтардың орындалуын бақылау барысында қазақ мектептерінің бастауыш сыпып оқулықтары, БӘ мәтіндері бойынша құрылған жиілік сөздіктердің алғашқы телімі жиі қолданылатын бастапқы 100 сөзден, екінші телімі - 500, үшінші телімі - 1000, төртінші телімі - 2000, бесінші телімі 3000 сөзден тұратындай етіп бірнеше бөлікке бөлінді. Әрбір телімнің соңғы сөзіне сәйкес жинақталған жиілік бойынша салыстырмалы жинақталған жиіліктің сандық мәндері аныкталынды (1.2-бөлімдегі (20)-шы формула бойынша). Салыстырмалы жинақталған жиілік мәтіннің анағұрлым жиі қолданылатын сөздермен қамтылған телімдері жайлы әлімет алуға мүмкіндік береді (14,15-кестелер).Мәтіннің ЖС-нің телімдері бойынша ақпараттық сипаттамалары 1.2-бөлімдегі (15)-ші формуламен есептелінді.

Кесте 14 - Жиілік сөздіктердің телімдері бойынша жиі кездесетін сөздерінің статистикалық сипаттамалары

Сөздердің ЖС	жанр	N	1	1-100	1-500	1-1000	1-2000	1- зооо
"Ана тілі", "Ана тілі хрестоматия-сы" (1998-2004)	әдеби	267329	15493	35,56	60,29	71,23	81,41	86,71
БСО(1990)	арал.	226314	12813	34,84	61,70	73,94	84,49	84,49
БСО(1970)	арал.	241984	12281	38,29	65,41	76,85	86,72	86,72
БӘ	арал.	97260	11068	36,83	59,50	70,33	80,84	80,84
Орыс тілі (Штейнфельдт, 1963)	арал.	400000	24224	43,32	61,30	70,18	79,00	79,00
Поляк тілі (бешскі және т.б., 1972)	публи-цисти-ка	98317	12076	37,86	60,02	70,82 *	81,04	81,04
Неміс тілі (Мансуров, 1971)	мате-матика	187000	5520	35,00	-	64,00	75,00	75,00
Румын тілі (Ешан, 1968)	электр.	200000	5708	54,86	80,51	88,79	93,97	93,97
Ағылшын тілі Алексеев,1968	электр.	200000	7197	53,40	7540	85,00	91,00	92,14

Қазақ тіліндегі БСО, БӘ мәтіндері ЖС-теріндегі жиілігі жоғары алғашқы 100 сөз бүкіл сөз қолданыстардың 34,84-36,83%-ын, ал электроника тақырыбын қамтитын румын, ағылшын тілдерінде мұндай сөздер мәтіннің 53,40-54,86%-ын құрайды. Демеқ, бастауыш мектеп оқушылары мен тіл үйренушілер үшін жиі қолданылатын алғашқы 100 сөзді меңгерудің практикалық мәні бар. Жоғарыда қарастырылған мәтіндердің жиілік сөздіктерінің телімдері бойынша жиі кездесетін сөздермен ақпараттық қамтылуы 15-кестеде берілді.

Кесте 15 - Жиілік сөздіктердің телімдері бойынша жиі кездесетін сөздерінің ақпараттық сипаттамалары

Сөздердің жиілік сөздіктері	Жанры	N	Ь	1-100	1- 500	1-1000	1-2000	1-3000	Н*
"Ана тілі", "Ана тілі хре-стоматиясы" (1998-2004 ж)	әдеби	267329	15493	25,28	49,12	61,28	73,60	80,49	10,98
БСО(1990ж)	аралас	226374	12813	25,42	51,19	64,65	76,57	83,77	10,87
БСО(1970ж)	аралас	241984	12281	25,19	49,14	60,91	82,33	87,85	11,77
БӘ	аралас	97260	11068	27,95	52,06	64,87	78,66	86,35	10,13
Қазақ тілі (газета)	публиц	146634	12423	23,14	49,72	63,93	77,21	83,63	10,96
Орыс тілі (Засорина, 1966)	аралас	120843	14206	28,89	47,61	58,00	69,01	76,50	10,57
Поляк тілі (Бешскі және т.б.,1972)	публиц	98317	12076	25,40	47;₄.52	59,92	72,51	79,10	10,67
Парсы тілі (Османов, 1970)	аралас	46932	4824	39,64	64,91	76,75			9,09

Қазақ БСО, БӘ және кейбір тілдер мәтіндері ЖС тері түрлі телімдері статистикалық және ақпараттық сипаттамаларының өсуі туралы мәліметтерді салыстыра отырып, төмендегідей тұжырымдарды жасауға болады: ЖС-тің басынан соңына қарай мәтіннің ақпараттык сипаттамаларынын өсу қарқыны мәтіннің статистикалық сипаттамаларына қарағанда төмен болады. Керісінше, сирек кездесетін ЛБ-лердің статистикалық сипаттамалары олардың ақпараттық сипаттамаларынан кем болады. ЖС-тердің бастапқы 1-100 телімі үшін статистикалық және ақпараттық сипатамалардың аракатынасы 16- кестеде берілген.

Кесте 16 - мәтіңдердің статистикалык және ақпарат тық сипаттамаларының арақатынасы

Сөздердің жиілік сөздіктері	Жанр	N	1-100 телімі
"Ана тілі», «Ана тілі хрестоматисы» (1998-2004ж.)	Әдеби	267329	0,35	0,25
БСО(1990-жж)	Аралас	226374	0,34	0,25
БСО(1970-жж)	Аралас	241984	0,38	0,25
БӘ	Аралас	97260	0,36	0,27
Қазақ тілі («Абай жолы» романы, І-ІУкітаптар)	Роман	465748	0,25	0,16
Қарақалпақ тілі (Айымбетов)	Газет	100 000	0,23	0,15
Өзбек тілі ( Мухаммедов, 1980)	Газет	200000	0,28	0,15
Орыс тілі (Калинина, 1968)	Электроника	200896	0,32	0,21
Неміс тілі (Гаспарова, 1971)	Ауыл шарушылығы маш. жасау	100000	0,46	0,30
Румын тілі (Ешан, 1966)	Электроника	199967	0,43	0,28 .
Испан тілі (Михайлова , 1969)	радиоэлекртроника	50000	0,54	0,37
Француз тілі (Чапля, 1971)	Мұнай мен газ өндіру	200093	0,57	0,39
Ағылшын тілі (Садчикова, 1975)	Химия полимері	129286	0,51	0,35

Жалғамалы және үнді-еуропалық тілдерде зерттелінетін мәтіндердің
алғашқы 1-100 телімінде статистикалық сипаттамалары ақпараттық
сипаттамалардан 8-7%- ға артық болатындығын көреміз. Демек,
статистикалық және ақпараттық сипаттамалары арақатынасының өзгеруіне
тілі құрылымы, мәтіннің жанры әсер етпейді.

Профессор Қ.Б.Бектаев өзінің монографиясында әдеби және публистикалық мәтіндеріндегі қолданлатын ортақ лексикалардың үлестерінің азайып келе жатқандығы тұжырымдаған болатын. Біздің зерттеулеріміз жаңа сөздер мен терминдердің аясы артуына орай мәтіннің статистикалық және ақпараттық сипаттамалары қарқындарының айтарлықтай төмендегендігін көрсетті. 14-ші және 15-ші кестелердегі мәліметтерді салыстыру барысында «Ана тіл» , «Ана тілі хрестоматиясы» ( 1998-2004) мәтіндерінің статистикалық және ақпараттық сипаттамалырының мәндерінің 1970-ші жж. БСО мәтіндеріндегі мәндеріннен аз екендігі анықталады.

Кесте 17- Жиілік сөздіктердің телімдері бойынша Н* -I* шамысыныц өсу карқыны

Телім	Аралықтар	«Ана тіл», «ана тілі хрестоматиясы» (1998-2004)	БСО (1990)	БСО (1970)	БӘ
I	1-15	0,86563	0,80513	0,89759	0,04277
II	1-50	0,93671	0,86564	2,03495	2,05170
III	1-100	2,76098	2,76332	2,96470	2,83116
ІҮ	1-300	4,44459	4,55471	4,80570	4,41050
Ү	1-500	5,36462	5,56418	5,78346	5,27412
ҮІ	1-1000	6,69184	7,02695	7,16886	6,57105
ҮІІ	1-1500	7,48277	7,81560	7,96264	7,39324
ҮІІІ	1-2000	8,03812	8,32288	9,69036	7,96820
IX	1-3000	8,789992	9,10584	10,34	8,74691
X	1-4000	9,28942	9,64484	10,73413	9,26061
XI	1 -соңы	10,92545	10,86511	11,76992	10,1289

17-кесте бойынша қазақ БСО мен БӘ мәтіндерінің жинақталған ақпарат мөлшері ЖС- ті бойлап бірқалыпты осетіндігі, сөздіктің ең соңғы лексикалық бірлігінде оның ең үлкен I =Н мәнін қабылдайтындығын көрінеді (XI телім). «Ана тілі», «Ана тілі хрестоматиясы» (1998-2004ж.) мәтіндері үшін §* ақпараттық сипаттамының , мәндері бүкіл ЖС-тің бойында бірдей , тек ЖС-тің соңында ғана елеулі айырмашылыққа ие екендігі байқалады. Мұны олардың мәтіндерінің біртектес екендігімен түсіндіруге болады. Үнді—еуропалық тілдердегі сияқты жалғамалы қазақ БСО мен БӘ мәтіндерінің сипаттамалары ЖС- тің бас жағдайындағы телімдерде статистикалық сипаттама мәндерінің 9-13%-ға төмен болатындығы анықталады. (Бектаев Қ.Б., Молдабеков Қ., 1990).

6-сурет бойынша қазақ БӘ мәтіндерінің ақпараттық сиппаттама мәні өзгелерімен салыстырғанда анағұрлым төмен және сызықты үлестіруге жақын екендігін көреміз. 7-10 телімдерде БСО (1970) мәтіндерінің сипаттамалары өзгерінен жоғары. «Ана тілі», «Ана тілі хрестоматиясы» (1998-2004 ) оқулықтары мәтіндерінің сипаттамалары БӘ мәтіндерімен 1-10 телімдерге толық сәйкес келеді, тек 11 -телімде ғана шамалы ауытқу байқалады. <Бөлімде сөз қолданыстар мен сөз тұлғаларының сандары бойынша әртүрлі сөздердің (Ь) санын өсудің аллометриялық функциясы бойынша

аиалитикалық жолмен анықтау жолы қарастырылды; қазақ мектептерінің БСО-лары, БӘ және бірқатар үнді-еуропа тілдері мәтіндерінің аналитизм және ситетизм дәрежелері өзара салыстырылып, олардың ұқсастықтары мен өзгешеліктеріне талдау жасалды; қазақ мектептерінің БСО-лары, БӘ және бірқатар үнді-еуропа тілдері ЖС-терінің телімдері бойынша жиі кездесетін сөздердің статистикалық және ақпараттық сипаттамалары есептеліп, олардың арақатынасы жайлы тұжырымдар жасалынды.

ҚОРЫТЫНДЫ

Жұмыста 1998-2004 жылдардағы 1-4 сыиып «Ана тілі» оқулығы мен
хрсетоматиясының мәтіндеріне лексикалық - статистикалык және

ақпараттық- статистикалық тұрғыдан зерттеулер жасалынды Қазіргі замандағы компьютерлік техникаға негізделген обьективтік әдіс арқылы зерттеу мақсаты, бір жағынан, «Ана тілі» оқулығы мен хрестоматиясының жалпы ақпараттық- статистикалық сипаттамаларын аныктаудан, оларды, 1970-ші, 1990-шы жылдардағы БСО, БӘ бойынша алынған мәліметтердең салыстырудан тұрады. Екінші жағынан, «Ана тілі» оқулығы мен хрестоматиясының мәтіндері стилистикалық және статистикалық түрғыдан зерттелініп, 1970-ші, 1990-шы жылдардағы БСО, БӘ бойынша алынған мәліметтермен салыстырылды.

Статистикалық бақылаулар жүргізу барысында зерттеу мақсатына сай тілдік құбылыстардьщ бірқатар статистикалық сипаттамаларын толық анықтау қажет етіледі. Айтап айтқанда:

-бүкіл зерттеу барысында өзгермейтіндей есептеу бірлігі тағайындылап, бақылау нәтижесінде алынған статистикалық мәліметтер бойынша вариациялық қатарлар жэне оларға сәйкес кестелер құрылуы керек;

-эмпирикалық үлестірудің нормаль үлестіруге жақындығы тексерілуі керек;

-тілдік жүйенің өзгерісін зерттеуде өсудің (кемудің) орташа коэффицентін қолдану керек;

-тілдік құбылыстың үлестірілуіне қатысты мәтіндер- біртекті болуы шарт. Бұл жағдайда екі вариациялық қатардың орташа квадраттық мәндері немесе дисперсиялары салыстырылады;

-статистикалық зерттеу барысында алынған шамаларды салыстыруда «Хи-квадрат» критерийін қолдану керек. Мұнда зерттелетін тілдік құбылыстар арасындағы тәуелділікті анықтауда алдымен байланыс түріне, соңынан корреляция коэффициентіне сай формуланы таңдау қажет.

Компьютер арқылы сөздіктер құрастырудағы тәжірибеміз АЖС, КЖС, ЖС дайындауда ауқымды іс-әрекеттер орындалатын іс-әрекеттердің мазмұнына талдау жасалыньш, келесі кезеңдергебіріктірілді:

1. Зерттелінетін материалды дайындау

2. Жекелеген сөз қолданыстар қатарын алу.

3. Сөзқолданыс қатарын алфавит бойынша орналастыру.

4. Сөз тұлғаларының алфавитті-жиілік сөздігін алу.

5. Сөз тұлғаларының кері жиілік сөздігін алу.

6. Сөз тұлғаларының жиілік сөздігін алу.

7. Сөздердің (лексемалардың) алфавитті-жиілік сөздігін алу.

8. Сөздердің (лексемалардың) кері жиілік сөздігін алу.

9. Сөздердің (лексемалардың) жиілік сөздігін алу.

1-9 кезеңдердің әрқайсысына компьтерлік бағдарламаның ерекшеліктеріне сай орындалуы тиіс іс-әрекеттер тізімі сараланып көрсетілді. Сөз тұлғаларының кері жиілік сөздігінен түбір сөздерді ажыратуда, қазақ тіліндегі түбір сөздерге 800-ге тарта жағалаудып жекелен және бірінен кейін бірі қабаттасып жалғануы мүмкіндігінен, 7-кезеңнің қолмен орындалатындығына тәжірибе барысында көз жеткізілді. Бұл кезеңнің де компьтерлік бағдарламалар арқылы орындалатын күні алыс емес: ол үшін қазақтың барлық сөз тұлғалары, сөздерге жекелей және қабаттаса жалғанатын жалғаулары түгелімен компьютерге енгізіліп, электрондык қор жасалынуы тиіс.

Компьютер арқылы жүргізілген квантитахивтік-ақпараттық тәжірибе барысында 1970-ші және 1990-шы жылдардағы БСО, 1998-2004 жылдардағы 1- 4 сыныптарға арналған «Ана тілі» оқулығы мен хрсетоматиясы мәтіндерінің ұқсастығы анықталған. Бұл ұқсастық,бірінші кезекте, сәйкес синтетизм коэфиценттерінің жақындығымен және әрбір сөзге келетін синтаксистік ақпарат мөлшерімен сипатталады. 1970ші жылдардағы БСО үшін синтетизм коэффиценттерінің мәні 3,13-ке, ал 1990-шы жылдардағы БСО үшін 3,11-ге, соңғы жылдардағы «Ана тілі» оқулығы мен хрестоматиясы үшін 3,10-ға тең, ал орташа синтаксистік ақпарат мөлшері, сәйкесінше, 10,87,11,77 және 10,92 е.б.тең.

Жүргізілген ақпараттық-статистикалық тәжірибелер бойыпша зерттелінген мәтіндердің арасындағы бірқатар типологиялық критерийлер анықталды:

1) Жиілік сөздіктердегі сөздердің жиіліктерінің кему ретіне қарай, олардың статистикалық және ақпараттық сипаттамаларының өсу қарқындарының арасында алшақтық байқалады.

2) Қазақ тіліндегі мәтіндер үшін сөз тұлғалары мен сөз қолданыстарының алдын ала берілген саны бойынша, аналитикалық жолмен, L^аУ⁶ (мұндағы, а және b- параметрлер) формуласы бойынша сөздік көлемін анықтауға болады;

3) «Ана тілі» оқулығы мен хрестоматиясы, 1970-ші және 1990-шы жылдардағы оқулықтары мәтіндеріндегі сөздердің орташа жиіліктері БӘ мәтіндерін салыстырғанда 2 есе аз.

4) таңдама көлемінің үлғайюына қарай мәтіннің лексикалық бірліктермен қамтылуы да арта түседі.

5) 1998-2004 жылдардағы 1-4 сынып «Ана тіл» оқулығы мен хрестоматиясының, 1990-шы жылдардағы БСО мәтіндерімен салыстырғанда статистикалық және ақпараттық өсу қарқынының кемуі байқалады.

6) Зерттеу барысында «Ана тілі» оқулығы мен хрестоматиясы,1970-ші, 1990-шы жылдардағы БСО, БӘ мәтіндері сөздерінің жиілік сөздіктері Ципф заңымен модельденді. Ципф заңының кез келген мәтіннің статистикалық құралымен өлшеудің біртұтас құралы болып табылатындығына тәжірибе барысында көз жеткізілді. Мәтіндегі сөздердің рангілік үлестірілуі Ципф заңының негізгі үлгісімен, яғни теріс дәреже көрсеткіші қарапайым дәрежелік функция түріндегі Ципф-Мандельброт заңымен сипатталды. Зерттелінген қазақ тіліндегі мәтіндердің ЖС-тері үшін Ципф заңы орындалуының шарты ретінде сөздердің үлестірілуінің орта тұсындағы «сызықтылығын» алуға болады (билогарифмдік координаттар жүйесі үшін). (Сөздіктің бас және соңғы бөліктерінде ауытқулар мәтіннің статистикалық жағынан ұйымдастырылуының динамикалык сипатымен түсіндіріледі де, олар мәтіннің жиіліктік құрылымының жалпы моделінің құрамына енеді. Корреляциялық талдау арқылы сөздердің рангілері мен жиіліктерінің арасында және екі түрлі жағдайда есептелінген Ципф тәуелділігінің үк және үf параметрлері арасында күшті байланыс бар екендігі анықталды. Байланыс ең кіші квадраттар әдісімен және түзу сызықты регрессияның коэффициенттері арқылы есептеледі.

Жалғамалы тілдерді флективтік үнді-еуропалық тілдерге қарсы қоятын типологиялық критерий қызметін атқаратын В параметрінің 2,80-7,90 аралығында мәндер қабылдайтындығы анықталды.

Үнді-еуропалық тілдер үшін ЖС-тер бойынша Ципф заңына байланысты тұжырымдар, негізінен, қазақ тіліндегі мәтіндерге де, атап айтқанда, «Ана тілі» оқулығы мен хрестоматиясының, 1970-ші 1990-шы жылдардағы БСО, БӘ мәтіндері үшін де жарамды. Олар:

1) мәтін көлемі неғұрлым үлкейген сайын, орташа және аз жиілікті сөздер аймағында ақпараттық және статистикалық сипаттамалар мәні азая түседі;

2) ықтимал сөздіктерге арналған Ципф-Мандельброт формуласын «Ана тілі» оқулығы мен хрестоматиясы,1970-ші 1990-шы жылдардағы БСО,БӘ мәтіндерінің сөздіктері үшін де қолдануға болады;

3) таңдама көлемінің өсуінің қарай билогарифмдік масштабта рангілік үлестірудің бастапқы және соңғы бөліктерінде Сызықтык тәуелділіктен ауытқушылық байқалады. «Ана тілі» оқулығы мен хрестоматиясы мәтіндерінің көлемі өзгелерімен салыстырғанда үлкен болғандықтан, ауытқу мәні де басқаларынан анағұрлым үлкен;

4) Ципф заңының ү параметрі мәтін бойынша құрастырған ЖС-тің әртүрлі аймақтарында түрліше мәндер қабылдайды. Бұған жұмыста қарастырылған қазақ тіліндегі мәтіндер үшін Ципф формуласы және корреляциялық талдау бойынша есептелген у мәндері айғақ бола алады;

5) Сөздердің ЖС-тері бойынша есептелген г корреляциялык коэффиценттерінің орташа арифметикалық мәні сөздердің жиіліктері мен реттік нөмірлерінің арасындағы күшті кері байланыс екендігін растайды. Атап айтқанда, коэффицент мәні «Ана тілі» оқулығы мен хрестоматиясы үшін (-0,983)-ке, 1970-ші жылдардағы БСО үшін (-0,983)-ке, 1990-шы жылдардағы БСО үшін (-0,981)-ге жэне БӘ мәтіндері үшін (-0,984)-ге тең.Мәтіндердің морфологиялық ерекшеліктерін жүйелі-квантитативтік талдау барысы «Ана тілі» оқулығы мен хрестоматиясы,1970,1990-шы жылдардағы БСО, БӘ мэтіндерінің жалпы түркілік гармматикалык реттілікті сақтайтындығын көрсетті. Қазақ тіліндегі түбір сөздерге жалғаулар мен олардың комбинацияларының жалғануы қарақалпақ тілімен сай келеді.

«Ана тілі» оқулығы мен хрестоматиясы,1970,1990-шы жылдардағы БСО мәтіндері жиілік сөздіктеріне сөздердің сөз таптары бойынша қолдануы, жалпы алғанда, бірдей. Қарастырылған сөздіктердің сөз таптары бойынша сызықтық үлестірілуінде сан есімдер БСО-ларда «Ана тілі» оқулығы мен хрестоматиясы 9-шы және БӘ-де 10-шы орында. БСО мәтіндерінде сан есімдердің кездесу жоғарылығын олардың құрамына математика оқулығының енетіндігімен түсіндіруге болады.

Зерттеу нәтижелері «Ана тілі» оқулығы мен хрестоматиясы ЖШ-інде _Зат есімнің (45,31%), етістіктің (29,01%),сын есімнің (17,83%) және үстеудің (3,38%) үлес салмағының өзге сөз таптарымен өзге сөз таптарымен салыстырғанда басымдылығын көрсетті. Одағайдың (0,90%) шылаудың (0,63%), сан есімнің (0,46%) және модаль сөздердің (0,16%) аз қолданылуына байланысты,олардың реттік орын тәртіптері жайлы қазір нақтылы пікір айтуға болмайтындығына қол жеткіздік. Оқулықтарда жалқы есімдер зат есім сөздердің 30,93%)-ын құрайтындығы, олардың ішінде кісі есімдері (20,69%) мен жер-су атауларын (5,31%) өзге жалқы есімдерден әлдеқайда көп қолданыс тапқаны анықталды. Аталған жалқы есімдер санның басымдылығы 1970 ші, 1990-шы жылдардағы БСО және БӘ мәтіндеріне де тән.

«Ана тілі» оқулығы мен хрестоматиясы, 1970-ші,1990-шы жылдардағы БСО,БӘ мәтіндері бойынша құрастырылған ортақ сөздіктегі 67 создің сөз таптары бойынша лингвистикалық табиғатына талдау жүргізілді. Олар жөнінде бірқатар тұжырымдар жасауға болады:

1. БСО құрастырушылар мен БӘ жазушыларының да,де,мен ал,үшін, ма
сияқты шылауларды жиі қолдануы қазақ тілінде толық мағыналы сөздердің
синтаксистік қатынасқа түсу барысында қызметші сөздерді «жиі

пайдаланатындығын» айғақтайды.

2.Ортақ сөздіктегі е,де,болу етістіктерінің қолдануы дәрежесі жоғары.

З.Ортақ сөздіктегі есімдіктердің жиілігінің жоғарылығы олардың кез келген атау тұлғалы сөздерді алмастыра алушылығымен, сөйлемнің әрі тұрлаулы, _Әрі тұрлаусыз мүшелері қызметін атқара аларлықтай әмбебаптылығымен түсіндіріледі.

4.Жоғары жиілікті сөздердің күрамында жоқ және бар сияқты модаль сөздердің кездесуін кейде атаулы сөз табы қызметін, кейде етістік қызметін, ал синтаксистік тұрғыдан алғанда сөйлемнің дербес мүшесі қызметін де атқаратындығымен түсіндіруге болады.

5. Ортақ сөздік құрамына тек ең атты қүшейткіш үстеуі ғана енген. Енді (514),сонда (379) үстеулерінің жиіліктері жоғары болғанымен,өзге сөздіктерде аз қолданылғандықтан ортақ сөздікке енгізілмеді.

6. Ортақ сөздік құрамындағы жиілігі жоғары жақсы,қара,көп және ақ сапалық сын есімдері нәрселер мен құбылыстардың бір-бірінен ажыратқыш белгілерін сипаттайды қасиетімен ерекшеленеді.

7.3ат есімдерден жиілігі жоғары сездер ретінде ортақ создіктің құрамына енгендері мыналар: жер, су, күн, үй, адам, көз, құс, жол, бас, ел, қол, бет,сөз жақ, іш, ағаш және дала.

8.Ортақ сөздің құрамына тек бір және екі сан есімдері ғана енді.Бір сөзі қазақ тілінде және жалпы түркі тілдерінде өзінің бастапқы семантикасын толық Және жартылай сақтай отырып,түрлі жағдайларда,ал екі сөзі мәтін ішінде тек сан есім күйінде ғана колданылады.

Зат есімдерге жалғанатын жалғаулардың форма-үлгілері бойынша Н+С, Н+C+C және Н+T жалғауы зат есімдердің қолданылу аясының жоғары екендігі көрінеді, Атап айтқанда, септік жалғаулы, тәуелдік жалғаулы, тәуелдік және септік жалғаулары кабаттаса жалғанған зат есімдер «Ана тіл» оқулығы мен хрестоматиясында жалғаулы зат есімдердің 84,34%-ын,1990-шы жылы. БСО ларда 76,80%-ын, 1970-ші жж. БСО-ларда - 76,64%-ын, БӘ мәтіндерінде- 77,23%-ын құрайды. Демек, жүргізілген зерттеу нәтижелері бойынша оқулық құрастырушылар мен балалар жазушылырының септік жалғаулы, тәуелдік жалғаулы, тәуелдік және септік жалғаулары қабаттаса жалғанған зат есімдердің қазақ тілінде басым қолданатындығы жайлы қағиданы назарда ұстаулары керек деп айтуға негіз бар.

І.О.Тулдаваның ұсынған мәтінің қиындығын анықтаудың әмбебап әдісін қазақ мектептерінің БСО мәтіндеріне қолдану барысы бұл әдістің күрделі талдау жұмыстарын талап етпейтіндігін көрсетті. Демек қазақ тіліндегі мәтіндердің объективті қиындықтарын анықтауда бұл әдісті қолдануға болады. Мұнда, қазақ тіліндегі мәтіндердің объективтік қиындықтарының үнді-еуропалық тілдердегі мәтіндердің қиындықтарынан анағұрлым жоғары болатындығына қол жеткіздік.

«Ана тілі» оқулығы мен хрестоматиясы,1970-ші, 1990-шы жылдардағы БСО, БӘ мәтіндері сөздерінің жиілік сөздіктерін салыстыруда тізбектердің қос жұбы рангілерінің арасындағы байланыс Спирменнің рангілік корреляция коэффициенті бойынша анықталды.

«Ана тілі» оқулығы мен хрестоматиясы жиілік сөздігінің 15493 әртүрлі сөзден және жиілігі екіден жоғары 7614 сөзден құралғандығы есептелінді. Кез келген мәтінде жиі қолданылатын сөздердің кішігірім тобына сөз қолданыстардың үлкен саны сәйкестендірілетіндіктен, есептеу барысында-«Ана тілі» оқулығы мен хрестоматиясында жиілілігі жоғары 200 сөз бүкіл мәтіннің 45,79%-ын құрайтындығына көз жеткізілді. «Ана тілі» оқулығы мен хрестоматиясы, 1970-ші,1990-шы жылдардағы > БСО сөздерінің жиілік сөздерінің ортақ бөлігіне жиілігі р>0,001 болатын 1 мен 242 аралығында жатқан жиі қолданылған сөздер енгендіктен, ЖС-тің шағын ғана бөлігіне жүргізілген зерттеу нәтижелерін бүкіл мәтін үшін жалпылауға мүмкіндік бар.

«1-4 сынып «Ана тілі» оқулығы мен хрестоматиясы,1970-ші,1990-шы
жылдардағы БСО және БӘ мәтіндері сөздерінің ортақ бөлігі» мен 1970-ші және
1990-шы жылдардағы БСО жиілік мәтіндері сөздерінің ортақ бөлігі» енетін
сөздердің рангілеріне жүргізілген статистикалық талдау нәтижелері жиі
қолданылатын сөздерге қарағанда анағұрлым сирек пайдаланылатын сөздердің
аз корреляцияланатындығын көрсетті.

Кірме сөздердің құрамына жасалған талдау барысында оқулықтарға өзге тілдерден енген кірме есімдердің жиі қолданылатындығы анықталды. Бұл -оқулықтарда шығыс халықтарының ауыз әдебиеті туындылары кеңінен пайдаланылғандығын айғақтайды. Кісі есімдері жиіліктерінің жоғарылығы

Сәйкес ертегі, әңгімелер көлемдерінің шамадан тыс үлкендігін білдіреді. Бұл сөз кезегінде бастауыш мектеп оқушыларының тақырыпты игеруін кері әсерін тигізері анық. Зерттеу барысында оқулықтардағы қазақтың кейбір сөздерінің бұрмаланып қолданып, кейбір табиғат құбылысына қатысты деректердің қате берілген жағдайлары кездесті.

Қазақ мектебінің бастауыш сынып оқулықтарында кездесетін кірме сөздер жөнінде келесі тұжырымдар жасауға болады:

- кірме сөздердің құрамдарына талдау жасалынып, бір жүйеге келтірілуі»
тиіс;

- кейбір кірме сөздерді тіліміздің ерекшеліктеріне сай фонетикалық жағынан өзгертіп, пайдалану керек;

- қазақ тілінде аудармалары бола тұрып, енгізілген кірме сөздерді қолданыстан алып тастау керек;

- оқулықтар мәтіндерінде, әсіресе, математика оқулығында мәселе есептер құрастыруда қазақтың кісі есімдерін пайдалану керек;

- оқулықтардағы қазақтың төл сөздерінің бұрмаланбауын қадағалау керек;

- өзге халықтарының ауыз әдебиеті туындыларының көлкемдерін шағындап беру керек;

Бала бойында білім негізі кіші кезден қалыптасатындықтан, БСО тілі мен мазмұны баланың психологиялық және физиологиялық еркешеліктеріне қойылатын талаптарды қанағаттандыруы тиіс.

Сонымен,зерттеу барысында қойылған міндеттер орындалды: қазақ тіліндегі мәтіндерді зерттеуде лингвистикалық статистика элементтерін қолданудың жолдары анықталды; компьютерлік бағдарламалар арқылы жиілік сөздіктер құрастырудың кезеңдері (алгоритмін) айқындалып, алфавиттік-жиілік сөздік (АЖС), жиілік сөздік (ЖС) және кері жиілік сөздік (КЖС) құру мақсатында квантитативтік тәжірибе жүргізілді;

1998-2004 жж.жарық көрген 1-4 сыныптарға арналған «Ана тілі» оқулығы мен хрестоматиясы лексикасының негізгі квантитативтік-кұрылымдық заңдылықтары анықталды;

«Ана тілі» оқулығы мен хрестоматиясы мәтіндері Ципф тәуелділігі бойынша модельденіп, олардың морфологиялық құрылымының квантитативтік сипаттамалары анықталды;

Зерттелінетін мәтіндердегі жалғаулардың құрамына статистикалық талдау жасалынды және БСО мәтіндерінің объективтик қиындығы анықталып, алынған нәтижелер бірқатар үнді-еуропа тілдері бойынша өлшеу нәтижелерімен салыстырылды.

ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР

I Бектаев К. Б. Статистико-информационная типология тюрқского текста. Ленинградское отделение ИЯ АН СССР: автореф. ... па соиск. учен. степени докт. фил. наук. -Ленинград, 1975.

2. Балақаев М. Қазақ тіл білімінің мәселелері. -Алматы, 1965.

3. Жұбанов А.Х. Статистические исследования казахского текста с
применением ЭВМ. На материале романа М.Ауэзова "Абай жолы": автореф...
капд. фил. наук. - Алматы, 1973. - 37 с.

4. Байтанаева Д.А. Информационные характеристики казахского текста.
Алма-Ата, 1985.-С. 18.

5. Арғынов X. Қазақ тілі программасы мен оқулығын жетілдіру жайында.
-Алматы. 1965.-132 6.

6. Хасенова А.Қ. Етістіктің лексика-грамматикалық сипаты. - Алматы:
Ғылым, 1971.-226 6.

7.Мырзабеков С. Қазіргі қазақ тіліндегі етістіктің кұрылымына
статистика-лингвистикалық талдау (М.О.Әуезовтің "Абай жолы" романы
бойынша): филол. ғыл. канд. диссерт.қолжазб. - Алматы, 1973. - 180 б.

8. Белботаев А.Б. Қазақ тіліндегі жалғаулар және олардың құрылымдық

формалары туралы // Қоғамдық ғылымдар бойынша жас ғалымдардың респ.
ғыл.-теор. конф.материалд. -Алматы, 1978. 181-183 б.

9.Алдабергенова К.К., Белботаев А. Статистическое исследование
морфологической структуры иноязычных слов, вошедших в произведения
М.Ауэзова через русский язык // Материалы семинара "Статистическая
оптимизация преподавания языков и инженерная лингвистика". -Чимкент, 1980.
С. 149-150.

10. Зекенова А. М.О.Әуезов пьесаларындагы есім сөздердің
морфологиялық құрылысы жайында. //Известия АН КазССР. Сер. филол. 1976.
-С.56-62.

11. Малбаков М. История казахской лексикографии (II половина XVIII в. -1917 г.): автореф.... канд. филол. наук: 10.02.06. -Алматы, 1992.-29 с.

12. Ибрагимов Т.И. Некоторые статистические данные о слогах татарского языка// Вероятностные методы и кибернетика.: в сб. Учен. зап. Казанского ун-та. Вып. 4. Т.25, кн. 6. -Казанский ун-ет, 1966. -С.74-78.

13. Ризаев С.А. К вопросу 0 частотности.двухфонемных сочетаний в современном узбекском литературном языке // Опыт экспериментального и структурного изучения языка. -Ташкент, 1982. -С.45-92.

14. Курбанов Т.И. Публицистический стиль современного узбекского литературного языка: автореф. ... канд. филол. наук: 10.02.02. -Ташкент, 1987.-22 с.

15. Мұсаходжаев С.У. Лингвостатистический анализ узбекского научно-
технического текста и терминологии подъязыка электротехники и электроники:
автореф. ... канд. филол. наук: 10.02.02. - Ташкент, 1986. -17 с.

16. Рахманов Д.А. Статистико-дистрибутивный анализ азербайджанского текста (на уровне графем и фонем): автореф. ... капд. фил, иаук: 10.02.06, 10.02.21.-Баку, 1988.-23 с.

17. Ибрагимов С.И. Некоторые статистические характеристики имен
существительных киргизского языка // Статистическое и » информационное
изучеиие тюркских языков. Тезисы докл. и сообщ. всесоюзн. семин. -Алма-Ата,
1969.-С.34-38.

18. Жетешиков Ж. Статистический анализ словоизменительных
аффиксов имен существительных киргизского языка (на материале газетных
текстов) // Статистическая оптимизация преподавания языков и 143инженерная лингвистика. Материалы семинара. - Чимкент, 1980. -С.210-211.

19. Хусаинов С. Из опыта статистического анализа частотности
употребления неологизмов в современном турецком литературном языке //
Советская тюркология, 1981. №4. -С.74-79.

20. Бабанаров А. Частотный словник и автоматический словарь для
машинного перевода турецких газетных текстов // Инженерная лингвистика и
оптимизация преподавания иностранных языков. -Ленинград, 1980.

21. Әбдікәрім Т.М. "Әліппе" мен "Ана тілі" оқулықтарында мәтін түзудің
гылыми-әдістемелік негіздері: п.ғ.д. ғылым дәрежесін алу үшін дайындалған
диссерт. автореф.: 13.00.02. — Алматы, 2007. — 52 б.

22. Мамаева А.Қ. 1995-2002 жылдардағы "Әліппе" оқулықтарының
жиілік сөздіктері. - Шымкент: Нұрлы бейне, 2007. -58 6.

23. Бектаев Қ.Б. Ықтималдықтар теориясы және математикалық
статистика. -Алматы: Рауан, 1991. - 431 б.

24. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая
лингвистика. -М.: Высшая школа, 1977. - 382 с.

25. Мамаев Қ.С. Қазақ мәтіндерін зерттеуде статистика элементтерін қолдану мүмкіндіктері // Қазақстаиның ғылыми әлемі. Халықаралық ғылым журнал. 2008. №3 (19).-112-120 б.

26. Ван дер Варден. Математическая статистика: Пер. с нем. -М.: Изд. иностр. литер., 1960. - 434 с.

27. Ермоленко Г. В., Могилевский Р.И. Учебное пособие по
лингвистической статистике. -Самарканд, 1979. -101 с.

28. Шайкевич А.Я. Интервал текста и характер статистических распределений языковых единиц // Труды ЦНЙЙПИ. -1970. Вып. 3.

29. Лукьяненков К.Ф. Лексико-статистическое описание английского научно-технического текста с помощыо электронно-вычислительной машины (подъязык судовых механизмов): автореф. ... канд. фил. наук: -Минск, 1969.

30. Бектаев К.Б., Пиотровский Р.Г. Математические методы в
языкознании. Ч.І. Теория вероятностей и моделирование нормы языка (учебное
пособие). -Алма-Ата: КазГУ, 1973.-281 с.

31. Бектаев К.Б., Пиотровский Р.Г. Математичсские методы в
языкознании. Ч. 11. Математическая статистика и моделирование текста -
Алма-Ата: КазГУ. 1974. -335 е.

32. Соссюр Ф. дс. Курс общей лингвистики. Перевод с франц / Ф. де
Соссюр. Труды по языкозпанию. -М.: Прогресс, 1977. - С. 31-285.

33. Фрумкина Р.М. Статистические методы изучения лексики.^А-М.:
Наука, 1964.-114 с.

34. Пиотровский Р.Г. Некоторые вопросы статистического обследонапия,
лексических групп // Статистика речи и автоматический анализ текета. -
Ленинград, 1974.

35. Бектаев Қ.Б. Математика және лингвистика // Білім және еңбек. -
Алматы, 1441967. №6.

36. Джубанов А.Х. Становление статистического метода в казахском
языкознании // Статистика казахского текста. -Алма-Ата: Наука, 1973.

37. Фрумкина Р.М. О законах распределёния слов и классов слов // В сб, Структурно-типологические исследования. -М., 1962.

38. Қордабаев Т.Р. Жалпы тіл білімі. -Алматы: Мектеп, 1975. -1816.

39. Мещеряков А.Н. Проблемы образа и формирование психики слепо-глухонемого ребенка // Вопросы психологии. -1960. -113 с.

40. Бектаев Қ.Б., Зекенова А.Р. М.О.Әуезовтің драмалық шығармаларындағы зат есімдердің морфологиялық ерекшеліктері //Қазақ текстінің статистикасы.

IIшығарылуы. -Алматы: Ғылым, 1990. 130-1

Мәлімет сізге көмек берді ма

Жарияланған-2014-05-28 20:07:08 Қаралды-8158

АДАМ ОТТЫ ҚАЛАЙ "БАҒЫНДЫРДЫ"?

ЖҰМЫРТҚА НЕГЕ СОПАҚ ПІШІНДЕ?

АРА НЕ БЕРЕДІ?

НЕЛІКТЕН КЕМПІРҚОСАҚ ДОҒА ТӘРІЗДІ?

КЕМПРҚОСАҚ ДЕГЕНІМІЗ НЕ?

АЮЛАР НЕГЕ ҚЫСТАЙДЫ?

МАҚТАДАН НЕ ЖАСАУҒА БОЛАДЫ?

НЕГЕ АНТАРКТИКА ЕҢ СУЫҚ КҮНТИНЕНТ?

АНТИБӨЛШЕКТЕР ДЕГЕНІМІЗ НЕ?