пятница, 6 марта 2015 г.

У житті сучасного суспільства важливу роль відіграють автоматизовані інформаційні технології. З плином часу їх значення безперервно зростає. Але розвиток інформаційних технологій відбувається дуже нерівномірно: якщо сучасний рівень обчислювальної техніки та засобів зв'язку вражає уяву, то в області смислової обробки інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від досягнень у вивченні процесів людського мислення, процесів мовного спілкування між людьми і від уміння моделювати ці процеси на ЕОМ.
Коли мова йде про створення перспективних інформаційних технологій, то проблеми автоматичної обробки текстової інформації, представленої на природних мовах, виступають на передній план. Це визначається тим, що мислення людини тісно пов'язане з його мовою. Більш того, природна мова є інструментом мислення. Він є також універсальним засобом спілкування між людьми - засобом сприйняття, накопичення, зберігання, обробки і передачі інформації. Проблемами використання природної мови в системах автоматичної обробки інформації займається наука комп'ютерна лінгвістика. Ця наука виникла порівняно недавно - на рубежі п'ятдесятих і шістдесятих років минулого століття. За минулі півстоліття в області комп'ютерної лінгвістики були отримані значні наукові та практичні результати: було створено системи машинного перекладу текстів з одних природних мов на інші, системи автоматизованого пошуку інформації в текстах, системи автоматичного аналізу та синтезу усного мовлення та багато інших. Дана робота присвячена побудові оптимального комп'ютерного інтерфейсу засобами комп'ютерної лінгвістики при проведенні лінгвістичних досліджень.

1. Місце і роль комп'ютерної лінгвістики в лінгвістичних дослідженнях
У сучасному світі при проведенні різних лінгвістичних досліджень все більш активно використовується комп'ютерна лінгвістика.
Комп'ютерна лінгвістика - це галузь знань, пов'язана c вирішенням завдань автоматичної обробки інформації, представленої на природній мові. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння змісту текстів (переходу від тексту до формалізованого поданням його сенсу) і проблема синтезу мовлення (переходу від формалізованого подання сенсу до текстів на природній мові). Ці проблеми виникають при вирішенні низки прикладних завдань і, зокрема, задач автоматичного виявлення та виправлення помилок при введенні текстів в ЕОМ, автоматичного аналізу та синтезу усного мовлення, автоматичного перекладу текстів з одних мов на інші, спілкування з ЕОМ природною мовою, автоматичної класифікації і індексування текстових документів, їх автоматичного реферування, пошуку документів у повнотекстових базах даних.
Лінгвістичні засоби, які створюються і застосовуються в комп'ютерній лінгвістиці, можна умовно розділити на дві частини: декларативну і процедурну. До декларативної частини відносяться словники одиниць мови й мови, тексти і різного роду граматичні таблиці, до процедурної частини - засоби маніпулювання одиницями мови і мовлення, текстами та граматичними таблицями. Комп'ютерний інтерфейс відноситься до процедурної частини комп'ютерної лінгвістики.
Успіх у вирішенні прикладних задач комп'ютерної лінгвістики залежить, перш за все, від повноти і точності представлення в пам'яті ЕОМ декларативних засобів і від якості процедурних засобів. На сьогоднішній день необхідний рівень вирішення цих завдань поки ще не досягнуто, хоча роботи в області комп'ютерної лінгвістики ведуться в усіх розвинутих країнах світу (Росія, США, Англія, Франція, Німеччина, Японія та ін.)
Тим не менш, можна відзначити серйозні наукові та практичні досягнення в галузі комп'ютерної лінгвістики. Так в ряді країн (Росія, США, Японія, тощо) побудовані експериментальні та промислові системи машинного перекладу текстів з одних мов на інші, побудований ряд експериментальних систем спілкування з ЕОМ природною мовою, ведуться роботи зі створення термінологічних банків даних, тезаурусів, двомовних і багатомовних машинних словників (Росія, США, Німеччина, Франція та ін), будуються системи автоматичного аналізу та синтезу усного мовлення (Росія, США, Японія та ін), ведуться дослідження в області побудови моделей природних мов.
Важливою методологічною проблемою прикладної комп'ютерної лінгвістики є правильна оцінка необхідного співвідношення між декларативною і процедурної компонентами систем автоматичної обробки текстової інформації. Чому віддати перевагу: потужним обчислювальним процедурам, що спирається на відносно невеликі словникові системи з багатою граматичної та семантичної інформацією, або потужної декларативної компоненті при відносно простих комп'ютерних інтерфейсах? Більшість вчених вважають що, другий шлях переважно. Він швидше приведе до досягнення практичних цілей, тому що при цьому менше зустрінеться тупиків і важко переборних перешкод і тут можна буде в більш широких масштабах використовувати ЕОМ для автоматизації досліджень і розробок.
Необхідність мобілізації зусиль, перш за все, на розвитку декларативної компоненти систем автоматичної обробки текстової інформації підтверджується півстолітнім досвідом розвитку комп'ютерної лінгвістики. Адже тут, незважаючи на безперечні успіхи цієї науки, захоплення алгоритмічними процедурами не принесло очікуваного успіху. Настав навіть деяке розчарування в можливостях процедурних засобів.
У світлі вищевикладеного, представляється перспективним такий шлях розвитку комп'ютерної лінгвістики, коли основні зусилля будуть спрямовані на створення потужних словників одиниць мови й мови, вивчення їх семантико-синтаксичної структури та на створення базових процедур морфологічного, семантико-синтаксичного та концептуального аналізу та синтезу текстів. Це дозволить надалі вирішувати широкий спектр прикладних завдань.
Перед комп'ютерної лінгвістикою стоять, перш за все, завдання лінгвістичного забезпечення процесів збору, накопичення, обробки та пошуку інформації. Найбільш важливими з них є:
1. Автоматизація складання та лінгвістичної обробки машинних словників;
2. Автоматизація процесів виявлення та виправлення помилок при введенні текстів в ЕОМ;
3. Автоматичне індексування документів та інформаційних запитів;
4. Автоматична класифікація та реферування документів;
5. Лінгвістичне забезпечення процесів пошуку інформації в одномовних і багатомовних базах даних;
6. Машинний переклад текстів з одних природних мов на інші;
7. Побудова лінгвістичних процесорів, що забезпечують спілкування користувачів з автоматизованими інтелектуальними інформаційними системами (зокрема, з експертними системами) на природному мовою, або мовою, близькому до природного;
8. Витяг фактографічної інформації з неформалізованих текстів.
Детально зупинимося на проблемах, найбільш відносяться до теми дослідження.
У практичній діяльності інформаційних центрів є необхідність вирішення задачі автоматизованого виявлення та виправлення помилок у текстах при їх введенні в ЕОМ. Ця комплексна задача може бути умовно розчленована на три завдання - завдання орфографічного, синтаксичного та семантичного контролю текстів. Перша з них може бути вирішена за допомогою процедури морфологічного аналізу, що використовує досить потужний еталонний машинний словник основ слів. У процесі орфографічного контролю слова тексту піддаються морфологічному аналізу, і якщо їх основи ототожнюються з основами еталонного словника, то вони вважаються правильними, якщо не ототожнюються, то вони в супроводі мікроконтексту видаються на перегляд людині. Людина виявляє і виправляє перекручені слова, а відповідна програмна система вносить ці виправлення в коректований текст.
Завдання синтаксичного контролю текстів з метою виявлення в них помилок істотно складніше завдання їх орфографічного контролю. По-перше, тому, що вона включає до свого складу і завдання орфографічного контролю як свою обов'язкову компоненту, а, по-друге, тому, що проблема синтаксичного аналізу неформалізованих текстів у повному обсязі ще не вирішена. Тим не менш, частковий синтаксичний контроль текстів цілком можливий. Тут можна йти двома шляхами: або складати досить представницькі машинні словники еталонних синтаксичних структур і порівнювати з ними синтаксичні структури аналізованого тексту; або розробляти складну систему правил перевірки граматичної узгодженості елементів тексту. Перший шлях нам видається більш перспективним, хоча він, звичайно, не виключає і можливості застосування елементів другого шляху. Синтаксична структура текстів повинна описуватися в термінах граматичних класів слів (точніше - у вигляді послідовностей наборів граматичної інформації до слів).
Задачу семантичного контролю текстів з метою виявлення в них смислових помилок слід віднести до класу задач штучного інтелекту. У повному обсязі вона може бути вирішена тільки на основі моделювання процесів людського мислення. При цьому, мабуть, доведеться створювати потужні енциклопедичні бази знань і програмні засоби маніпулювання знаннями. Тим не менш, для обмежених предметних областей і для формалізованої інформації це завдання цілком можна вирішити. Вона повинна ставитися і вирішуватися як завдання семантико-синтаксичного контролю текстів.
Проблема автоматизації індексування документів і запитів є традиційною для систем автоматизованого пошуку текстової інформації. Спочатку під індексуванням розуміли процес присвоєння документам і запитам класифікаційних індексів, що відображають їх тематичний зміст. Надалі це поняття трансформувалося і терміном «індексування» стали називати процес перекладу описів документів і запитів з природної мови на формалізований, зокрема, на мову «пошукових образів». Пошукові образи документів стали, як правило, оформлятися у вигляді переліків ключових слів і словосполучень, що відображають їх тематичний зміст, а пошукові образи запитів - у вигляді логічних конструкцій, в яких ключові слова і словосполучення з'єднувалися один з одним логічними і синтаксичними операторами.
Автоматичне індексування документів зручно проводити за текстами їх рефератів (якщо вони є), оскільки в рефератах основний зміст документів відображається в концентрованому вигляді. Індексування може проводитися з контролем по тезаурусу або без контролю. У першому випадку в тексті заголовка документа і його реферату шукаються ключові слова і словосполучення еталонного машинного словника і в ПІД включаються тільки ті з них, які знайшлися в словнику. У другому випадку ключові слова і словосполучення виділяються з тексту і включаються до ПІД незалежно від їх приналежності до якого-небудь еталонному словника. Був реалізований ще й третій варіант, де поряд з термінами з машинного тезаурусу в ПІД включалися ще й терміни, виділені з заголовка і першої пропозиції реферату документа. Експерименти показали, що поди, складені в автоматичному режимі по заголовках і рефератах документів, забезпечують велику повноту пошуку, ніж поди, складені вручну. Пояснюється це тим, що система автоматичного індексування більш повно відображає різні аспекти змісту документів, ніж система ручного індексування.
При автоматичному індексуванні запитів виникають приблизно ті ж проблеми, що й при автоматичному індексуванні документів. Тут також доводиться виділяти ключові слова і словосполучення з тексту і нормалізувати слова, що входять в текст запиту. Логічні зв'язки між ключовими словами і словосполученнями й контекстуальні оператори можуть проставлятися вручну або за допомогою автоматизованої процедури. Важливим елементом процесу автоматичного індексування запиту є додаток входять до його складу ключових слів і словосполучень їх синонімами і гіпонімії (іноді також гіпероніму та іншими термінами, асоційованими з вихідними термінами запиту). Це може бути зроблено в автоматичному або в інтерактивному режимі за допомогою машинного тезаурусу.
Проблему автоматизації пошуку документальної інформації ми вже частково розглядали у зв'язку із завданням автоматичного індексування. Найбільш перспективним тут є пошук документів за їх повних текстів, так як використання для цієї мети всякого роду замінників (бібліографічних описів, пошукових образів документів і текстів їх рефератів) призводить до втрат інформації при пошуку. Найбільші втрати мають місце тоді, коли в якості замінників первинних документів використовуються їх бібліографічні описи, найменші - при використанні рефератів.
Важливими характеристиками якості пошуку інформації є його повнота і точність. Повнота пошуку може бути забезпечена шляхом максимального врахування парадигматичних зв'язків між одиницями мови і мовлення (словами і словосполученнями), а точність - шляхом обліку їх синтагматичних зв'язків. Існує думка, що повнота і точність пошуку перебувають у зворотній залежності: заходи щодо поліпшення однієї з цих характеристик призводять до погіршення іншої. Але це справедливо тільки для фіксованого логіки пошуку. Якщо цю логіку вдосконалювати, то обидві характеристики можуть поліпшуватися одночасно.
Процес пошуку інформації в повнотекстових базах даних доцільно будувати як процес діалогового спілкування користувача з інформаційно-пошуковою системою (ІПС), при якому він послідовно переглядає фрагменти текстів (абзаци, параграфи), що задовольняють логічним умовам запиту, і відбирає ті з них, які для нього становлять інтерес. В якості остаточних результатів пошуку можуть видаватися як повні тексти документів, так і будь-які їхні фрагменти.
Як видно з попередніх міркувань, при автоматичному пошуку інформації доводиться долати мовний бар'єр, що виникає між користувачем і ІПС у зв'язку з яких місце у текстах різноманітністю форм представлення одного і того самого змісту. Цей бар'єр стає ще більш значним, якщо пошук доводиться вести в різномовних базах даних. Кардинальним вирішенням проблеми тут може бути машинний переклад текстів документів з одних мов на інші. Це можна робити або заздалегідь, перед завантаженням документів в пошукову систему, або в процесі пошуку інформації. В останньому випадку запит користувача має перекладатися на мову масиву документів, в якому ведеться пошук, а результати пошуку - на мову запиту. Такого роду пошукові системи вже працюють у системі Internet. У ВІНІТІ РАН була також побудована система Cyrillic Browser, яка дозволяє здійснювати пошук інформації в російськомовних текстах за запитами англійською мовою з видачею результатів пошуку також на мові користувача.
Важливою і перспективним завданням комп'ютерної лінгвістики є побудова лінгвістичних процесорів, що забезпечують спілкування користувачів з інтелектуальними автоматизованими інформаційними системами (зокрема з експертними системами) на природному мовою або мовою, близькому до природного. Оскільки в сучасних інтелектуальних системах інформація зберігається у формалізованому вигляді, то лінгвістичні процесори, виконуючи роль посередників між людиною і ЕОМ, повинні вирішувати такі основні завдання: 1) завдання переходу від текстів вхідних інформаційних запитів та повідомлень на природній мові до подання їхнього змісту на формалізованій мові (при введенні інформації в ЕОМ); 2) завдання переходу від формалізованого подання сенсу вихідних повідомлень до його подання на природній мові (при видачі інформації людині). Перша задача повинна вирішуватися шляхом морфологічного, синтаксичного та концептуального аналізу вхідних запитів та повідомлень, друга - шляхом концептуального, синтаксичного і морфологічного синтезу вихідних повідомлень.
Концептуальний аналіз інформаційних запитів та повідомлень полягає у виявленні їх понятійної структури (меж найменувань понять і відносин між поняттями в тексті) і переклад цієї структури на формалізований мову. Він проводиться після морфологічного та синтаксичного аналізу запитів та повідомлень. Концептуальний синтез повідомлень складається в переході від подання елементів їх структури на формалізованій мові до вербального (словесного) поданням. Після цього повідомленнями дається необхідне синтаксичне і морфологічне оформлення.
Для машинного перекладу текстів з одних природних мов на інші необхідно розташовувати словниками перекладних відповідників між найменуваннями понять. Знання про такі перекладних відповідностях накопичувалися багатьма поколіннями людей і оформлялися у вигляді спеціальних видань - двомовних або багатомовних словників. Для фахівців, що володіють в тій чи іншій мірі іноземними мовами, ці словники служили цінними посібниками при перекладі текстів.
У традиційних двомовних і багатомовних словниках загального призначення перекладні еквіваленти вказувалися переважно для окремих слів, для словосполучень - значно рідше. Вказівка ​​перекладних еквівалентів для словосполучень було більш характерне для спеціальних термінологічних словників. Тому при перекладі відрізків текстів, що містять багатозначні слова, у учнів часто виникали труднощі.
Нижче наведені перекладні відповідності між кількома парами англійських і російських фраз по «шкільній» тематики.
1) The bat looks like a mouse with wings - Летюча миша схожа на мишу з крилами.
2) Children like to play in the sand on the beach - Діти люблять грати в піску на березі моря.
3) A drop of rain fell on my hand - Крапля дощу впала мені на руку.
4) Dry wood burns easily - сухі дрова добре горять.
5) He divtended not to hear me - Він робив вигляд, що не чує мене.
Тут англійські фрази не є ідіоматичними висловлюваннями. Тим не менш, їх переклад на російську мову лише з деякою натяжкою можна розглядати як простий послівний переклад, так як майже всі вхідні в них слова багатозначні. Тому тут учнем здатні допомогти тільки досягнення комп'ютерної лінгвістики.
Нижче будуть розглянуті основні системи машинного перекладу, здатні допомагати учнем при вивченні мови.
2. Сучасні інтерфейси комп'ютерної лінгвістики
Перші експерименти по машинному перекладу, що підтвердили принципову можливість його реалізації, були проведені в 1954 р. в Джорджтаунському університеті (м. Вашингтон, США). Незабаром після цього в промислово розвинених країнах світу були розпочаті дослідження та розробки, спрямовані на створення систем машинного перекладу (систем МП). І хоча з тих пір пройшло півстоліття, проблема машинного перекладу все ще не вирішена на належному рівні. Вона була значно складнішою, ніж це уявляли собі піонери і ентузіасти МП кінця п'ятдесятих - початку шістдесятих років минулого століття.
З досягнень комп'ютерної лінгвістики слід виділити, перш за все, систему під назвою RETRANS. Перша промислова версія цієї системи була розроблена в 1993 році і стала використовуватися в ряді державних установ Росії, Франції, США та Англії. Після цього було створено ще кілька версій системи. До 1998 р. всі вони були призначені для роботи в середовищі операційної системи MS DOS, а в 1998-2000 р.р. були адаптовані для операційних систем Windows 9x/NT і різних варіантів UNIX (Linux, Solaris та ін.)
У 2001 р. тим же авторським колективом була розроблена нова версія системи фразеологічного машинного перекладу RETRANS. Ця версія реалізована в декількох модифікаціях:
1. Система, що працює в середовищі текстового процесора MS Word-2000.
2. Система, що працює в середовищі Web-браузера MS Internet Explorer.
3. Система, що працює з будь-якими Windows-додатками, здатними копіювати текст у «Буфер Обміну» (Clipboard).
Перша модифікація системи володіє тим перевагою, що людина, яка має досвід роботи з редактором типу Word, може за допомогою цієї. При цьому він може користуватися всіма можливостями редактора Word.
Друга модифікація системи може служити ефективним засобом спілкування з системою Internet для осіб, які знають російську мову, але не знають англійської, або, навпаки, хто знає англійську мову, але не знають російської. Вона може також використовуватися для перекладу будь-яких документів, представлених у вигляді Web-сторінок (наприклад, електронної версії Британської Енциклопедії). При цьому у всіх випадках зберігається зовнішній вигляд перекладеної сторінки.
Третя модифікація системи може бути корисна при роботі з простими програмами типу MS Notepad, MS Wordpad, MS Paint і їм подібними, а також при обробці різних електронних форм.
У разі необхідності, на одній ЕОМ можуть встановлюватися кілька модифікацій системи RETRANS одночасно. При цьому ядро ​​процедурних засобів та словникові засоби системи будуть представлені тільки в одному екземплярі.
Основні політематичних машинні словники системи Retrans (російсько-англійський та англо-російський) включають в свій склад термінологію з природничих і технічних наук, економіці, бізнесу, політиці, законодавству й військовій справі.
Крім основних політематичних машинних словників до складу системи RETRANS входять дванадцять додаткових тематичних словників, що включають лексику споріднених тематик. Ці словники містять словникові статті тільки тих слів і словосполучень із політематичних словників, які в рамках кожної тематичної групи мають пріоритетні перекладні еквіваленти, відмінні від пріоритетних перекладних еквівалентів основних словників. У додаткових тематичних словниках лексичні одиниці (слова і словосполучення) можуть мати не більше двох перекладних еквівалентів (в политематическим словнику їх може бути до п'яти).
Засоби автоматизованого поповнення та налаштування машинних словників, створені на початкових етапах розробки системи RETRANS, відіграли велику роль в її подальшому розвитку. Але досвід практичної експлуатації цієї системи виявив необхідність введення деяких змін до структури словників. Поряд з основними политематическим і додатковими тематичними словниками системи були введені ще й додаткові словники користувачів. При цьому малося на увазі, що при перекладі текстів з однієї мови на іншу одночасно використовуються три словника: основний політематичний словник, один з додаткових тематичних словників і один із словників користувачів.
Словник користувача (СП) служить для тонкої настройки системи машинного перекладу, що виконується самим користувачем при перекладі текстів з конкретної тематики. Крім того, СП дає можливість використовувати при перекладі раніше накопичені словникові масиви. На відміну від основного політематичного словника і додаткових тематичних словників, вміст яких може змінюватися тільки розробниками системи машинного перекладу, словник користувача може створюватись та змінюватись користувачем за своїм розсудом.
За структурою словникових статей словник користувача аналогічний основного політематичної і додатковим тематичним словникам, але він відрізняється від них кількістю можливих варіантів перекладу, що вказуються для вхідних найменувань понять. Тут для кожного вхідного найменування поняття може зазначатися тільки один варіант перекладу. Відрізняється словник користувача також і способом його зберігання в файлі. Це пов'язано з необхідністю оперативної зміни змісту словника, і тим, що його обсяг значно менше, ніж обсяг словників інших типів.
Кожна запис СП описує найменування одного поняття вихідного мови, яке може мати довжину від одного до 17-Тісл. Його перекладної еквівалент також може мати довжину від одного до 17-ти слів. Словник може включати до 65 тисяч словникових статей.
Користувач системи RETRANS може створювати практично необмежену кількість своїх словників з різних тематик, але в процесі перекладу конкретного тексту використовується тільки один словник. При необхідності, можна об'єднати кілька словників в один словник.
В інтерактивному режимі роботи користувач має можливість переглядати всі варіанти перекладу слів і словосполучень містяться в словниках, змінювати їх пріоритет, додавати нові перекладні еквіваленти, а також виконувати інші операції над проміжними результатами перекладу. У проміжних результати переведення еквівалент, обраний із СП, буде стояти першим у списку можливих варіантів перекладу найменування поняття. Потім будуть розташовуватися варіанти перекладу, вибрані з додаткового тематичного словника, в тому порядку, в якому вони записані в словнику. За ними - варіанти перекладу з основного політематичного словника.
Тим же авторським колективом розроблена нова версія системи фразеологічного машинного перекладу, що отримала назву «система Vista". Ця версія реалізована в декількох модифікаціях:
1. Система, що працює в середовищі текстового процесора MS Word 2000 (система Word Vista).
2. Система, що працює в середовищі Web-браузера MS Internet Explorer5.0 і вище (система Web Vista).
3. Система масового обслуговування, що встановлюється на сервері IIS 4.0 і вище та яка використовується в режимі віддаленого доступу стандартними Windows-клієнтами (наприклад, MS Word, MS Internet Explorer і будь-якими іншими додатками, здатними копіювати текст у «Буфер Обміну») на основі протоколаHTTP (т. е. працює як в середовищі Internet, так і в середовищі Intranet). Ця система отримала назву Net Vista.
4. Система, що працює з будь-якими Windows-додатками, здатними копіювати текст у «Буфер Обміну» (Clipboard). Ця система отримала назву Clip Vista.
Система Word Vista володіє тим перевагою, що людина, яка має досвід роботи з редактором типу Word, може за допомогою цієї системи почати переклад текстів практично без попередньої підготовки. При цьому він може користуватися всіма можливостями редактора Word.
Система Web Vista може виявитися незамінним засобом спілкування з системою Internet для осіб, які знають російську мову, але не знають англійської, або, навпаки, хто знає англійську мову, але не знають російської. Вона може також використовуватися для перекладу будь-яких документів, представлених у вигляді Web-сторінок (наприклад, електронної версії Британської Енциклопедії). При цьому у всіх випадках зберігається зовнішній вигляд перекладеної сторінки.
Система Net Vista дозволяє користувачам, розташованим в будь-якій точці земної кулі, здійснювати переклад текстів з російської мови на англійську і з англійської на російську в режимі віддаленого доступу до цієї системи. При цьому самі текстові документи можуть зберігатися в будь-якій іншій точці земної кулі, а переклад виконуватися в третій точці.
Система Clip Vista може бути корисна при роботі з простими програмами типу MS Notepad, MS Wordpad, MS Paint і їм подібними, а також при обробці різних електронних форм, наприклад, при заповненні резюме або введення пошукового запиту, якщо потрібно використовувати іншу мову.
У разі необхідності, на ЕОМ користувача можуть встановлюватися кілька модифікацій системи Vista одночасно. При цьому ядро ​​процедурних засобів та словникові засоби системи будуть встановлені тільки в одному екземплярі.
Основні політематичних машинні словники системи Vista (російсько-англійський та англо-російський) включають в свій склад термінологію з природничих і технічних наук, економіці, бізнесу, політиці, законодавству й військовій справі.
Крім основних політематичних машинних словників до складу системи Vista входять дванадцять додаткових тематичних словників, що включають лексику споріднених тематик. Ці словники містять словникові статті тільки тих слів і словосполучень із політематичних словників, які в рамках кожної тематичної групи мають пріоритетні перекладні еквіваленти, відмінні від пріоритетних перекладних еквівалентів основних словників. У додаткових тематичних словниках лексичні одиниці (слова і словосполучення) можуть мати не більше двох перекладних еквівалентів (в политематическим словнику їх може бути до п'яти).
У процесі перекладу текстів пошук перекладних еквівалентів лексичних одиниць, що входять до їх складу, ведеться в политематическим словнику і в одному з додаткових тематичних словників (на вибір користувача). При синтезі вихідного тексту перекладні еквіваленти додаткового словника вважаються більш пріоритетними, ніж перекладні еквіваленти політематичного словника.
Машинні словники системи VISTA можуть коригуватися і поповнюватися в процесі перекладу текстів в інтерактивному режимі. У цьому режимі є можливість виявляти слова і словосполучення, для яких у словнику не вказані перекладні еквіваленти або ці еквіваленти не відповідають контексту або зазначено кілька еквівалентів, але на першому місці стоїть еквівалент, який не відповідає контексту. У разі відсутності перекладних еквівалентів у деяких слів вони можуть бути вказані людиною; якщо еквіваленти не відповідають контексту, вони можуть бути замінені, якщо їх декілька, то є можливість вибрати тільки ті з них, які відповідають контексту.
У складі системи VISTA є пакет програм, який дозволяє виявляти редакційні правки, зроблені перекладачем, формувати на їх основі словникові статті і вводити їх в додаткові словники відповідної тематики. Таким чином, систему машинного перекладу можна налаштовувати на різні предметні області.
 Системи фразеологічного перекладу RETRANS і VISTA слід розглядати лише як перші кроки у розвитку систем подібного типу. Попереду ще велика робота по вдосконаленню їх процедурних і декларативних засобів. Особливо важкою є задача створення досить потужних фразеологічних словників.
У системах автоматичної обробки текстової інформації важливу роль відіграє комп'ютерна лінгвістика. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння змісту текстів (переходу від тексту до формалізованого поданням його сенсу) і проблема синтезу мовлення (переходу від формалізованого подання сенсу до текстів на природній мові).
Важливою методологічною проблемою комп'ютерної лінгвістики є правильна оцінка необхідного співвідношення між декларативною і процедурної компонентами систем автоматичної обробки текстової інформації. При вирішенні прикладних задач комп'ютерної лінгвістики основний акцент слід робити на декларативні кошти, але процедурні засоби, в тому числі грамотний комп'ютерний інтерфейс теж грають не останню роль.
Традиційні методи подолання мовних бар'єрів - це навчання іноземним мовам і перекладацька діяльність. Але із зростанням економічних, політичних і культурних зв'язків між країнами і підвищенням інтенсивності інформаційних потоків між ними ці методи стають недостатніми. Виникла необхідність шукати альтернативні шляхи вирішення проблеми. І одним з них може з'явитися створення систем фразеологічного машинного перекладу.
Систему фразеологічного машинного перекладу RETRANS слід розглядати лише як перший крок у згаданому напрямку. Попереду ще велика робота щодо вдосконалення її процедурних та декларативних засобів. Особливо важкою є задача створення досить потужних фразеологічних словників, які можуть мати обсяг кілька сотень мільйонів словникових статей.
Під терміном "комп'ютерна лінгвістика" (computational linguistics) зазвичай розуміється широка область використання комп'ютерних інструментів - програм, комп'ютерних технологій організації та обробки даних - для моделювання функціонування мови в тих чи інших умовах, ситуаціях, проблемних областях, а також сфера застосування комп'ютерних моделей мови не тільки в лінгвістиці, а й у суміжних з нею дисциплінах. Власне, тільки в останньому випадку мова йде про прикладної лінгвістики в строгому сенсі, оскільки комп'ютерне моделювання мови може розглядатися і як сфера застосування теорії програмування (computer science) в галузі лінгвістики. Проте загальна практика така, що сфера комп'ютерної лінгвістики охоплює практично все, що пов'язано з використанням комп'ютерів у мовознавстві: "Термін" комп'ютерна лінгвістика "задає загальну орієнтацію на використання комп'ютерів для вирішення різноманітних наукових і практичних завдань, пов'язаних з мовою, ніяк не обмежуючи способи вирішення цих завдань ".

Інституційний аспект комп'ютерної лінгвістики. Як особливу науковий напрямок комп'ютерна лінгвістика оформилася в 60-і рр.. Потік публікацій в цій області дуже великий. Крім тематичних збірок, в США щоквартально виходить журнал "Комп'ютерна лінгвістика". Велику організаційну і наукову роботу проводить Асоціація з комп'ютерної лінгвістики, яка має регіональні структури по всьому світу (зокрема, європейське відділення). Кожні два роки проходять міжнародні конференції з комп'ютерної лінгвістики - КОЛІНГ. Відповідна проблематика широко представлена ​​також на міжнародних конференціях з штучного інтелекту різних рівнів.

2. Когнітивний інструментарій комп'ютерної лінгвістики

Комп'ютерна лінгвістика як особлива прикладна дисципліна виділяється перш за все з інструменту - тобто з використання комп'ютерних засобів обробки мовних даних. Оскільки комп'ютерні програми, що моделюють ті чи інші аспекти функціонування мови, можуть використовувати різні засоби програмування, то про загальний метамови говорити начебто не доводиться. Однак це не так. Існують загальні принципи комп'ютерного моделювання мислення, які так чи інакше реалізуються в будь-якої комп'ютерної моделі. В основі цієї мови лежить теорія знань, розроблена в штучному інтелекті і утворює важливий розділ когнітивної науки.

Основна теза теорії знань свідчить, що мислення - це процес обробки й породження знань. "Знання" або "знання" вважається невизначуваним категорією. У якості "процесора", обробного знання, виступає когнітивна система людини. У епістемології та когнітивної науці розрізняють два основних види знань - декларативні ("знання що") і процедурні ("знання як" 2)). Декларативні знання представляються зазвичай у вигляді сукупності пропозицій, тверджень про що-небудь. Типовим прикладом декларативних знань можна вважати тлумачення слів в звичайних тлумачних словниках. Наприклад, чашка] - 'невеликий посуд для пиття округлої форми, зазвичай з ручкою, з порцеляни, фаянсу і т.п. '[MAC]. Декларативні знання піддаються процедурі верифікації в термінах "істина-неправда". Процедурні знання представляються як послідовність (список) операцій, дій, які слід виконати. Це деяка загальна інструкція про дії в деякій ситуації. Характерний приклад процедурних знань - інструкції по користуванню побутовими приладами.

На відміну від декларативних знань, процедурні знання неможливо верифікувати як істинні або хибні. Їх можна оцінювати тільки по успішності-неуспішності алгоритму.

Більшість понять когнітивного інструментарію комп'ютерної лінгвістики омонімічно: вони одночасно позначають деякі реальні сутності когнітивної системи людини і способи подання цих сутностей на деяких метамови. Іншими словами, елементи метамови мають онтологічний і інструментальний аспект. Онтологічно поділ декларативних і процедурних знань відповідає різним типам знань когнітивної системи людини. Так, знання про конкретні предмети, об'єктах дійсності переважно декларативні, а функціональні здібності людини до ходіння, бігу, водінню машини реалізуються в когнітивної системі як процедурні знання. Інструментально знання (як онтологічно процедурне, так і декларативне) можна представити як сукупність дескрипцій, описів і як алгоритм, інструкцію. Іншими словами, онтологічно декларативне знання про об'єкт дійсності "стіл" можна уявити процедурно як сукупність інструкцій, алгоритмів з його створення, складання (= креативний аспект процедурного знання) або як алгоритм його типового використання (= функціональний аспект процедурного знання). У першому випадку це може бути керівництво для початківця столяра, а в другому - опис можливостей офісного столу. Вірно і зворотне: онтологічно процедурне знання можна представити декларативно.

Потребує окремого обговорення, всяке чи онтологічно декларативне знання представимо як процедурне, а будь-яке онтологічно процедурне - як декларативне. Дослідники сходяться в тому, що всяке декларативне знання в принципі можна уявити процедурно, хоча це може виявитися для когнітивної системи дуже неекономним. Зворотне навряд чи справедливо. Справа в тому, що декларативне знання істотно більш експліцитно, воно легше усвідомлюється людиною, ніж процедурне. На противагу декларативним знання, процедурне знання переважно імпліцитно. Так, мовна здатність, будучи процедурних знанням, прихована від людини, не усвідомлюється ім. Спроба експлікувати механізми функціонування мови призводить до дисфункції. Фахівцям у галузі лексичної семантики відомо, наприклад, що тривала семантична інтроспекція, необхідна для вивчення плану змісту слова, призводить до того, що дослідник частково втрачає здатність до розрізнення правильних і неправильних вживань аналізованого слова. Можна навести й інші приклади. Відомо, що з точки зору механіки тіло людини є складною системою двох взаємодіючих маятників.

У теорії знань для вивчення і представлення знання використовуються різні структури знань - фрейми, сценарії, плани. Згідно з М. Мінському, "фрейм - це структура даних, призначена для представлення стереотипної ситуації" [Мінський 1978, с.254]. Більш розгорнуто можна сказати, що фрейм є концептуальною структурою для декларативного подання знань про типізованої тематично єдиної ситуації, що містить слоти, пов'язані між собою певними семантичними відносинами. З метою наочності фрейм часто представляють у вигляді таблиці, рядки якої утворюють слоти. Кожен слот має своє ім'я і зміст (див. табл.1).

Таблиця 1

Частковий фрейму "стіл" у табличному поданні
Ім'я слота
Зміст слота

кількість ніжок
чотири, щонайбільше, мінімум три

матеріал
дерево, пластмаса, скло

поверхню
прямокутник, овал, коло, квадрат

наявність тумб
факультативно

функції
обідній, журнальний, робітник і пр.

і т.д.




Залежно від конкретного завдання структуризація фрейму може бути істотно більш складною; фрейм може включати вкладені подфрейми і відсилання до інших фреймах.

Замість таблиці часто використовується предикатну форма подання. У цьому випадку фрейм має форму предиката або функції з аргументами. Існують і інші способи подання фрейму. Наприклад, він може представлятися у вигляді кортежу наступного виду: {(ім'я фрейма) (ім'я слота)) (значення слота ,),..., (ім'я слота п) (значення слота л)}.

Зазвичай такий вигляд мають фрейми в мовах уявленнях знань.

Як і інші когнітивні категорії комп'ютерної лінгвістики, поняття фрейму омонімічно. Онтологічно - це частина когнітивної системи людини, і в цьому сенсі фрейм можна зіставити з такими поняттями як гештальт, прототип, стереотип, схема. У когнітивної психології ці категорії розглядаються саме з онтологічної точки зору. Так, Д. Норман розрізняє два основних способи побутування і організації знань у когнітивній системі людини - семантичні мережі і схеми. "Схеми, - пише він, - представляють собою організовані пакети знання, зібрані для репрезентації окремих самостійних одиниць знання. Моя схема для Сема може містити інформацію, що описує його фізичні особливості, його активність та індивідуальні риси. Ця схема співвідноситься з іншими схемами, які описують інші його боку "[Норман 1998, с.359]. Якщо ж брати інструментальну сторону категорії фрейму, то це структура для декларативного подання знань. У наявних системах ШІ фрейми можуть утворювати складні структури знань; системи фреймів допускають ієрархію - один фрейм може бути частиною іншого фрейму.

За змістом поняття фрейму дуже близько категорії тлумачення. Дійсно, слот - аналог валентності, заповнення слота - аналог актанта. Основна відмінність між ними полягає в тому, що тлумачення містить тільки лінгвістично релевантну інформацію про план змісту слова, а фрейм, по-перше, не обов'язково прив'язаний до слова, і, по-друге, включає всю релевантну для даної проблемної ситуації інформацію, в тому числі і екстралінгвістичну (знання про світ) 3).

Сценарій представляє собою концептуальну структуру для процедурного представлення знань про стереотипної ситуації або стереотипному поведінці. Елементами сценарію є кроки алгоритму чи інструкції. Зазвичай говорять про "сценарії відвідування ресторану", "сценарії покупки" і т.п.

Спочатку фрейм також використовувався для процедурного подання (пор. термін "процедурний кадр"), проте зараз в цьому сенсі частіше вживається термін "сценарій". Сценарій можна уявити не тільки у вигляді алгоритму, але і у вигляді мережі, вершин якої відповідають деякі ситуації, а дуг - зв'язки між ситуаціями. Поряд з поняттям сценарію, деякі дослідники залучають для комп'ютерного моделювання інтелекту категорію скрипта. За Р. Шенк, скрипт - це деяка загальноприйнята, загальновідома послідовність причинних зв'язків [Schank 1981]. Наприклад, розуміння діалогу

На вулиці ллє як з відра.

Все одно доводиться виходити у магазин: в будинку їсти нічого - вчора гості все підмели.

грунтується на неекспліцірованних семантичних зв'язках типу 'якщо йде дощ, на вулицю виходити небажано, оскільки можна захворіти'. Ці зв'язки формують скрипт, який і використовується носіями мови для розуміння мовного і немовного поведінки один одного.

У результаті застосування сценарію до конкретної проблемної ситуації формується план). План використовується для процедурного представлення знань про можливі дії, що ведуть до досягнення визначеної мети. План співвідносить мету з послідовністю дій.

У загальному випадку план включає послідовність процедур, які переводять початковий стан системи в кінцеве і ведуть до досягнення певної підцілі та цілі. У системах ШІ план виникає в результаті планування або плануючої діяльності відповідного модуля - модуля планування. В основі процесу планування може лежати адаптація даних одного або декількох сценаріїв, активізованих тестуючими процедурами, для вирішення проблемної ситуації. Виконання плану проводиться екзекутивність модулем, керуючим когнітивними процедурами та фізичними діями системи. У елементарному випадку план в інтелектуальній системі представляє собою просту послідовність операцій; в більш складних версіях план зв'язується з конкретним суб'єктом, його ресурсами, можливостями, цілями, з докладною інформацією про проблемну ситуацію і т.д. Виникнення плану відбувається в процесі комунікації між моделлю світу, частину якої утворюють сценарії, які планують модулем і екзекутивність модулем.

На відміну від сценарію, план пов'язані з конкретною ситуацією, конкретним виконавцем і переслідує досягнення певної мети. Вибір плану регулюється ресурсами виконавця. Здійснимість плану - обов'язкова умова його породження в когнітивної системі, а до сценарію характеристика здійсненності непріложіма.

Ще одне важливе поняття - модель світу. Під моделлю світу зазвичай розуміється сукупність певним чином організованих знань про світ, властивих когнітивної системи або її комп'ютерної моделі. У кілька більш загальному вигляді про моделі світу говорять як про частину когнітивної системи, що зберігає знання про устрій світу, його закономірності і пр. В іншому розумінні модель світу зв'язується з результатами розуміння тексту або - ширше - дискурсу. У процесі розуміння дискурсу будується його ментальна модель, яка є результатом взаємодії плану змісту тексту та знань про світ, властивих даному суб'єкту [Джонсон-Лерд 1988, с.237 і далі]. Перше і друге розуміння часто об'єднуються. Це типово для дослідників-лінгвістів, що працюють у рамках когнітивної лінгвістики та когнітивної науки.

Тісно пов'язане з категорією фрейму поняття сцени. Категорія сцени переважно використовується в літературі як позначення концептуальної структури для декларативного подання актуалізована в мовному акті і виділених мовними засобами (лексемами, синтаксичними конструкціями, граматичними категоріями і пр) ситуацій та їх частей5). Будучи пов'язана з мовними формами, сцена часто актуалізації певним словом або виразом. У граматиках сюжетів (див. нижче) сцена постає як частина епізоду або розповіді. Характерні приклади сцен - сукупність кубиків, з якими працює система ШІ, місце дії в оповіданні і учасники дії і т.д. У штучному інтелекті сцени використовуються в системах розпізнавання образів, а також у програмах, орієнтованих на дослідження (аналіз, опис) проблемних ситуацій. Поняття сцени отримало широке поширення в теоретичній лінгвістиці, а також логіці, зокрема у ситуаційній семантиці, в якій значення лексичної одиниці безпосередньо пов'язується зі сценою.

3. Деякі напрямки комп'ютерної лінгвістики

Звернімося до тих областях комп'ютерної лінгвістики, які безпосередньо пов'язані з оптимізацією когнітивної функції мови. Нижче як приклад розглядаються три сфери комп'ютерного моделювання, в яких використовуються знання про функціонування мовної системи: моделювання спілкування, моделювання структури сюжету і гіпертекстові технології представлення тексту.

Моделювання спілкування. У вузькому сенсі проблематика комп'ютерної лінгвістики часто пов'язується з моделюванням спілкування, зокрема, із забезпеченням спілкування людини з ЕОМ на природній або обмеженою природною мовою. Це відноситься до оптимізації мови як засобу спілкування. Втім, комп'ютерні моделі спілкування часто використовуються для вивчення самого процесу спілкування. Зупинимося докладніше на досвіді створення та використання саме таких моделей.

Вивчення вже нагромадилося досвіду експлуатації комп'ютерних систем, які вимагали забезпечення взаємодії з ЕОМ природною мовою, дозволило дослідникам по-новому поглянути на функції і структуру природної комунікації. У центр уваги потрапили питання, які раніше були на периферії теорії діалогу, дискурс-аналізу та теорії комунікації. Що забезпечує природність спілкування? Які умови зв'язності бесіди? Коли спілкування виявляється успішним? У яких випадках виникають комунікативні невдачі і чи можна їх уникнути? Які стратегії спілкування використовують учасники комунікативної взаємодії при досягненні своїх комунікативних цілей? Це далеко не вичерпний список теоретичних проблем, котрі виникли у зв'язку з функціонуванням комп'ютерних моделей спілкування.

Однією з найбільш цікавих комп'ютерних моделей діалогу, що викликала жваві теоретичні дискусії, була програма Джозефа Вейценбаум "Еліза", перший варіант якої з'явився в 1966 р. Спочатку "Еліза" створювалася як іграшка, як навчальний зразок програми-імітатора, метою якої є не моделювання мислення в точному сенсі, а моделювання мовної поведінки. Програма підтримувала розмову зі співрозмовником у реальному масштабі часу, однак при її розробці були використані обмежені програмістські ресурси, лінгвістичний аналіз і синтез також були зведені до мінімуму. Проте програма функціонувала настільки успішно, що фактично спростувала відомий тест Тьюринга на створення штучного інтелекту. Як відомо, Тьюринг замість софістіцірованного обговорення філософського питання про те, чи може машина мислити, запропонував ігрову завдання наступного типу. Нехай є три учасники: чоловік Л, жінка В і запитувач С. запитують не знає, хто чоловік, а хто - жінка. Ставлячи питання учасникам гри, С повинен спробувати визначити, хто є чоловіком, а хто - жінкою, при цьому учасник намагається містифікувати запитувача, видаючи йому не помилкову, але спотворену інформацію, а учасник В - навпаки, прагне допомогти С. Зрозуміло, що спілкування відбувається не безпосередньо, а через телетайп або за допомогою записок, віддрукованих на друкарській машинці. Що станеться, якщо в якості А виступатиме система ШІ? Чи буде запитувач помилятися так само часто? [Turing 1950, р.434]. Простіший варіант цього тесту зводиться до того, що кілька учасників розмовляють з деяким іншим учасником X. Проблема побудови штучного інтелекту вирішена, якщо більшість учасників не зможе встановити, з ким вони розмовляють - з людиною або машиною.

Програма "Еліза" була використана групою дослідників на чолі з М. Макгайром для вивчення структури діалогу та особливостей природномовної комунікації [McGuire 1971]. У проводився експерименті з "Елізою" розмовляли протягом години 24 випробовуваних. Спілкування відбувалося за допомогою телетайпу. За час бесіди кожен учасник ввів від 10 до 65 реплік і отримав на них відповіді. Після закінчення 15 учасників (62%) були впевнені, що їм відповів чоловік, 5 піддослідних (21%) виявили певні коливання і лише четверо учасників (17%) були абсолютно впевнені, що спілкувалися з ЕОМ. З лінгвістичної точки зору алгоритми програми "Еліза" включають мінімум лінгвістичної інформації. По-перше, це комплекс ключових слів, які актуалізації деякі стійкі комунікативні формули (шаблони), по-друге, здатність відносно нескладно трансформувати попереднє висловлювання.

Цікаво, що істотна тематична обмеженість комунікації і значна кількість помилок і неточностей у відповіді (близько 19% неточних або випадають з контексту реплік "Елізи" у згадуваному експерименті М. Макгайра), не завадили випробуваним визнати партнера по комунікації людиною. Справа тут зовсім не в патологічної дурості піддослідних. Це прояв найважливішою особливості комунікації на природній мові: природномовної дискурс дуже терпимо по відношенню до збоїв і помилок - він надмірний і помехоустойчів. Репліки "Елізи", випадали з нормального спілкування, випробовувані легко пояснювали звичайними збоями в розумінні своєї попередньої репліки, не цілком нормальними умовами спілкування, жартівливим настроєм партнера. Стійкість природного дискурсу пояснюється також здібностями людини до інтерпретації мовних дій: людина, що приймає роль учасника діалогу, веде себе відповідним чином. Маючи установку на спілкування, він повинен намагатися включити в комунікацію все те, що за формою нагадує мовленнєвий акт, репліку. Іншими словами, він схильний наділяти сенсом те, що часто сенсу не має. У цьому випадку випробовувані самі породжують сенс діалогу, самі забезпечують його зв'язність, самі приписують партнеру комунікативні інтенції.

Другий важливий висновок експерименту: випробувані досить швидко ухвалювали рішення про те, хто перед ними - комп'ютер або человек.22 учасника з 24 усвідомили для себе ситуацію не більше, ніж за п'ять обмінів репліками, і далі не змінювали свого рішення. Визначення ролей у комунікації відноситься до метарівні спілкування, оскільки це становить одну з передумов успішної комунікації, що оберігає спілкування від численних комунікативних невдач.

Зрозуміло, що визначення ролей учасників багато в чому визначає вибір стратегії комунікативної поведінки. Дійсно, краще відразу визначити, з ким ми розмовляємо по телефону - з давнім другом або чиновником податкової інспекції. З'ясування того, ким є співрозмовник - машиною або людиною, також відноситься до метарівні спілкування, і випробувані намагалися встановити рольові характеристики партнера як можна раніше.

Це властивість природномовної комунікації можна назвати принципом пріоритету метакоммунікатівних параметрів ситуації спілкування.

Третє важливе слідство з експерименту М. Макгайра пов'язано з існуванням різних типів комунікативної взаємодії між людьми. Успішне взаємодія між людиною і програмою типу "Еліза" можливо тільки в ситуації, коли відбувається так зване "асоціативне спілкування", при якому репліки діалогу пов'язані не стільки логічними відносинами типу "причина-наслідок", "посилка-висновок", а асоціаціями. Асоціативне спілкування не має конкретної спрямованості; саме підтримання розмови може служити її виправданням. Співрозмовники не переслідують мети вирішити якусь проблему або виробити єдину точку зору на якесь питання. У класифікації Р. Якобсона для комунікації такого типу запропонований термін "фатіческое спілкування" [Якобсон 1975]. Зауважимо, що бесіда лікаря-психіатра з пацієнтом по формі також має вигляд фатической спілкування, хоча і переслідує цілком певну мету збору даних про захворювання пацієнта і наступному вербальному і невербальному впливі на його психіку для досягнення лікувального ефекту. "Еліза" не змогла б успішно імітувати спілкування в комунікативній ситуації, названої М. Макгайром "рішення завдань", оскільки вона не здатна зрозуміти проблемну ситуацію, тобто побудувати модель світу дискурсу, визначити альтернативи виходу з проблеми, вибрати одну з альтернатив і т. д. Одна з типових стратегій "відходу від нерозуміння", реалізована в програмі "Еліза" - зміна теми бесіди. Очевидно, що така стратегія ведення бесіди навряд чи приведе до успіху при спільному пошуку вирішення проблеми.

Нарешті, четвертий висновок можна сформулювати як неуніверсальність правил комунікативної взаємодії. Він стосується самих закономірностей спілкування на природній мові. Кожен тип комунікації обслуговується своїм набором відносно простих правил, що забезпечують зв'язність дискурсу, його осмисленість для учасників. Типологія видів спілкування задається відповідними наборами правил. З експериментів М. Макгайра з програмою "Еліза" випливає, що крім асоціативного (= фатической) способу спілкування, виділяється ще "рішення задач", "задавання питань" і "уточнення розуміння". З лінгвістичної точки зору ці типи, швидше за все, неоднорідні, перетинаються і навіть знаходяться на різних рівнях дискурсу. Так, "уточнення розуміння" відноситься до метарівні комунікації, "задавання питань" може бути частиною стратегії "рішення задач" і "уточнення розуміння" і т.д. Істотно, що комп'ютерний експеримент з програмою, що моделює поведінку учасника комунікації, дозволяє експериментально підтвердити або спростувати багато положень теорії діалогу, розроблені як у лінгвістиці, так і в суміжних дисциплінах - в дискурс-аналізі, теорії комунікації, психології та соціології спілкування.

Моделювання структури сюжету. Вивчення структури сюжету відноситься до проблематики структурного літературознавства (у широкому сенсі), психології творчості та культурології. Наявні комп'ютерні програми моделювання сюжету грунтуються на трьох базових формалізму подання сюжету - морфологічному та синтаксичному напрямках подання сюжету, а також на когнітивному підході.

"Морфологія" сюжету. Ідеї ​​про морфологічному пристрої структури сюжету сходять до відомих робіт В.Я. Проппа про російську чарівній казці [Пропп 1928; Пропп 1986]. Пропп зауважив, що при великій кількості персонажів і подій чарівної казки кількість функцій персонажів обмежено: "Постійними, стійкими елементами казки служать функції дійових осіб, незалежно від того, ким і як вони виконуються. Вони утворюють основні складові частини казки" [Пропп 1928, с. 31]. До числа базових відносяться, наприклад, такі функції:

відлучення персонажа казки з будинку;

заборона герою на дію;

порушення заборони;

отримання шкідником інформації про жертву;

обман жертви шкідником;

мимовільне пособництво жертви вредителю і т.д.

Ідеї ​​Проппа лягли в основу комп'ютерної програми TALE, що моделює породження сюжету казки. В основу алгоритму програми TALE покладена послідовність функцій персонажів казки. Фактично функції Проппа задавали безліч типізованих ситуацій, впорядкованих на основі аналізу емпіричного матеріалу. Можливості зчеплення різних ситуацій в правилах породження визначалися типовою послідовністю функцій - у тому вигляді, в якому це вдається встановити з текстів казок. У програмі типові послідовності функцій описувалися як типові сценарії зустрічей персонажів.

Надалі система була ускладнена за рахунок введення моделі світу казки, географія якого складається із звичайного світу, проміжного (середнього) світу та іншого світу [Гаазе-Рапопорт, Поспєлов, Семенова 1984]. Кожен світ складається з локусів, пов'язаних між собою певними відносинами. Відносини пов'язують не тільки локуси всередині кожного світу, але і локуси різних світів. Звичайний світ складається з наступних локусів: місце проживання героя (локус 1), місце отримання завдання (локус Г), місце дарування чарівних предметів, що допомагають виконати завдання. Перший локус і локус штрих часто збігаються (пор. казки про падчерки і злий Мачусі). До звичайного світу відносяться також локуси 3 (їх може бути багато), в яких долаються перешкоди за допомогою чарівних предметів. Кількість перешкод, як правило, збігається з кількістю чарівних предметів. Після подолання перешкод герой опиняється в проміжному світі, вартовим якого є Баба-Яга. Середній світ відокремлює світ героїв від світу антигероїв. Функції Баби-Яги різняться - вона може виступати як дарувальниця інформації або чергового чарівного засобу, а може виступати на боці антигероїв (наприклад, при акценті на людожерської поведінці Баби-Яги). Інший світ включає місце проживання антигероя (локус 5), місце битви між героєм і антигероєм (локус 6) і, нарешті, локус 7 - місце нагороди чи мети, якої домагається герой. Локуси пов'язані відносинами переходу, які представляють можливі послідовності розгортання сюжету.

Модифікована версія програми TALE має наступну блок-схему [Гаазе-Рапопорт, Поспєлов, Семенова 1984, с.52]:


Блок-схема програми TALE

Робота програми починається з першого блоку, в якому вибирається тип сюжету казки та її персонажі. Тут же формується експозиція казки (setting). У другому блоці зберігаються описи, пов'язані з персонажами, а в четвертому - постійні характеристики персонажів. Описи даються під фреймоподобних структурах представлення знань. За допомогою другого і третього блоків формуються мотиви і вчинки персонажів. Третій блок задає послідовність руху персонажів по локусами. В останньому (шостому) блоці відбувається збірка породжених фрагментів казки.

Блок-схема модифікованого варіанту програми TALE показує, що чисто "морфологічного" підходу до структури сюжету казки явно недостатньо. "Морфеми" казкового сюжету повинні не тільки певним чином поєднуватися між собою, а й мати специфічні обмеження на сполучуваність. Фіксація одного типового порядку проходження функцій персонажів чарівної казки істотно обмежує наявні можливості сполучуваності. Більш адекватне вирішення цієї проблеми дає синтаксичний підхід до структури сюжету.

"Синтаксис" сюжету. Теоретичну основу синтаксичного підходу до сюжету тексту склали "сюжетні граматики" (story grammars). Сюжетні граматики з'явилися в середині 70-х рр.. в результаті переносу ідей генеративної граматики Н. Хомського на опис макроструктури тексту. Якщо найважливішими складовими синтаксичної структури в породжує граматиці були дієслівні та іменні групи, то в більшості сюжетних граматик в якості базових виділялися експозиція (setting), подія і епізод. У теорії сюжетних граматик широко обговорювалися умови мінімальності: обмеження, що визначали статус послідовності з елементів сюжету як нормальний сюжет. Виявилося, однак, що суто лінгвістичними методами це зробити неможливо. Багато обмеження носять соціокультурний характер. Сюжетні граматики, істотно розрізняючись набором категорій в дереві породження, допускали вельми обмежений набір правил модифікації наративної структури. У переважній більшості випадків ці правила запозичені з тієї ж граматики. Потенціал варіювання структури сюжету забезпечується в першу чергу трансформаціями пересування та опущення. Наприклад, текст зізнання злочинця, що фіксує реальну послідовність розгортання подій у злочині, можна за допомогою перестановок і опущень перетворити в детективний сюжет: {злочинець → задум → знаряддя вбивства → місце → вбивство → виявлення трупа → пошуки злочинця} → {виявлення трупа → виявлення знаряддя вбивства → пошуки злочинця}.

Використання сюжетних граматик в комп'ютерному моделюванні виявилося не зовсім вдалим. Синтактична компонент сюжету, описуваний граматиками, відображає чисто зовнішні особливості тексту. Не вдається виявити операціональні критерії виділення різних складових сюжету.

Основний висновок дискусії про недоліки сюжетних граматик звівся до необхідності опису сюжету в рамках структури доцільної діяльності, тобто із залученням категорій "мета", "проблема", "план" і т.д. Іншими словами, метамови, що враховує тільки зовнішні особливості сюжету, явно недостатньо. Необхідно звернення до когнітивних станів персонажів.

Когнітивний підхід до сюжету. На початку 80-х рр.. однієї з учениць Р. Шенка - В. Ленерт - у рамках робіт зі створення комп'ютерного генератора сюжетів був запропонований оригінальний формалізм афективних сюжетних одиниць (АСЕ - Affective Plot Units), що виявився потужним засобом представлення структури сюжету [Lehnert 1982]. При тому, що він був спочатку розроблений для системи ШІ, цей формалізм використовувався в чисто теоретичних дослідженнях. Сутність підходу Ленерт полягала в тому, що сюжет описувався як послідовна зміна когнітивно-емоційних (афективних) станів персонажів. Тим самим у центрі уваги формалізму Ленерт стоять не зовнішні компоненти сюжету - експозиція, подія, епізод, мораль - а його змістовні характеристики. У цьому відношенні формалізм Ленерт почасти виявляється поверненням до ідей Проппа.

Кожна афективна сюжетна одиниця являє собою бінарне відношення, що зв'язує деякі події, оцінювані персонажами позитивно (+) або негативно (-), і когнітивно-емоційні стани персонажів (у різних комбінаціях - подія & стан; подія & подія і т.д.). Бінарне відношення не є однорідним. Усього виділяється п'ять типів бінарних відносин, спеціфіціруемих в кожній афективної сюжетної одиниці. Бінарне відношення може бути мотивацією (позначення - т), актуалізацією (а), припиненням однієї дії іншим (t), еквівалентністю (е), а також афективної каузальною зв'язком між персонажами. Кожна афективна сюжетна одиниця отримує назву, наприклад, УСПІХ, НЕВДАЧА, завзятість, ПРОБЛЕМА і т.д.

4. Гіпертекстові технології подання тексту

Феномен гіпертексту можна обговорювати з кількох точок зору. З одного боку, це особливий спосіб представлення, організації тексту, з іншого - новий вид тексту, протиставлений за багатьма своїми властивостями звичайного тексту, сформованому в гутенберговской традиції друкарства. І, нарешті, це новий спосіб, інструмент та нова технологія розуміння тексту.

Теоретичні підстави гіпертексту. Багато дослідників розглядають створення гіпертексту як початок нової інформаційної епохи, протиставила ері друкарства. Лінійність листи, зовні відбиває лінійність мови, виявляється фундаментальною категорією, що обмежує мислення людини та розуміння тексту. Світ сенсу нелинеен, тому стиснення змістової інформації в лінійному мовному відрізку вимагає використання спеціальних "комунікативних упаковок" - членування на тему і рему, поділ плану змісту висловлювання на експліцитні (затвердження, пропозиція, фокус) та імпліцитні (пресупозиція, наслідок, імплікатура дискурсу) шари . Відмова від лінійності тексту і в процесі його уявлення читачеві (читання і розуміння), і в процесі синтезу, на думку теоретиків, сприяв би "звільнення" мислення і навіть виникнення його нових форм.

Прототиповий текст - це монолог. Тим часом багато лінгвістів (і серед них М. Бахтін і Л. Якубинский) вказували на вторинність монологу в порівнянні з діалогом. Гіпертекст з цієї точки зору дозволяє усунути штучну монологичность тексту.

Звичайний текст, як правило, має автора. Гіпертекст автора в традиційному розумінні не має - у нього безліч авторів, причому для постійно змінюється гіпертексту авторський колектив також постійно змінюється. Зміна статусу автора змінює і статус читача: в гіпертекстової системі розуміння часто супроводжується зміною компонентів гіпертексту або, як мінімум, вибором шляху перегляду, що знову-таки акт творчий, авторський.

Множинність авторства має і ще один наслідок: у гіпертексті представлено багато точок зору на проблему, а в звичайному тексті - тільки одна. Саме тому гіпертекст більш об'єктивний і більше толерантний до читача, ніж класичний текст.

Гіпертекстові технології дозволяють легко поєднувати різні види інформації - звичайний текст, малюнок, графік, таблицю, схему, звук і зображення, що рухається. Як традиційний текст, так і гіпертекст - феномени, породжені новими технологіями. У першому випадку технологія дозволила легко тиражувати і розповсюджувати знання самих різних типів, а в другому - комп'ютерні технології дали можливість змінити сам зовнішній вигляд тексту і його структуру. Різнорідність гіпертексту - це перше технологічне властивість гіпертексту, технологічне в тому сенсі, що воно безпосередньо випливає з використовуваної комп'ютерної технології. Друге технологічне властивість гіпертексту - його нелінійність. Гіпертекст не має стандартної, звичайної послідовності читання. Інші властивості гіпертексту в тій чи іншій мірі є наслідками з цих двох технологічних властивостей.

Підсумувати відмінності тексту і гіпертексту можна наступним чином:

кінцівку, закінченість традиційного тексту vs. нескінченність, незакінченість, відкритість гіпертексту;

лінійність тексту vs. нелінійність гіпертексту;

точне авторство тексту vs. відсутність авторства (у традиційному розумінні) у гіпертексту;

зняття протиставлення між автором і читачем;

суб'єктивність, однобічність звичайного тексту vs. об'єктивність, багатосторонність гіпертексту;

однорідність звичайного тексту vs. неоднорідність гіпертексту.

Компоненти гіпертексту. Структурно гіпертекст може бути представлений як граф, у вузлах якого знаходяться традиційні тексти або їх фрагменти, зображення, таблиці, відеоролики і т.д. Вузли пов'язані різноманітними відносинами, типи яких задаються розробниками програмного забезпечення гіпертексту або самим читачем. Відносини задають потенційні можливості пересування або навігації по гіпертексту. Стосунки можуть бути односпрямованим або двонаправленими. Відповідно, двонаправлені стрілки дозволяють рухатися користувачеві в обидві сторони, а односпрямовані - тільки в одну. Ланцюжок вузлів, через які проходить читач при перегляді компонентів тексту, утворює шлях або маршрут.

Елементи типології гіпертексту. Перше протиставлення належить до структури гіпертексту. Гіпертекст може бути ієрархічним або мережевим. Ієрархічне - деревоподібна - будова гіпертексту істотно обмежує можливості переходу між його компонентами. У такому гіпертексті відносини між компонентами нагадують структуру тезауруса, заснованого на родо-видових зв'язках. Ієрархічний гіпертекст не реалізує всіх можливостей технології гіпертексту. У середовищі розробників гіпертекстових систем він не користується популярністю (хоча і досить часто реалізується у працюючих системах).

Друге протиставлення характеризує не саму структуру гіпертексту, а можливості програмного забезпечення. Тут розрізняються прості і складні гіпертексти. Прикладом простого програмного забезпечення гіпертексту може служити електронне зміст документа, що дозволяє перейти до будь-якої частини змісту, минаючи етап перегляду всього тексту. До простого гіпертексту відноситься і система, яка дає можливість переглядати відсилання до літератури, що містяться в тексті, не звертаючись безпосередньо до списку літератури. Складні гіпертексти володіють багатою системою переходів між компонентами гіпертексту, в них відсутнє уявлення про базове тексті, з яким пов'язані другорядні за значимістю тексти. У певному сенсі нормальний, звичайний гіпертекст і є складним гіпертекстом.

За способом існування гіпертексту виділяються статичні і динамічні гіпертексти. Статичний гіпертекст не змінюється в процесі експлуатації; в ньому користувач може фіксувати свої коментарі, однак вони не змінюють суть справи. Для динамічного гіпертексту зміна є нормальною формою існування. Зазвичай динамічні гіпертексти функціонують там, де необхідно постійно аналізувати потік інформації, тобто в інформаційних службах різного роду. Гіпертекстової є, наприклад, Аризонська інформаційна система (AAIS), яка щомісяця поповнюється на 300-500 рефератів на місяць.

Відносини між елементами гіпертексту можуть спочатку фіксуватися творцями, а можуть породжуватися щоразу, коли відбувається звернення користувача до гіпертексту. У першому випадку мова йде про гіпертексту жорсткої структури, а в другому - про гіпертексту м'якої структури. Жорстка структура технологічно цілком зрозуміла. Технологія організації м'якої структури повинна грунтуватися на семантичному аналізі близькості документів (або інших джерел інформації) один до одного. Це нетривіальне завдання комп'ютерної лінгвістики. В даний час широко поширене використання технологій м'якої структури на ключових словах. Перехід від одного вузла до іншого в мережі гіпертексту здійснюється в результаті пошуку ключових слів. Оскільки набір ключових слів кожен раз може різнитися, щоразу змінюється і структура гіпертексту. Жорсткість чи м'якість архітектури гіпертексту залежить і від кількості інформації, яка в ньому міститься. Якщо вузлів у мережі гіпертексту порядку однієї-трьох тисяч, то найчастіше використовується жорстка архітектура, якщо ж кількість вузлів досягає декількох десятків тисяч або навіть мільйонів одиниць, то м'яка структура виявляється більш кращою, оскільки кодування жорстких зв'язків забирає надто багато часу. Зауважимо, що структура Інтернету часто функціонує як гіпертекст м'якої архітектури.

Технологія побудови гіпертекстових систем не робить різниці між текстової та нетекстової інформацією. Тим часом включення візуальної та звукової інформації (відеороликів, картин, фотографій, звукозаписів тощо) вимагає істотної зміни інтерфейсу з користувачем і більш потужної програмної та комп'ютерної підтримки. Такі системи отримали назву гіпермедіа або мультимедіа. Наочність мультимедійних систем визначила їх широке використання у навчанні, у створенні комп'ютерних варіантів енциклопедій. Відомі, наприклад, чудово виконані CD-роми з мультимедійними системами по дитячих енциклопедій видавництва "Дорлінг Кіндерслі".

Деякі гіпертекстові системи. Технологічно в основі гіпертексту лежать комп'ютерні програми, які підтримують такі базові функції:

забезпечення швидкого перегляду інформаційного масиву (браузинг);

обробка посилальних відносин (звернення і виклик фрагмента тексту або іншої інформації, на яку проводиться відсилання);

навігація по гіпертексту, запам'ятовування маршруту руху; подання шляху руху в легко сприймається формі;

можливість формування звичайного лінійного тексту як результату руху по гіпертексту;

додаток гіпертексту новою інформацією;

введення нових відносин у структуру гіпертексту (для систем з жорсткою структурою).

Програмні оболонки гіпертексту, як правило, універсальні. Вони можуть використовуватися в різних областях для створення тематично різних гіпертекстів. Такі, наприклад, оболонка ZOG і розроблена на її основі промислова гіпертекстова система KMS (університет Карнегі-Меллон, США). Сфери застосування цих гіпертекстових систем надзвичайно різноманітні - від роботи з документацією та підтримки електронної пошти до гіпертекстів, призначених для експертів, що працюють над бюджетом. Є й спеціалізовані системи. Так, система NoteCards (продукт компанії "Xerox PARC") призначена для аналітичної роботи, а система WE, моделююча особливості отримання нового знання - для допомоги в авторській роботі. Найбільш популярні в даний час програмні пакети HyperCard компанії "Apple". Вони відносно прості у використанні. Гіпертекст в оболонці HyperCard представляється у вигляді каталожних карток. Користувач за допомогою досить простого інтерфейсу організує структуру картки і встановлює зв'язки між картками. Пакети HyperCard дозволяють поєднувати різні типи інформації, зокрема картки можуть включати графічну, звукову та ін інформацію. Слід зазначити, що сучасні бази даних також включають поля для візуальної та звукової форми даних (пор., наприклад, базу даних ACCESS 7, що працює в середовищі Windows). Близька до HyperCard за своїми властивостями і програма SuperCard фірми "Silicon Beach". Деякі системи гіпертексту містять спеціальні засоби орієнтації користувача в гіперпростору - карти або закладки, що відзначають найбільш відвідувані вузли гіпертексту. Комплексом засобів орієнтації має система Hypergate Writer фірми "Eastgate Systems Inc".

Лабораторія комп'ютерної лінгвістики

Лабораторія комп'ютерної лінгвістики (далі Лабораторія) є навчальним підрозділом у складі Інституту філології Київського національного університету імені Тараса Шевченка. Науковий керівник Лабораторії - доц. Наталія Петрівна Дарчук. Основними напрямками роботи Лабораторії є комп'ютерна лексикографія, навчальні програми та машинний переклад.

Наукові відкриття відбуваються лише тоді, коли фундаментальні знання і досвід вчених поєднуються з амбіціями й ентузіазмом молодих дослідників. Цим принципом Лабораторія керується у своїй науковій та навчальній роботі. У наших проектах шляхом написання бакалаврських, дипломних, магістерських і кандидатських робіт беруть участь студенти та аспіранти. Наукове партнерство зі студентською молоддю є найбільшим нашим досягненням.

Суто наукові інститути поступово відходять у минуле, вони не в змозі задовольнити вимоги часу, і тому наукові центри переміщуються у навчальні заклади за зразком європейських країн. Ми пишаємося з того, що сприяємо цьому процесові.

Лабораторія є своєрідним центром для всіх, хто вивчає комп'ютерну лінгвістику чи інші галузі прикладного мовознавства, а також для будь-кого, хто веде наукову роботу в цих напрямках.



Прикладна лінгвістика і сучасність

Стан розвитку науки 20 ст. характеризується зміцненням взаємодії гуманітарних, природничих і технічних дисциплін, що обумовлено досягненнями кібернетики, інформатики, семіотики, які внесли суттєві корективи у зміст і компетенцію ряду наук.

Прикладна лінгвістика традиційно пов'язана з різноманітними аспектами лінгвістичного вбезпечення людської комунікації, які можна звести до єдиної проблеми оброблення інформації, що функціонує у суспільстві у вигляді текстів. Це проблеми лінгводидактики мов, орфографії, транслітерування, перекладу, термінології, дешифрування тощо.

Комп'ютеризація інформаційної сфери стимулювала розвиток нового напрямку прикладної лінгвістики - комп'ютерного, до компетенції якого входить лінгвістичне забезпечення функціонування інформації в автоматизованих системах різних типів. У мовознавців з'явився новий адресат — комп'ютер, якого треба навчати мов не за "людськими", а за спеціальними словниками і граматиками, максимально формалізованими, написаними у вигляді алгоритмів. Тільки сформувавши в штучному інтелекті комп'ютера знання природних мов, можна зробити з нього інтелектуального, набагато енергійнішого за людину партнера-помічника. В університетах усього світу понад 50 років успішно займаються вирішенням цього завдання.

Сьогодні комп'ютер навчений здійснювати чимало трудомісткої роботи — укладати словники різних типів - орфографічні, перекладні, синонімів, антонімів, омонімів, перекладати стандартизовані тексти, створювати реферати, здійснювати коректорську і частково редакторську роботу, підтримувати масштабні бази даних для найрізноманітніших дослідницьких проектів. І це лише початок, перспективи тандему людина - комп'ютер грандіозні. Вирішення цих завдань не є тривіальним і шаблонним, види їх весь час змінюються під впливом динамічних комунікативних ситуацій "людина - людина ", "людина — ЕОМ ".

У 70-х роках учені зрозуміли, що вирішення багатьох прикладних проблем не може бути суто лінгвістичним. Так виникла міжгалузева дисципліна — моделювання знань, яка досліджує мислення, мовну та психічну поведінку людини Ця сфера дотична до ряду наук — логіки лінгвістики, психології, математики, кібернетики. Такий синтез наукових інтересів, викликаний необхідністю створення автоматизованих систем штучного інтелекту, здатних підтримувати науково-дослідну роботу, видавати спеціалісту енциклопедичні знання та бібліографічні відомості, допомагати у створенні багатоаспектних, глибоко ешелонованих класифікацій матеріалу. Такого роду автоматизовані системи називаються базами знань, створенням яких займається також і комп'ютерна лінгвістика.

Сучасна комп'ютерна лінгвістика цілком визначила сферу своєї компетенції — це створення лінгвістичних процесорів для автоматизованих інтелектуальних систем.
Наша передісторія

Можна сказати, ми опинилися вчасно на своєму місці. У 60-х роках у Києві було створено ряд структур, у яких займалися проблемами комп'ютерної лінгвістики. В Інституті кібернетики група проф. Е.Ф. Скороходька працювала над створенням формальної мови, RX-кодів для запису семантики слів, машинним перекладом на базі української мови. В інституті мовознавства відділ структурно-математичної лінгвістики під керівництвом проф. B.C.Перебийніс займався статистичними дослідженнями української мови, автоматизованими системами аналізу текстів. На факультеті кібернетики Київського університету було створено кафедру структурно-математичної лінгвістики (завідувач проф. Нікітіна Ф.О.) . З ініціативи проф.Глушкова В.М. в Україні розпочато підготовку спеціалістів вищої кваліфікації зі спеціальності 10.02.21 — "структурна, прикладна і математична лінгвістика", центром якої став Інститут мовознавства і наш університет. За цей період в Україні напрацьовано теоретичний і прикладний досвід у галузі комп'ютерної лінгвістики, створено кваліфікований кадровий потенціал, якому належить розвиватися в нових науково-економічних умовах. Набутий досвід сприяв глибшому розумінню проблематики комп'ютерної лінгвістики, визначенню її змістових пріоритетів. У першу чергу це лінгвістика, а не кібернетика, ось чому в контексті кібернетики, де в навчальних планах матлінгвістів переважала математика, а не лінгвістика, це відділення не мало перспектив і в 1985 році було закрите. Однак маючи такий потенціал, Україна не могла опинитися на узбіччі магістральних наукових потоків, і в 1989 році з ініціативи філологічного факультету нашого університету та відділу структурно-математичної лінгвістики Інституту мовознавства рішенням Міносвіти на філологічних факультетах було відкрито спеціалізацію "Комп'ютерна лінгвістика".

З цього року студенти 3-5 курсів українського відділення нашого факультету оволодівають основами комп'ютерної лінгвістики за спеціальною програмою. Серед дисциплін спеціалізації постійно читаються спецкурси: "Методи структурної лінгвістики" (доц.Алексієнко Л.А.), "Лінгвістичні моделі" (доц.Алексієнко Л.А., к.ф.н. Зубань О.М.), "Лінгвістичні алгоритми" (доц. Дарчук Н.П.), "Лінгвостатистика" (доц. Дарчук Н.П.), "Формалізований морфологічний і синтаксичний аналіз мови" (доц. Дарчук Н.П.), "Комп'ютерна лексикографія" (доц. Дарчук Н.П.)Г "Навчальні комп'ютерні програми мов" (доц. Дарчук Н.П., Сорокін В.М.), "Машинний переклад" (с.н.с. Орлова Л.В.), "Морфемно-словотвірний фонд української мови" (проф. Клименко Н.Ф., д.ф.н. Карпіловська Є.А.), "Основи програмування на ПЕОМ" (доц.Антонов В.М.). Навчальна програма спеціалізації постійно оновлюється, у цьому році студентам читаються нові спецкурси: "Основи штучного інтелекту" (д.ф.н. Карпіловська Є.А.), "Морфемний сегментатор української мови" (Зубань О.М.), "Прикладне термінознавство" (доц. Алексієнко Л.А.).

До викладання дисциплін спеціалізації залучаються викладачі факультету кібернетики, а також науковці з Інституту мовознавства та Інституту української мови в рамках Програми цільової підготовки спеціалістів.

За 10 років підготовлено понад 70 україністів, які мають сертифікат спеціалізації "Комп'ютерна лінгвістика". Вони успішно працюють у Київському університеті, в інших вузах Києва, в інститутах НАНУ, Машинно-інформаційному фонді української мови, в державних і комерційних установах. П'ятеро з них захистили кандидатські дисертації, троє працюють у зарубіжних університетах.
Лабораторія комп'ютерної лінгвістики

З метою кращої організації навчального циклу спеціалізації та науково-дослідної роботи у 1992 році при кафедрі сучасної української мови створено навчально-наукову лабораторію комп'ютерної лінгвістики. Штатно у лабораторії числиться невелика кількість співробітників: доц. Алексієнко Л.А. - науковий керівник, доц. Дарчук Н.П., інженер-програміст Сорокін В.М, ст . лаборант Чиркова І.І., однак лабораторія стала своєрідним центром для всіх, хто вивчає комп'ютерну лінгвістику, а також і для будь-яких студентів та аспірантів, які хотіли б вести наукову роботу в цьому напрямку. Наукове партнерство із студентською молоддю ми вважаємо найбільшим нашим досягненням. Бакалаврські, дипломні та магістерські роботи є частиною наукових проектів лабораторії, що якнайкраще сприяє розбудові молодих спеціалістів, виховує в них відповідальність, почуття ліктя у дослідницькій роботі. Це школа проф. Перебийніс B.C., глави української структурно-математичної лінгвістики, і ми пишаємося, що цим духом наповнилося життя нашої лабораторії.

Основними напрямками наукової роботи лабораторії є комп'ютерна лексикографія, навчальні програми, машинний переклад. Сьогодні в активі лабораторії маємо: Частотний словник сучасної української поетичної мови www. philolog. univ. kiev. ua Ідеографічний словник української фразеології, (електронна версія) Електронний підручник української мови. Морфологія (для абітурієнтів) www.philolog.univ.kiev.ua Граматичний словник українських дієслів. Лінгвістична база даних Українсько-італійський словник українських дієслів. Лінгвістична база даних -CD-ROM - www.philolog.univ.kiev.ua Комп'ютерні тести до курсу "Сучасна українська мова. Морфеміка. Словотвір" Тезаурус (словник синонімів) української мови. Електронна база даних Наші-найближчі та перспективні проекти пов'язані із розробленням концепції та створенням таких автоматизованих систем:
Параметризована лексикографічна база української поетичної мови II половини XX ст.;
Параметризована лексикографічна база мови Л.Українки (разом з Волинським університетом);
Електронний підручник української мови.Синтаксис.;
Комп'ютерна граматика української мови;
Динамічні процеси в лексичній системі сучасної української мови.
 Частотний словник сучасної української публіцистики: Дарчук Н.П. (у співаторстві);
Синтаксический анализ научного текста на ЭВМ. — К., 2000: Дарчук Н.П. (у співавторстві).
 У посібнику описано об'єкт, предмет, мету, завдання, методологію, методи, методики, галузі та аспекти редагування. Редагування розглядається як приведення тексту у відповідність із нормами. Сформульовано нормативну теорію редагування. Детально класифіковані та описані всі основні методи контролю й виправлення помилок. Подано детальний опис інформаційних, соціальних, композиційних, логічних, лінгвістичних, психолінгвістичних, видавничих і поліграфічних норм редагування. Розглянуто методи комп'ютеризації процесу редагування. Посібник пропонує формалізовану методику проведення редагування, враховує досягнення теорії редагування розвинутих країн Заходу. Посібник призначений: для студентів вищих і середніх закладів освіти, що навчаються за спеціальностями “Журналістика” й “Видавнича справа і редагування” (рівні бакалавра, спеціаліста й магістра); для аспірантів вказаних спеціальностей (окремі розділи); для слухачів курсів підвищення кваліфікації працівників засобів масової інформації (книжкових, журнальних та газетних видавництв, а також редакцій радіо й телебачення); для працівників засобів масової інформації суміжних спеціальностей; для авторів-професіоналів; для студентів-філологів та учителів мови і літератури, які будуть учити школярів писати твори. Усі перелічені групи читачів можуть користуватися цим посібником і як довідковим виданням.
Відомі Лінгвісти
Анісімов Анатолій Васильович



Народився 15 червня 1948 (66 років)
Южно-Сахалінськ, Сахалінська область, РРФСР
Місце проживання Київ
Громадянство Україна
Галузь наукових інтересів комп'ютерна лінгвістика
квантові обчислення
рекурсивні перетворювачі інформації
штучний інтелект
стиснення та захист інформації
паралельні алгоритми
Заклад Київський національний університет імені Тараса Шевченка
Alma mater Київський державний університет
Вчене звання професор
Науковий керівник Глушков Віктор Михайлович
Відомий завдяки: «Комп'ютерна лінгвістика для всіх»

Біографічні відомості

Закінчив механіко-математичний факультет КНУ ім. Тараса Шевченка (1965–1970). Захистив дисертацію за темою «Групи та контекстно-вільні граматики» (1972). У 1994 році захистив докторську дисертацію за темою «Рекурсивні перетворювачі інформації».

Асистент (1970–1972), старший викладач (1972–1974), доцент (1974–1977) факультету кібернетики КНУ ім. Т. Шевченка. Завідувач кафедри теоретичної кібернетики (1977–1980), завідувача кафедри математичної лінгвістики (1980–1984). З 1984 року — професор, завідувач кафедри математичної інформатики. З 2004 року — декан факультету кібернетики.

З 1992 року завідувач відділу інтелектуалізації інформаційних технологій Міжнародного науково-навчального центру інформаційних технологій та систем Національної академії наук України. Член бюро відділення інформатики НАН України.

Під час стажування у Стенфордському університеті в 1976–1977, Анатолій Анісімов був слухачем курсу «Мистецтво програмування» Дональда Кнута. Він же є автором передмови до третього видання першого тому впливового багатотомника «Мистецтво програмування» згадуваного вченого російською мовою.

Під його керівництвом захищено 2 докторські та 35 кандидатських дисертацій.

Нагороди та ґранти

Лауреат премії Національної академії наук України імені Глушкова у галузі кібернетики (1994). Соросівський професорський ґрант (1995–1996). Лауреат Державної премії України (1998).[Джерело?] Заслужений діяч науки і техніки України (2005).[2] Нагорода Ярослава Мудрого АН ВШ України (2006). Лауреат премії НАН України імені С. О. Лєбєдева у галузі обчислювальної техніки (2007).[3] Заслужений професор Київського національного університету ім. Тараса Шевченка (2008). Відзнака президії НАН України «За підготовку наукової зміни» (2008). Орден «За заслуги» III ступеня (2009).


Бібліографія
«Проектирование сложных систем посредством параллельных взаимодействующих процессов в режиме имитационного моделирования» (1983, співавтор)
«Рекурсивні перетворювачі інформації», Київ, 1987. — 200 с.
«Інформатика, творчість, рекурсія», Київ, Наукова думка, 1989. — 220 с.
«Комп'ютерна лінгвістика для всіх: Міфи. Алгоритми. Мова», Київ, 1990. — 205 с.
«Модулярна арифметика великих чисел», Київ, Академперіодика, 2001. — 153 с.
«Обчислювальна геометрія», Київський університет, 2003.
«Основи інформаційної безпеки та захисту інформації у контексті євроатлантичної інтеграції України», Київ, «Євроатлантикінформ», 2006. — 104 с.


Цитати

Найкращі середньовічні трактати по логіці написані граматистами, і нема сумніву в тому, що в 21 віці найкращі трактати по лінгвістиці напишуть програмісти.

Галузі наукових інтересів


Дискретна математика, комп’ютерна лінгвістика,теорія обчислень, складність алгоритмів,стиснення та захист інформації,криптографія, паралельні алгоритми та програмування,квантові комп’ютери та квантові обчислення, рекурсивні перетворювачі інформації, нейрообчислення,штучний інтелект.


Валентина Ісидорівна Перебийні

Народився 13 жовтня 1923
с. Тишенківка (Красноградський район) Харківської області
Місце проживання Київ
Громадянство Україна
Галузь наукових інтересів структурна, прикладна, математична і комп'ютерна лінгвістика; навчальна лексикографія
Заклад Київський національний лінгвістичний університет
Alma mater Військовий інститут іноземних мов (Москва)
Вчене звання Професор
Науковий ступінь Доктор філологічних наук
Відомі учні Л. А. Алексієнко, Є. І. Гороть, Н. П. Дарчук, Н. Ф. Клименко
Відомий завдяки: Фундатор наукових напрямів «структурно-математична лінгвістика», «прикладна лінгвістика», «комп'ютерна лінгвістика» і «навчальна лексикографія» в Україні


Народилася в родині сільських учителів. У 1949 році закінчила педагогічний факультет Військового інституту іноземних мов (Москва), отримавши диплом викладача англійської мови вищої і середньої школи.

З 1953 по 1961 рік працювала старшим викладачем і завідувачем кафедри іноземних мов Черкаського державного педагогічного інституту.

У 1962 році після закінчення річної аспірантури Московського державного інституту іноземних мов ім. Моріса Тореза захистила кандидатську дисертацію зі структурної лінгвістики на тему «Роль моделей в розмежуванні значень багатозначного дієслова (до питання про методи лексикологічних досліджень — на матеріалі дієслів make і do в англійській мові)». З 1962 року працювала науковим співробітником відділу теорії української мови Інституту мовознавства ім. О. О. Потебні. У 1968 році очолила щойно створений в Інституті відділ структурно-математичної лінгвістики, яким завідувала 18 років. У 1970 році захистила докторську дисертацію «Кількісні та якісні характеристики системи фонем сучасної української літературної мови». У 1973 році їй присуджено звання професора за спеціальністю «структурна, прикладна і математична лінгвістика».

З 1986 року займається науково-викладацькою роботою. Читає теоретичні курси на відділенні прикладної (комп'ютерної) лінгвістики у Київському національному лінгвістичному університеті. У 2003 році їй присвоєно звання «Почесний доктор Київського національного лінгвістичного університету».