Хэл боловсруулалтын судалгаа

  1. Хэл илрүүлэгч (Language Detector): Бичвэрийг ямар хэл дээр бичигдсэнийг тодорхойлно. Жишээ нь, монгол бичвэр дотор монгол үгсийг бичсэн эсэх, эсвэл монгол крилл үсгээр үл танигдах үгс бичсэн эсэхийг шалгаж болно.

  2. Өгүүлбэрээр салгагч (Sentence splitter): Бичвэр дотор байгаа өгүүлбэрийг зааглана. Энэ нь монгол хэлний цэг цэглэлийн дүрмийн дагуу өгүүлбэрийг хэрхэн төгсөж байгааг зөв ялгана. Жишээ нь, асуултын тэмдэг, цэг гэх мэт цэг цэглэлүүд өгүүлбэрийн дунд, адагт орж болдог.

  3. Үглүүр (Tokenizer): Өгүүлбэрт байгаа үгзүйн утгат хэсгүүдийг зөв таньж зааглана. Жишээлбэл: “Проф. Ж.Пүрэв” гэсэн өгүүлбэрийг “Проф.”, ”Ж.”, ”Пүрэв” гэсэн гурван утгат хэсгээс бүрдэж байна хэмээн зааглана.

  4. Үгийн аймгийн тэмдэглүүр (Part-of-Speech tagger): Өгүүлбэрт байгаа утгат хэсэг буюу үгийг монгол хэлний аль үгийн аймагт (нэр үг, үйл үг, тэмдэг нэр гэх мэт) хамаарагдахыг олно. Энэ нь тухайн үг ямар үүргээр өгүүлбэрт орж буйг олох юм. Зарим үгс харагдах хэлбэрийн хувьд ижил боловч утгын хувьд ялгаатай өөр өөр үгс байдаг. Харин зарим нь нэг хэлбэрээр бичигдэж нэг утгыг илэрхийлэх боловч өгүүлбэрт хаана байрлаж байгаагаасаа хамаарч үүрэг нь өөр болдог. Эдгээр хоёрдмол утгыг ялгаж салгаж үгийн аймгийн тэмдэглэгээ хийдэг хэрэгсэл програм юм.

  5. Утга илэрхийлэхгүй үгийг хасуур (Stop word remover): Өгүүлбэрт маш олон давтамжтай хэрэглэгддэг хирнээ ямар нэгэн утга илэрхийлдэггүй, эсвэл програмын зорилгод ашиггүй үгсийг илрүүлж бичвэрээс устгана. Ингэснээр програмын гүйцэтгэлийн хурд ихсэх, зөв үр дүнд хүрэх зэрэг давуу талтай. Жишээ нь: “Элбэгдорж нь НҮБ-д үг хэлэв” гэсэн өгүүлбэрт байгаа “нь” утгат хэсгийг устгахад өгүүлбэрийн утга өөрчлөгдөхгүй.

  6. Үгзүйн задлуур/үүсгүүр (Lemmatizer): Монгол хэл нь залгамал хэл учир үг өгүүлбэрт орохдоо нөхцөл дагавраар хувирсан байдаг. Ийм хувирсан үгийн үндсийг монгол хэлний зөв бичгийн дагуу олно.

  7. Холбоо үг таниур (Multi-word expression detector): Нийлж нэг утга илэрхийлэх үгсийг танина. Жишээ нь: “Тэр үхрийн нүд улайв”, “Тэр үхрийн нүд түүв” гэсэн хоёр өгүүлбэрт байгаа “үхрийн нүд” нь нэг утга буюу “жимс” гэсэн утгыг илэрхийлж байна уу гэдгийг тогтооно.

  8. Нэрлэсэн нэгж таниур (Named Entity Recognizer): Өгүүлбэрт байгаа хүн, байрлал, байгууллагын нэрийг ялган тэмдэглэгдэг програм юм. Жишээлбэл: “Улаан сайд Булган аймагт айлчлав” гэсэн өгүүлбэрт байгаа “Улаан” – хүний нэр, “Булган” – байрлалын нэрийг ялгаж тэмдэглэх юм.

  9. Өгүүлбэрзүйн задлуур (Syntactic/dependency parser): Энэ хэрэгсэл нь өгүүлбэрзүйн төвшинд шинжилгээ хийж үйлийн эзэн, үйл, үйлд өртөгч зэргийг тэмдэглэнэ.

  10. Үгийн салаа утга таниур (Word sense disambiguator): Олон салаа утгатай үгийг тухайн өгүүлбэрт аль утгаараа орж байгаа тэмдэглэнэ. Тухайлбал “Харуул мод харуулдав”, “Харуулаар мод харуулдав” гэсэн хоёр өгүүлбэрийн “харуул”, “харуулдав” гэсэн хоёр үгийг ямар утгаар орж байгааг тодорхойлно.

Судалгааны арга

Орчин үеийн хиймэл оюуны систем түүний нэг төрөл болох Цахим хэл шинжлэлийн салбарт эмпирик судалгааны арга голлох байр суурь эзэлж байна. Жишээлбэл статистик машин орчуулгын системүүд нь харилцан хөрвүүлж байгаа хоёр хэлний онолын ямар ч мэдлэг ашиглахгүйгээр, зөвхөн тухайн хоёр хэлний их хэмжээний орчуулгын сан (сургалтын сан) дээр суурилан сайн чанартай орчуулгыг гаргаж чадах болжээ. Үүнтэй нэгэн адил хэл боловсруулалтын ихэнх хэрэгсэл тухайн даалгаварт тохирох сургалтын өгөгдөл дээр суурилан хэлний зүй тогтлыг гаргах төрөл бүрийн арга, алгоритмыг ашиглаж байна. Энэхүү судалгааны ажилд Монгол хэл боловсруулах хэрэгслүүдийг хөгжүүлэхийн тулд эхлээд тэдгээрт хэрэглэгдэх хэлний хөмрөг, материалын санг зөв үүсгэх, мөрдлөгөөг тодорхойлох, санг үүсгэх, түүнийг үнэлэх зэрэг ажлууд хийгдэнэ. Жишээ нь модны санг үүсгэх нь эхлээд Монгол хэлний өгүүлбэр, тэдгээрийн гишүүдийг тодорхойлох, тэдгээрт харгалзах тэмдэглэгээний олонлогийг тодорхойлох, өгүүлбэрийг тэмдэглэх мөрдлөгөөг гаргах, энэхүү гаргасан мөрдлөгөөний дагуу өгүүлбэрүүдийг сонгож тэмдэглэгээ хадах зэрэг алхмууд багтана. Ийнхүү үүссэн модны сангаас хэлний зүй тогтлыг гаргаж авах, шинжлэх гэх мэтийн дараа дараагийн судалгааны ажлууд хийгдэж энэхүү хэлэнд тохирох хамгийн боломжит, сайн арга алгоритм, эсвэл түүний параметрүүдийн оновчлолыг гаргана. Энэ нь бас зөвхөн эмпирик судалгаа байдаггүй бөгөөд бас хэлзүйн түгээмэл болон тусгайлсан онолуудыг ашиглаж байдаг. Жишээлбэл өгүүлбэрийн гишүүдийн тэмдэглэгээний мөрдлөгөөг хэл шинжлэлийн онол дээр тулгуурлан боловсруулна.