Ч.Мөнхнаран: “ЧИМЭГЭ” системийг олон мянган хүний дуу хоолойны датаг цуглуулж хийсэн
“ЧИМЭГЭ” яриа таних, хөрвүүлэх системийн тухай 2019 оны зургаадугаар сарын 19-нд “Болорсофт” программ хангамж хөгжүүлэгч компанийн Гүйцэтгэх захирал Ч.Мөнхнарантай хийсэн ярилцлагагыг СЭРГЭЭН НИЙТЛЭВ.
Болорсофт компани өнгөрсөн жилээс Монгол хэлний дуу яриа боловсруулах системийг хөгжүүлсээр өнөөдөр "ЧИМЭГЭ” хэмээх Монгол ЯРИА ТАНИХ СИСТЕМ буюу ЯРИАНААС БИЧВЭР ҮҮСГЭХ системийн анхны туршилтын хувилбараа энэ даваа /2019.06.17/ гарагт танилцууллаа.
Энэхүү систем нь Монгол хэлний хувьд олон нийтэд турших боломжтойгоор танилцуулж буй анхны хувилбар юм. Одоогоор энгийн монгол бичвэрийг 86%, англи бичвэрийг 95% зөв таньж байгаа. Хэт ярианы хэлний юм уу гадаад үгсийг сайн танихгүй байх талтай. Бид удахгүй монгол яриа таних чадварыг 95% хүргэнэ. Энэ нь бид компьютертойгоо Монгол хэлээрээ чөлөөтэй ярилцаж харилцах боломжтой болно гэсэн үг юм.
ТУРШИЖ ҮЗЭХ: https://www.chimege.mn/
Бид уг шинэ технологийн талаар “Болорсофт” программ хангамж хөгжүүлэгч компанийн Гүйцэтгэх захирал Ч.Мөнхнарантай ярилцлаа.
НАЙМАН САРЫН ТУРШ ОЛОН МЯНГАН ХҮНИЙ ДУУ ХООЛОЙНЫ ДАТАГ ТАСРАЛТГҮЙ ЦУГЛУУЛЖ БИЙ БОЛГОСОН
-Дуу яриа боловсруулах “Чимэгэ” системийг юуны өмнө уншигчдадаа танилцуулаад яриагаа эхлүүлье
-Энэ бол суурь технологи. Яриаг бичвэр рүү хөрвүүлэх, яриа таних буюу Монгол хүний яриаг кирилл бичиг рүү хөрвүүлэх технологи юм. Уг технологид суурилан төрөл бүрийн программууд хийж болно. Тухайлбал, автомат протокол хөтлөлт, “Call center”-ийн автоматжуулалт гэх мэтээр хүний цагийг хэмнэх боломжтой технологиуд. Дэлхий дахинд үүнийг аль хэдийнээ хэрэглээд эхэлчихсэн ч Монгол улсад Монгол хүний яриа таньдаг систем өнөөдрийг хүртэл байсангүй. Манай улс цөөхөн хүн амтай, Монгол хэл өөрөө бусад бүх хэлээс ялгаатай өөрийн тусдаа язгууртай хэл учраас энэ системийг Монголчууд өөрсдөө зохиохоос өөр аргагүй. Бидний харж буй хамгийн гол зүйл бол манайх цөөхөн хүн амтай, цөөхөн боловсон хүчинтэй учир зөв зохион байгуулалт хийх чухал, үүнд уг суурь технологиуд манай улсын хөгжилд чухал үүрэг гүйцэтгэнэ гэдэг утгаар хийсэн. Хийхийн тулд хиймэл оюуны гол технологийн нэг болох Гүн сургалтын систем /deep learning/ -ийг ашигласан. Манай байгууллагын зүгээс найман сарын хугацаанд тасралтгүй ажиллаж, хэдэн мянган хүний дуу хоолойны дата цуглуулж, үүн дээр нь хиймэл оюуны чиглэлээр мэргэшсэн Германы Берлиний их сургуулийн судлаач Төгстөгөлдөр, “Bolorsoft” ХХК-ийн үүсгэн байгуулагч инженер, архитектор Бадрал болон манай компанийн бусад бүх ажилчид ажиллаж байж 86 хувийн гүйцэтгэлтэй технологио олон нийтэд танилцууллаа.
Цаашлаад бид өгөгдлүүдийг байнгын сургалтад оруулж, сайжруулаад явна. Ингэхийн тулд маш олон хүний дэмжлэг хэрэгтэй болох байх.
-Маш олон хүний дуу хоолойны дата дээр суурилсан гэлээ. Ойролцоогоор хэдэн хүний дуу хоолойг ашиглав? Тэдний дуу хоолойны өгөгдлийг хэрхэн цуглуулсан бэ?
-Яг албан ёсоор тоо гараагүй. Манай “Bolorsoft” компани цахим хэл шинжлэлээр түлхүү программ хангамж хөгжүүлдэг компани. Тэр утгаараа ч бид хүний унших ёстой үг, өгүүлбэрүүд, өгүүлбэрийн бүтцийг ялгаад, яг л ийм үг, өгүүлбэрийг уншуулж сургаж байж бүтээгдэхүүн гарах нь гэдгийг тооцсон нь эхний ажил байсан. Цаашлаад хүмүүсээр хэр удаан хугацаанд бичвэрийг уншуулах вэ, нэг хүн хэдий хугацаанд унших боломжтой вэ гэх мэтийг тооцно. Нэг хүн тийм ч удаан хугацаанд уншиж чаддаггүй, үг өгүүлбэрүүдийг алдаатай унших гэх мэт хүндрэлүүд байдаг ч үр дүнг нь бодолцож бид нэлээд нухацтай ажилласан.
-Үгийн сан нь хэдэн үгнээс бүрдэх вэ? Эсвэл өгүүлбэрээр тооцох уу?
-Хүн ярихдаа нэг нэгээр үгээр ярьдаггүй тул өгүүлбэр өгүүлбэрээр нь явсан. Харин өгүүлбэрээс чухал зүйл бол маш олон төрлийн хүний хоолой, ярианы онцлог байлаа. Манай улс олон ястантай тул бид аль болох бүгдэд нь хүрч ажиллахыг хичээлээ. Баяд, Дөрвөд, Үзэмчин, Захчин гээд энэ бүх ястнуудын аялгыг хүмүүсээр хэлүүлсэн. Гэхдээ үүн дээр “Chimege.mn” сайтаар ороход тухайн бүс нутгийн, сайн танигдахгүй байгаа аялга байвал та бүхэн бидэнтэй нягт холбогдон ажиллаж, өөрийн бүс нутгийн хүмүүсийн аялгыг оруулах бүрэн боломжтой шүү гэдгийг энэ ярилцлагаар дамжуулан мэдүүлье.
АМЕРИКЧУУД “SIRI”-ЭЭС ЦАГ АГААР АСУУДАГ ШИГ БИД
МОНГОЛООР УТАСТАЙГАА ЯРИЛЦАНА
-Гүйцэтгэл 86 хувьтай байгаа гэсэн. Бүрэн гүйцэт болгохын тулд юу юу дутуу байгаа гэж та бүхэн дүгнэж байгаа вэ?
-Энэ гүйцэтгэлийн хувь биш юм. Аккураси буюу зөв таних нарийвчлалын хувь. Манай бүх төслүүд судалгаанд суурилсан байдаг. RND буюу Research and Development-д юу нь дутагдсан, яавал зүгшрэх вэ гэдгийг судалгаан дээр үндэслэн гарч ирсэн үр дүнд анализ хийж гаргаж ирдэг. Бид энэ мэтээр алхам алхмаар явна. Энэ бол “DEMO” буюу анхны хувилбар. Өөрөөр хэлбэл, бидний хувьд болоогүй л гэсэн үг. Хүмүүсийн хоолойны өгөгдлүүд нэмэгдүүлнэ, уншиж буй өгөгдлүүдийг сайжруулна гэх мэтээр явсны нь дараа л бид за ийм байсан зүйл ийм боллоо, одоо яаж оновчлол хийх вэ гэж алхам алхмаар буюу Agile зарчмаар явна. Ер нь 100%болохгүй байх. 99% хүрэхэд бүрэн хийж дууслаа гэж үзэж болох юм. Манайд гол дутагдаж буй зүйл бол өгөгдөл.
-Технологи боловсруулахад ямар хүндрэлүүд учирч байв аа? Тухайлбал, Монгол хэлний онцлогоос шалтгаалаад санаж, төлөвлөснөөр болохгүй байх гэх мэт...
-Монгол улс цөөн хүн амтай тул амьд өгөгдөл бага үүсдэг, тиймээс Монгол хэлийг бага хөмрөгтэй хэл гэж үздэг. Энэ л хамгийн том хүндрэл юм. Тэгээд цаашлаад хүнтэй л холбоотой хүндрэлүүд гарч байлаа. Хүмүүс нэг үгийг дөрөв, таван янзаар хэлдэг байх жишээтэй. Тийм үгийг таньж гаргаж ирэхэд их хэцүү болж байгаа юм. Зарим хүмүүсийг хараа хяналттай байж л уншуулахгүй бол тоглоом шоглоом болгоод хөгжилдөөд л, “өнөөдөр” гэдэг үгийг сунгаж татаад, дуулаад л хэлчихсэн байх жишээтэй. Энэ утгаараа хүнтэй ажиллах л хэцүү. Харин компьютер болон программ команд өгөхөд л командын дагуу ажиллаж буй тул асуудал багатай.
Нэмж нэг зүйлийг хэлэхэд, хиймэл оюуны программчлалыг гардан хийж буй Германы Берлиний их сургуулийн судлаач Төгстөгөлдөр, “Bolorsoft” ХХК-ийн үүсгэн байгуулагч инженер, архитектор Бадрал нарын гардан гүйцэтгэсэн хэд хэдэн нээлттэй эх бүхий төсөл байдаг. Бадрал ах ОпенМН гэх нээлттэй эхийн холбоог 17 жилийн өмнө байгуулж, зөндөө зүйл хийж байсныг салбарынхан андахгүй. Github дээр Төгөлдөр ахын гүн сургалтын программчлалын кодын репозитор бий. Тэд нээлттэй эхийг таашаан дэмжих философитой тул хийсэн зүйлсээсээ харамгүй нээлттэй байршуулдаг байсны үр шимийг олон хөгжүүлэгчид хүртэж, бүтээгдэхүүн хүртэл гарч байсан. Өнөөгийн амжилт ч нээлттэй байсны үр шим гарч байгаа гэж бодож байна.
Яг үнэнийг хэлэхэд дэлхийн хүн амтай харьцуулахад Монгол хэлээр ярьдаг цөөхөн л хүн бий. Дэлхийд тийм ч хэрэгтэй биш, бидэнд л маш их хэрэгтэй зүйл. Бид Америкуудтай адилхан “Siri”-тэй ярьж “Цаг агаар хэд вэ, цаг хэд болж байна, тэрэн рүү залгаарай, тийм уулзалт сануулаарай” гэдгийг олон үйлдэл хийхгүйгээр, Монголоороо хэлээд мэдчихдэг, хийчихдэг болмоор байна шүү дээ. Тиймээс энэ бол Монгол хэлээр ярьдаг, цаашлаад монгол туургатан бүгдэд хэрэгтэй зүйл хийхээр л зүтгэж байгаа нэг ажил.
-Уг технологийг бизнестэй хэрхэн холбох талаар гарцыг мэдээж тооцоолсон байгаа болов уу? Монгол улсын хувьд таны хэлсэнчлэн тийм ч их хэрэглэгчтэй биш тул өндөр ашиг олох магадлал бага болов уу?
-Тийм. Гэхдээ оюуны хөдөлмөр үнэлэгдэх ёстой гэдэгт бид маш хатуу байр суурьтай байдаг. Манайх гэлтгүй бүх л IT-ийн компаниудын гол зэвсэг бол хүн. Дараа нь компьютер. Тиймээс бид гаргасан зардлаа зайлшгүй нөхөх ёстой. Коммершил бүтээгдэхүүн гарах ёстой, бизнестэй ямар нэгэн байдлаар холбогдох ёстой. Тэгж байж л цаашаа хөгжинө. Үгүй бол дандаа л зарлага гардаг бүтээгдэхүүн цаашид хөгжихгүй.
УТСААР ХҮНТЭЙ ХАРЬЦАХГҮЙ МАШИНТАЙ ХАРЬЦАН, ХУРЛЫН ПРОТОКОЛ БУУЛГАЖ, СЭТГҮҮЛЧДИЙН АВСАН ЯРИАГ ХӨРВҮҮЛНЭ
-Олон нийтэд нээлттэй тавьсан байгаа хувилбар хоёр өгүүлбэрээс цааш хөрвүүлэхгүй байгаа. Үүнийг илүү өргөн хүрээнд ашиглахын тулд хэрэглэгч мөнгөө төлөх шаардлагатай байх нь ээ?
-Манай гаргасан байгаа хувилбар цаанаа техникийн асуудалтай байгаа л гэсэн үг. Хоёр өгүүлбэрээс цааш хөрвүүлэх боломжтой болгоод хүчин чадлыг нь нэмчихэж болно. Гэхдээ түүнийгээ дагаад зардал их гарна. Үүнийг бид одоогоор бүтээгдэхүүн гэж ойлгож болохгүй. Ийм технологи гаргалаа шүү гэдгээ л хүмүүст танилцуулж байна. Яг бүтээгдэхүүн гаргавал, юунд чиглэсэн, юунд зориулагдсан гэх мэтээр тодорхой зорилготой байх ёстой. Одоогоор гаргасан технологийг маань хүмүүс “болж байна, Монгол хэл ийм түвшинд хүрч байгаа юм байна” гэж үнэлж байгаа тул их урам авч байгаа.
-Утсан дээрээ “Siri” шиг харьцах боломжтой бүтээгдэхүүн гаргаж болно гэж та хэлж байсан. Үүн шиг уг технологийг ашиглахаар төлөвлөсөн ямар ямар бүтээгдэхүүнүүд байгаа вэ?
-Хамгийн эхний зорьж буй зүйл бол “Call center”. Утасны автомат буюу хүнтэй харьцалгүй шууд машинтай харьцах боломжийг бид бүрдүүлэхийн тулд хамгийн эхлээд ажиллана. Дараа нь хурлын протоколуудыг буулгана. Бид туршилт хийж үзсэн. Тухайлбал, шүүх цагдаагийн байгууллагуудын протоколыг маш хурдан ивэх шаардлагатай болдог, шивж байхдаа алддаг, зарим нэгийг алгасаж, ерөнхийлж бичдэг хүндрэлүүд олон бий. Энэ хүндрэлүүдийг шийдэж, бүтэн бичих боломжийг бид олгох болно. Ер нь текст өгөгдөл гэдэг хамгийн их анализ хийх боломжтой өгөгдөл байдаг.
-Манай салбарын хувьд ч зочноос ярилцлага авснаа шууд болгох боломжтой юм билээ шүү дээ?
-Тийм, шууд текст болгож болно. Бид угаас хэл шинжлэл чиглэлээр ажилладаг дээр нь хиймэл оюунтай хослуулдаг тул цаашид зогсохгүй, улам хөгжүүлнэ. Тухайлбал, та бид хоёрын дундаас анализ хийгээд л, ерөнхий үгнүүдээр нь гарчгийг нь гаргаад ирж болно. Энэ бол тексттэй ажиллахын давуу тал.
ШИВЖ СУУХ АЖЛАА КОМПЬЮТЕРТ ДААТГААД АЖЛЫН БҮТЭЭМЖЭЭ ДЭЭШЛҮҮЛЭХ БОЛОМЖТОЙ
-Хүний ажлыг хөнгөвчилж байгаа л нэг хэлбэр шүү дээ?
-Зорилго нь тэр.
-Нөгөөтэйгүүр, хиймэл оюун ухаанд эсрэг талын байр суурьтай хандах хүмүүс ч байдаг шүү дээ. Иргэдийн ажлын байрыг булаасан, сэтгэлгүй ажиллах хүчийг бэлтгэж байна гэх мэт шүүмжлэлүүд их. Та үүнд хэрхэн ханддаг вэ?
-Компьютер бол юу хий гэвэл түүнийг л хийнэ. Хятадад магадгүй хүнд асуудал байж болох. Монголчуудын хувьд ажиллах хүчний хомсдолтой. Тэр утгаараа зүгээр л нэг яриа сонсоод түүнийг шивдэг, буулгадаг ажил биш харин тэр нөөц бололцоогоо арай өөр зүйлд зарцуулж, цагаа үр бүтээлтэй өнгөрүүлэх боломжийг олгож байгаа. Доод түвшний ажил хийгээд суух бус түүнийгээ компьютерт даатгаад ажлын бүтээмжээ дээшлүүлэх боломжтой. Гурван сая хүн энэ том газар нутагт хүрэлцэхгүй л байгаа шүү дээ.
-Одоогоор уг технологитой холбоотой хамтарч ажиллах санал та бүхэнд ирсэн үү?
-Өчигдөр /2019.06.18/ зарласантай холбоотой санал яг одоогоор надад ирсэн нь алга байна. Харин манай компанийн лавлах утас, мэйл хаягаар холбогдсон байж магадгүй. Ер нь энэ чиглэлд хамтарч ажиллах шаардлагатай байгаа гэсэн төрийн болон төрийн бус байгууллагууд олон бий.
-Тэдэнд нээлттэй юу?
-Тэгэлгүй яахав. Угаасаа шаардлагатай буюу хэрэглэгчид нь байгаа эрэлттэй байгаа технологи юм.
-Өчигдөр шинэ технологио олон нийтэд танилцуулсны дараа баг хамт олон үр дүн, хэрэглэгчдийн сэтгэл ханамжийг хараад ямар сэтгэгдэлтэй байв?
-Их баяртай байгаа. Бид дөрөвдүгээр сард Монгол бичгээр Unicode стандартын дагуу компьютер дээр ажиллах боломжийг бүрдүүлсэн. Ер нь энэ мэтээр ажлууд үргэлжилж байхад, ажил эхлэхийн өмнө доошоо унах, дээшээ босох олон шалгууртай нүүр тулдаг. Гэхдээ бид шаардлагатай технологиудыг хурдан гаргахын тулд амралтын өдөргүйгээр өдөр шөнөгүй ажиллахыг хичээдэг, тэгж ч ажилладаг. Ингэж сэтгэл гаргасан зүйлийнхээ үр шимийг харахад үнэхээр их баяртай байдаг. Барилгачин хүн суурийг нь цутгахаас эхлээд барьж дуусах үед ямар их баярладаг шиг тийм л сайхан мэдрэмж төрдөг. Хэрэглэгчдээс ирж байгаа сэтгэгдэл 100 хувь эерэг байгаа. Гэвч 86 хувьтай байна гэдэг алдаа дутагдалтай л байгаа, түүнийг минь ойлгож эерэгээр хандаж байгаа та бүхэндээ маш их баярлалаа.
Б.ГЭРЭЛМАА
ГЭРЭЛ ЗУРГИЙГ: А.МАНДУУЛ
АНХААРУУЛГА: Уншигчдын бичсэн сэтгэгдэлд Eguur.mn хариуцлага хүлээхгүй болно. Манай сайт ХХЗХ-ны журмын дагуу зүй зохисгүй зарим үг, хэллэгийг хязгаарласан тул Та сэтгэгдэл бичихдээ бусдын эрх ашгийг хүндэтгэн үзнэ үү.
Баяр хүргэе. Бид бүхэнд маш их дутагдаж байсан зүйлийг хийж эхлүүлсэнд танай баг хамт олонд т�##�архаж байна. Шинэ зүйл л юм чинь �##�даа дутагд�##� зөндөө л байгаа нь ойлгомжтой. Гэвч энэ эхлүүсэн технологио улам сайн хөгжүүлээрэй гэж танаас хүсч байна. Амжилт хүсье.
Кабелийн тв-д орчуулагч болгож хэрэглэх