په لومړي سر کې مهمه بولم چې ووايم چې پښتو ژبه په الفبا نه بلکه په ابجد نظام ليکل کيږي. دغه حقيقت د پښتو ژبې د ډيجيټلايزېشن د پروسې د څرنګوالې او سرعت په ارزونه کې ډېر مهم دی. دلته دا هم مهمه ده چې وويل شي چې پښتو تر اوسه لا په (low resource languages) يعني په ډېره کمه ډيجيټل ډېټا لرونکو ژبو کې راځي. هيله ده چې د لاندې متن په لوست سره اړونده موضوع د غيرژبپوهانو لپاره هم د پوهېدو وړ وګرځي.
 
د ليکلو نظامونه
د لیکلو سیسټمونه (سکرپټونه) د بشري اړیکو بنسټ دي چې موږ ته دا وړتیا راکوي چې معلومات ثبت، شریک او د نسلونو لپاره خوندي کړو. د ليکلو نظامونه زيات دي او اوږده سابقه او د ارتقا اوږد تاريخ لري. په دغه لنډه مقاله کې به د ليکلو دوه مهم سيسټمونه سره پرتله کړو چې د الفبا او ابجد نظامونه دي.که څه چې ياد دواړه د ليکلو نظامونه د ژبې د ليکلو لپاره کارول کيږي، خو لوی فرق يې د څپو/سېلابونو او ږغونو يا صوتونو (وولونو او کانسونانټونو) په څرګندولو کې دی. وول يا ږغيز هغه ږغونه وي لکه (a, e, i, o, u) چې په مرسته يې سېلاب يا څپه جوړيږي او او کانسونانټونه هغه غږونه وي لکه (b, c,d,..) چې بېله د وول څخه پخپله څپه نشي جوړولای. څپه يا سېلاب حرکت ته وايي لکه په اف.غا.نس.تان کې چې څلور سېلابه دي او هر سيلاب د وول په مرسته جوړ دی.
په دې مقاله کې به موږ دې ته لنډه کتنه وکړو چې الفبا او ابجد څه شی دي، د هغو ژبو مثالونه به وګورو چې پکښې دغه نظامونه کارول کېږي او دا به وڅېړو چې ولې الفبایي سیسټمونه د ډیجیټل کولو او او د ماشينونو/کمپيوترونو په مرسته د طبیعي ژبې د پروسس (Natural Language Processing NLP) په برخه کې اسانه دي. د دې تر څنګ به د پښتو ژبې لپاره د مقالې په آخره کې يو وړانديز هم د لوستونکو په خدمت کې وړاندې کړم.
 
الفبا څه شی دی؟
الفبا د لیکلو يو داسې سیسټم دی چې هر سمبول/ګرافيم چې موږ ورته توری وايو، عموماً هم یو کانسوننټ او هم یو وول غږ څرګندوي. الفبایي سیسټمونه په بشپړ ډول فونېمیک دي. فونېميک معنی دا چې په یوه ژبه کې هر مهم ږغ/غږ په ځانګړي سمبول یا د سمبولونو په ترکیب کې څرګنديږي. الفبایي سیسټمونه نسبتا ځکه آسانه ګڼل کيږي ولې چې د وينا د ليکلو لپاره روښانه او منظمه طرېقې وړاندې کوي.
د الفبایي ژبو مثالونه:
۱ ـ اندونيزيايي ژبه (Bahasa Indonesia)
اندونيزيايي ژبه د انګليسي ژبې ټول ۲۶ توري او يو اضافي توری É د ليکلو لپاره کاروي. پکښې د F, V, X او Z توري تقريبا صرف په پرديو لغتونو کې کارول کيږي. دغه ژبه لاندنۍ الفبا لري:
A; B; C; D; E; (F); G; H; I; J; K; L; M; N; O; P; Q; R; S; T; U; (V); W; (X); Y; (Z); É
په دغه ژبه کې لغتونه هغسې لوستل کيږي، لکه څنګه چې ليکل شوي وي.
مثال:
د اندونيزيايي ژبې لغت (komputer) داسې ليکل کيږي: "K-O-M-P-U-T-E-R" په کوم کښې چې هر توری/ګرافېم يو ځانګړی ږغ/فونېم څرګندوي.
۲ ـ آلماني/جرمني ژبه (Deutsch)
د جرمني يا آلماني ژبې الفبا د انګلیسي و الفبا ته ورته ده، خو اضافي توري لکه "ä," "ö," "ü," او Eszett (ß) هم لري. دغه ژبه هم تقريبا هغسې لوستل کيږي، لکه چې ليکل شوې وي.
مثال:
د "Straße" کلمه (چې د "کوڅه" معنی لري) داسې لیکل کیږي: "S-T-R-A-ß-E"، چیرته چې هر توری یو غږ څرګندوي، پشمول د "ß" چې د "ss" غږ څرګندوي.
 
ابجد څه شی دی؟
ابجد یو ډول لیکدود سیسټم دی په کوم کښې چې هر سمبول/ګرافيم/توری عموماً یو کانسوننټ څرګندوي، او وولونه یا خو نه لیکل کیږي او یا د دیاتریکس (زور، زير، پېښ، شد..) په وسیله ښودل کیږي. دا پدې معنی ده چې لوستونکی باید د جملې په مفهوم باندې تکیه وکړي او بيا مناسب وولونه اټکل کړي. ابجدونه په ځانګړې توګه په سامي ژبو (لکه: عربي، عبراني، امهري، ارامي... ) کې اغیزمن دي په کومو کښې چې د کلمو د ریښې معنی په کانسوننټونو کې وي او ځانګړي وولونه کولای شي چې پرته له دې چې اصلي معنی بدله کړي، تغییر وکړي. خو د عربي ژبې ابجد نظام د بعضو اضافي تورو سره د يو شمېر (په زياته د مسلمانانو) غير سامي ژبو د ليکلو لپاره کارول کيږي لکه پښتو، فارسي، اردو او داسې نورې.
د ابجد ژبو مثالونه:
۱ ـ عربي ژبه (اللغة العربية)
عربي په ابجد سيسټم لیکل کیږي په کوم کښې چې یوازې کانسوننټونه او اوږده وولونه شته. خو لنډ وولونه یا خو پریښودل کیږي یا د دیاتریکس (زور، زېر...) په وسیله ښودل کیږي.
مثال:
د "كتاب" کلمه د "ک-ت-ب" په کانسوننټونو سره لیکل کيږي پداسې حال کې چې يو لنډ وول (زير) اټکل کیږي یا په اختیاري توګه په (ِ) سره ښودل کیږي.
۲ ـ اردو
اردو د ابجد سیسټم له هغې بڼې څخه استفاده کوي چې له فارسي څخه اخیستلې شوې او پکښې څو توري (لکه ٹ، ڈ، ڑ...) اضافه کړل شوي دي. فارسي بيا د ليکلو خپل ابجدي نظام له عربي څخه په تعديل شوې بڼه اخيستی دی.
مثال:
د عربي په شان په اردو کې هم "کتاب" ليکل کيږي په کوم کښې چې يو لنډ واول (زير) بايد د لوستونکي لخوا اټکل شي.
۳ ـ پښتو
پښتو هم د ابجد پر بنسټ ولاړو ژبو یو مثال دی. دغه ژبه د فارسی-عربي لیکدود یو تعدیل شوې بڼه استعمالوي چې اضافي توري لري چې په مرسته يې د پښتو کې ځانګړي غږونه ښودل کيږي.
مثال:
د "پښتانه" په کلمه کې "پ، ښ،ت،ن" کانسوننټونو او "ا" يو څرګند اوږد وول دی. خو په دغه کلمه کې لنډ وول بايد اټکل شي.
ولې الفبایي ژبې اسانه دي چې ډیجیټل او په ماشينونو کې پروسس شي؟
الفبایي لیکدود سیسټمونه عموماً د ډیجیټل کولو او په ماشينونو کې د طبیعي ژبې په پروسس (NLP) کې اسانه دي. دا څو دليلونه لري:
۱ ـ د ټولو ږغونو بشپړ نمايش:
په الفبا کې هر فونیم (د غږ تر ټولو کوچنی واحد) په ژبه کې یو توری لري. دا د متن کوډ کولو، لټون او پروسس کولو لپاره مستقیمه لاره برابروي، ځکه چې د کلمو د لوستلو یا تلفظ کولو په اړه هېڅ ډول ابهام موجود نه وي.
۲ ـ دوام او ساده والی:
الفبایي لیکدودونه ډیر دوامدار دي ځکه چې هره کلمه دقیقا د هغې د تلفظ په توګه لیکل شوې وي. دا دوامداري د متن پیژندنې، د وینا د ترکیب، او د ماشین په مرسته ژباړه کې د الگوریتمونو پیچلتیا راکموي.
۳ ـ د متن ثبتولو/ټايپولو اساني:
ځکه چې الفبا د ږغونو/غږونو او تورو/ګرافېمونو تر منځ یو پر یو توافق لري نو د متن ډيجيټل کول ډېر اسانه کوي. د مثال په توګه د متن له انځور څخه و متن ته اړولو په پروسه کې. په الفبایي ژبو کې ټایپ کول اسانه وي او په ځانګړي توګه د سافټویر جوړولو او ډیجیټلي اړیکو په برخه کې هم د اسانتياوو سبب کيږي.
۴ ـ مؤثره NLP الګوريتمونه:
د NLP وظایف لکه د معنی تجزیه، د متن طبقه بندي، او ماشیني ژباړه نسبتا آسانه وي کله چې د الفبایي سیسټمونو سره يې کار وي. الگوریتمونه کولی شي په اسانه سره الفبایي متن تحلیل او درک کړي پرته له دې چې مخکې ورته پیچلي قواعد تعريف او تمرين شي چې وولونه په سمه توګه اټکل کړلای شي.
په ډیجیټل کولو او NLP کې د ابجدونو ستونزې
په داسې حال کې چې ابجدونه لکه عربي، اردو او پښتو د تاریخ او کلتور څخه غني دي، خو دغه نظامونه په ډیجیټل او محاسباتي شرایطو کې ځانګړې ستونزې رامنځته کوي:
۱ ـ ابهام:
په ابجدونو کې د وولونو نشته والی د متونو په پروسس کې ابهام رامنځته کوي. د مثال په توګه، د کانسوننټونو ورته لړۍ کولی شي په مختلفو معنی لرونکو کلمو باندې دلالت وکړي. لکه د پښتو «لور» لغت چې هم د استقامت او هم د ښځينه اولاد معنی ورکولای شي. دا معنی په دې پورې اړه لري چې ماشين د «ل» او «و» تر منځ «زور که پېښ» د لنډ واول په توګه اټکل کوي.
۲ ـ په متن پیژندنه کې پیچلتیا:
د بصري (انځوريز) متن پیژندنې ( Optical Character Recognition OCR) او نور متن پیژندونکي ټیکنالوژۍ باید ډیر پرمختللي واوسي تر څو ابجدي متن په سمه توګه وپپیژندلای او پروسس کړلای شي. په ځانګړي توګه په هغه حالتونو کې چیرته چې دیاتریکس (زور، زېر، پېښ...) نه وي یا په غیر ثابت ډول استعمال شوي وي. د مثال په توګه د چاپ شوي يا په لاس ليکل شوي متونو څخه د اخيستل شوو انځورونو په متن اړولو کار مشکل وي، که دغه متون ابجدي وي.
۳ ـ د محاسبوي بار زیاتوالی:
د NLP سیسټمونه باید اضافي قواعد او د شرایطو پراساس تحلیلونه په پام کې ونيسي ترڅو په سم ډول د ابجد متن تعبیر کړي. دا د محاسبوي سرچینو اړتیا زیاتوي او کولای شي د پروسس سرعت کم کړي یا د الفبایي سیسټمونو په پرتله لږ دقیق پروسس او نتايج ولري.
۴ ـ په لوړه اندازه د ډيجيټل موادو اړتيا:
د دې لپاره چې د ابجدي ژبو د NLP ماډلونه په ښه توګه وروزل شي، ورته د الفبايي ژبو په پرتله په ابجدي ژبو کې لا زياتو ډيجيټل شوو موادو ته اړتيا وي. که يوه ژبه له يو اړخه ابجدي د ليکلو نظام ولري او له بل اړخه يې ډيجيټل منابع کم وي، نو دا د مؤثره NLP ماډلونو په جوړولو کې ستونزې لا زياتوي او د ځنډ لامل کيږي.
 
د پښتو په ليکدود کې د تعديل اړتيا
دا د پښتو ژبې د ودې او پراختيا او په زيات ژوندۍ پاته کېدو لپاره يو مهم اقدام و چې ورته د فارسي عربي ابجد تعديل شوی نظام د ليکلو لپاره غوره شو. د بايزيد انصاري پير روښان د وخت راهيسي په دغه نظام کې د اړتيا له مخې زياتونې هم شوي دي چې د پښتو ژبې ليک او لوست يې لا آسانه کړی دی. د هغه باوجوده چې پښتو د عربي په شان سامي ژبه نه ده، خو بيا هم د عربي ابجدي نظام د پښتو اکثره اړتياوې پوره کړي دي. تر اوسه په بيلو سطحو او وختونو کې په تر سره شوو مباحثو کې دا روښانه شوې چې اکثريت پښتانه د خپلې ژبې لپاره د عربي ابجدي نظام غوره بولي او دې ته چمتو نه دي چې د ترکانو او نورو ولسونو په شان د خپلې ژبې نظام د مثال په توګه لاتيني حروفو ته واړوي. دلته د خپل دين اسلام او خپلو مخکنيو کلتوري او ادبي ارزښتونو سره د پښتنو وفاداري او تړون يو مهم او نه لړزېدونکی لامل دی. که ځان ته د اټکل کولو اجازه ورکړم، نو په نژدې راتلونکو لسيزو کې هم د دې چانس کم دی چې پښتانه دې پر دې اجماع او اتفاق وکړلای شي چې د خپلې ژبې د ليکلو نظام په هغه شان تغير کړي چې د عربي له ابجدي نظام څخه بالکل رابهر شي، هغسې لکه بعضې پښتانه ژبپوهان او اديبان چې يې وړانديز کوي.
خو له بل اړخه د ډيجيټلايزېشن په انقلاب کې د نورو سيالو ژبو سره د پښتو د اوږه په اوږه سيالې پاته کېدلو لپاره دا يوه روښانه، ښکاره، منطقي او ثابته شوې اړتيا ده چې د پښتو د ليکلو په نظام تعديل او اصلاح وشي. ماته پخپله دلته يوازنۍ د عمل وړ لاره دا معلوميږي چې د پښتو په شته نظام کې داسې اضافې وشي چې له فارسي عربي سکرپټ يا د ليکلو له نظام څخه بهر نشي خو د نوې عصر اړتياوې پوره کړي. موږ تاسو په تېره پېړۍ کې د پښتو د ليکلو په نظام کې د دا ډول تعديلونو شاهدان پاته شوي يو چې پښتو يې له پښتنو پردۍ کړې نه بلکه لا پياوړې کړې ده.
که پښتانه ما په ډبرو نه وولي، نو به ورته دا عاجزانه وړانديز وکړم چې د پښتو ژبې شته توري دې داسې تعديل کړي چې پښتو له ابجدي څخه الفبايي نظام ته واوړي، بېله دې چې فارسي عربي سکرپټ له لاسه ورکړي. په دې تړاو ما د پښتو ژبې تعديل شوې الفبا په کوچني او بنيادي NLP ماډلونو کې د اماتورۍ پر سطحه ازمويلې او ډېرې حوصله بخښونکې پايلې مې ورڅخه په لاس راوړي دي. البته د يادو ادعاوو او مفروضو تثبيت مسلکي، اوږد او څو اړخيز اکاډميک تحقيق ته اړتيا لري.
 
احمدولي اڅکزی، د ۲۰۲۴ کال د نوامبر ۴مه نېټه
 
ماخذونه:
• Jazab, Yousaf, (2020). A Diphthong Related Issue in Pashto Script and its Solution. Pashto Magazin, 49 (259).
• Wazir, Nasrullah Jan & others, (2016). Pashto likdod, dwa wrazanai makraka, da pashto nawe imla. Pashto Academy Peschawar.
• Zeyar, Mujawir Ahmad (2006), Liklaar Shod "Yawa Pashto Kara Pashto". Sapi Research Center.
• Cheung, Johnny (2011). Selected Pashto Problems II: Historical Phonology 1: On Vocalism and Etyma. Leiden University. Iran and the Caucasus, 15(1-2), 57-74. DOI: 10.1163/157338411X12870596615557.
• Daniels, Peter T., & Bright, William (1996). The World's Writing Systems. Oxford University Press.
• Coulmas, Florian (2003). Writing Systems: A Linguistic Approach. Cambridge University Press.
• Meskill, Daniel S. (2005). Perso-Arabic Script: Linguistic and Typological Perspectives. Journal of Arabic and Islamic Studies.
• Khuri, Sami, & Patrick, J. (2002). Digital Processing of Arabic Script: Character Recognition and Natural Language Processing. International Journal of Computers and Applications.• Treiman, Rebecca, & Kessler, Brett (2005). Orthography and Phonology: The Representation of Phonemes in Alphabetic Writing Systems. Cambridge University Press.
• Habash, Nizar (2010). Introduction to Arabic Natural Language Processing. Morgan & Claypool Publishers.
• Khan, Geoffrey (2007). The Role of Vowel Representation in Semitic Writing Systems. Journal of Semitic Studies

 

___
د ليکنې لنډ لينک: 

___

 د کاپي کولو په صورت کي د منبع په توګه د قاموسونه ټکی کام نوم او د دغه مطلب/مقالې د بشپړه لينک اضافه کول حتمي دي.
________________

د قاموسونه ټکی کام د ټولو مطالبو ليسټ او لينکونه
________________

هيله ده چي قاموسونه په فيسبوک کي لايک کړئ




FaLang translation system by Faboba