کم منابع ژبې
د ژبو یا د ژبو د لهجو مړينه يا له لهجو څخه د نوو ژبو د رامنځته کېدو پديده په انساني تاريخ کې عادي او اوس هم موجوده او جاري ده. پښتو که څه چې د بيلو څېړنو د پايلو پر اساس تر ۵۰ مليونو څخه زياتو انسانانو ژبه ده، خو بيا هم په کم منابع (Low-resource languages) يعني د ماشيني ژبنيزو ماډلونو د روزلو لپاره په کمه اندازه معلوماتي زيرمه لرونکو ژبو کې راځي. هغه کمه اندازه د پښتو ډېټا چې راغونډه شوې ده، په هغه کې د پښتو لهجو اړين بېلابېل والی يا تنوع نشته او زور يې پر يوه يا محدوده لهجه دی. د دې لپاره چې ماشينونه په يوه ژبه په ږغ او متن کې پوه شي، نو ورته په ډېره لويه اندازه د متنوع ډېټا يا معلوماتي زېرمې يا زېرمو اړتيا وي.
د ژبې ژوند يا مرګ
دا چې په راتلونکي نژدې وخت کې به د کمپيوټرونو، تخنيکي آلاتو او مصنوعي ځيرکتيا سره اړيکه نيونه د انساني ږغ په مرسته وي، نو صرف به د هغې ژبې ويونکي په خپله ژبه له دغو آسانتياوو څخه برخمن وي چې ژبه او لهجه يې دغې ټيکنالوژۍ ته په کافي اندازه داخله شوې وي. له بل اړخه هره هغه ژبه او لهجه چې له نوې ټيکنالوژۍ څخه شاته پاته شوې وي، هغه به په لوی احتمال وختي يا ناوخته له منځه ځي.
د پښتو لهجې
دا چې په دغه ژبه کې په کوم شمېر لهجې موجودې دي، په هکله يې دکارپوهانو نظرونه مختلف دي. البته د پښتو لهجو هغه طبقه بندي چې زيات کارپوهان ورباندې توافق لري هغه دا ده چې پښتو د لهجو له مخې پر دوو لويو برخو وېشلې ده:
الف : شمالي لهجې
په شمالي لهجو کې يوسفزۍ او افرېدۍ لهجې هغه تر ټولو لويې لهجې ګڼل کيږي. خو په دغه څانګه کې يو شمېر نورې لهجې هم شاملې دي. د ننګرهار لهجه هم په يوسفزۍ لهجه پورې مربوطه ګڼل کيږي.
ب : سويلي لهجې
دغه لهجې په تاريخي لوی کندهار، کاکړي سيمو، وزيرو او خټکو کې ويل کيږي.
د تلفظ، لغتونو او ګرامر د بېلابېلوالې له مخې په دغه ژبه کې د ۲۰ او ۳۰ تر منځ د لهجو اټکل کېدونکی موجوديت د دغې ژبې پر بډاينه او پراخوالي دلالت کوي.
واحد ليکدود او زياتې لهجې
د دې لپاره چې پښتو په بشپړه توګه او په اړين چټک سرعت سره د نوې ټيکنالوژۍ دننه شي، نو يو خو بايد واحد ليکدود ولري او بل يې په کافي اندازه د ټولو لهجو ږغيز او نور مواد راغونډ شي. که پښتو واحد ليکدود نه ولري نو به يې نه يوازې د ډيجيټل کېدو سرعت ورو وي بلکه د ډيجيټل کېدلو څرنګوالی به يې متوازن نه وي او د ټولو پښتنو او ليکدودونو مشارکت او استازيتوب به پکښې نه وي. د دغه مشارکت نشته والی به د دې لامل شي چې د اکثريت پښتنو لپاره به هغه څه معيار ګرځول کيږي چې دوی ته پکښې د رايې يا مشارکت حق نه و ورکول شوی. په دې ډول رامنځته شوی معيار به ښايي نور عيبونه هم ولري.
د ږغ او په دې توګه د لهجو لپاره په مهمه برخه کې هم په شته کمه ډېټا کې تنوع او بېلابېلوالی نشته يا کم دی. د تنوع دغه کموالی يا نشته والی به په لوی احتمال د دې لامل شي چې هغه سيسټمونه چې د انسانانو په ږغ پوهيږي، د پښتو د ټولو لهجو ويونکو په خبرو به ښه نه پوهيږي. په دې توګه به په اوږدمهاله توګه د لهجو تنوع کمرنګه يا بالکل له منځه ولاړه شي.
سويلي لهجو ته ګواښ
ايا د کندهارۍ(سويلي) لهجو تر څنګ به د پښتو زياتره لهجې له نوې ټيکنالوژۍ غيرحاضرې او له منځه ولاړې شي؟
دمګړی داسې معلوميږي چې په شته پښتو کمپيوټري ژبني سيسټمونو کې د پېښور، کوټې او کندهار د ليکدودونو استازيتوب نشته. دغه حقيقت بايد د يادو ليکدودونو پر پلوي کوونکو ادارو او ليکوالانو د فشار د زياتېدنې لامل شي چې له دې مخکې چې کمپيوټر او د مصنوعي ځيرکتيا سيسټمونه ورباندې خپل ليکدود مسلط کړي، دوی بايد چې د نورو ټولو په مشارکت پر يو واحد ليکدود تفاهم سره وکړي. که هغوی ياد کار ونکړي، نو ښايي بيا يې هم له نوې ټيکنالوژۍ څخه په کار اخيستلو کې کوم لوی خنډ موجود نه وي. ځکه چې ورته د نوي ليکدود زده کول او عملي کول به ورته دومره لوی هدف نه وي.
خو که د ږغ په موضوع کې ټولې لهجې په نوې ټيکنالوژي کې په اړينه اندازه او په اړين سرعت داخلې نشي، نو بيا يې د دغو لهجو ويونکو لپاره عواقب ډېر لوی کېدلای شي. د دوی لپاره به د ليکدود په پرتله په ږغ کې خپلې لهجې ته داسې تغير ورکول چې د ماشينونو لپاره د پوهېدنې وړ وي، ډېر مشکل او ازار ورکوونکی وي. که فرضا داسې يو حالت رامنځته شي نو دا به د اړونده لهجو د له منځه تللو او يا د له منځه تللو د پروسې د چټک کېدنې لامل شي.
د ۷۰۰ زرو جملو اړتيا
د دې لپاره چې د پښتو ژبې يوه لهجه په متوسطه اندازه و نوې ټيکنالوژۍ ته داخله شي، نو بايد چې د ۳۰۰ او ۵۰۰ ساعتونو تر منځ متنوع (د نر، ښځې، ځوان، سپينږري...) ږغيز مواد يې بايد چې د پښتو متن، ټرانسکرپشن يا تلفظ او ترجمې سره ثبت شي. که په جملو کې ورته حساب وکړو نو بايد چې د ۲۰۰ زرو او ۳۵۰ زرو تر منځ جملې بايد په ږغ کې ثبت شي. که څوک غواړي چې په اعلی درجه يوه لهجه ثبت کړي نو بايد چې تر ۱۰۰۰ ساعتونو یا ۷۰۰ زرو څخه زياتې جملې يې ثبت شي. د داسې يوې لويې زيرمې په مرسته بيا د ماشيني ژبې پروسس کوونکي ماډلونه داسې
روزل کېدلای شي چې د دغې لهجې ويونکو په خبرو پوه شي. (شمېرې او عددونه په بيلو فاکتورونو پورې مربوط او اټکلي خو منطقي دي)
دا يې ګز دا يې ميدان
د پښتو يو يا بل ليکدود په ملاتړ او د يوې يا بلې لهجې د دفاع په نوم په تيرو څو لسيزو کې ډېر سخت دريځه او کم سخت دريځه بحثونه تر سره شوي دي. حتی زيات شمېر داسې کسان چې د مسلک له مخې له مربوطو څانګو نه ول، په دغه موضوع کې يې زيات بحثونه کړي دي. دا چې لا پښتو تر اوسه يو واحد ليکدود نه لري، نو ورڅخه اټکل کېدلای شي چې ياد بحثونه مېوه لرونکي او سالم نه ول.
نوې ټيکنالوژۍ اوس په مجموع کې پښتانه او بيا د يو يا بل ليکدود يا د يوې يا بلې لهجې «مدافعين» راننګولي دي چې يا به هغه څه مني چې ورته پر ميز ايښودل کيږي، يا به په عمل کې د خپلې ژبې او لهجې د ژوند لپاره مبارزه کوي. مبارزه يې د مثال په توګه دا کېدلای شي چې په پراخه او متنوع توګه د پښتو متون او د لهجو ږغونه يې ثبت، خوندي او د هر چا د لاس رسي وړ توګه خپاره کړي. د مثال په توګه په ښوونځيو، پوهنتونونو او اکاډميو کې شاګردان، محصلين او کارګر په دې مکلف کېدلای شي چې د پښتو په ډيجيټلايزېشن کې برخه واخلي. يوه لاره يې په اوپن سورس آنلاين پروژه موڅيلا کامن وايس کې په متن او ږغ کې د پښتو جملو ثبتول، اصلاح کول او ارزول دي.
خبرې ډېرې وشوې، اوس وخت د عمل دی. دا يې ګز دا يې ميدان...
احمد ولي اڅکزی، د ۲۰۲۴ کال د اګست ۲۴مه نېټه
___
د ليکنې لنډ لينک:
___
د کاپي کولو په صورت کي د منبع په توګه د قاموسونه ټکی کام نوم او د دغه مطلب/مقالې د بشپړه لينک اضافه کول حتمي دي.
________________
د قاموسونه ټکی کام د ټولو مطالبو ليسټ او لينکونه
________________