پژوهشگاه ارتباطات و فناوری اطلاعات زبان فارسی دهمین زبان فضای وب است

عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات گفت: طبق آمارهای تخمین زده شده سهم زبان فارسی در وب، 1.7 درصد است و این زبان دهمین زبان دنیا در فضای مجازی به شمار می آید.

1402/03/24
|
10:08
|

دكتر محمد هادی بكایی عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات و مدیر گروه سامانه‌های پردازش وب و رایا زبان در خصوص پروژه جویشگر بومی و وضعیت آن در پژوهشگاه ارتباطات و فناوری اطلاعات گفت: در حال حاضر پژوهشگاه ارتباطات و فناوری اطلاعات در خصوص طرح جویشگر بومی نقش ایجاد زیرساخت‌های لازم را دارد. در پژوهشگاه برای زیرساخت‌های مورد نیاز جویشگر بومی و زیرساخت هر نوع كار پردازشی و تحلیلی مرتبط با جویشگر، پروژه‌هایی در قالب طرح شبكه ملی اطلاعات تعریف شده و در حال اجرا است.

وی به مهمترین زیرساخت‌های مورد نیاز یك جویشگر بومی اشاره كرد و افزود: زیرساخت‌های مربوط به ذخیره‌سازی و بازیابی اطلاعات و داده‌ها، زیرساخت‌های پردازشی جهت انجام حجم بالایی از پردازش و زیرساخت‌های نرم‌افزاری و الگوریتمی از جمله مهمترین نیازها برای اجرای یك طرح كلان ملی از جمله جویشگر بومی است.

بكایی در ادامه در خصوص اقدامات انجام‌شده در پژوهشگاه در راستای ایجاد این زیرساخت‌ها این‌گونه توضیح داد: به عنوان مثال در خصوص زیرساخت‌های داده پروژه‌هایی در خصوص قطب‌های مراكز داده كشوری داریم. برای ایجاد زیرساخت‌های پردازشی با همكاری دانشگاه امیركبیر ابررایانه سیمرغ به بهره‌برداری رسید و در حال برنامه‌ریزی برای اجرای ابررایانه‌های قوی‌تر هستیم و در لایه نرم‌افزاری و الگوریتم‌ها نیز اقداماتی به خصوص در حوزه خط و زبان فارسی در وب انجام شده است.

وی در ادامه در خصوص اقدامات انجام شده در حوزه خط و زبان فارسی در وب تصریح كرد: مهمترین اقدامی كه در حوزه خط و زبان فارسی فضای وب در حال انجام است، آزمایشگاه ارزیابی و رتبه‌بندی خدمات و محصولات حوزه خط و زبان فارسی است كه می‌توان در قالب آن انتظار داشت مدل‌ها و الگوریتم‌های مورد نیاز با استفاده از خرد جمعی جامعه نخبگانی و دانشگاهی به بلوغ خود برسند.

وی تصریح كرد: یكی از مشكلاتی كه در كشور داریم این است كه این خدمات و محصولات با استفاده از استانداردهای مرسوم ارزیابی نشده و با هم مقایسه نشده‌اند. به طور مثال نقاط قوت و ضعف محصول یك شركت با محصول مشابه شركت دیگر مقایسه نشده است و این عدم مقایسه باعث می‌شود افراد و شركت‌هایی كه به این خدمات نیاز دارند نمی‌توانند به راحتی خدمت‌دهنده خود را انتخاب كنند. این مساله در زبان‌های دیگر به خصوص زبان انگلیسی تا حد خوبی حل شده است و افراد و شركت‌های مختلف مدل‌ها و الگوریتم‌هایی را كه در حوزه‌های مختلف خیلی خوب عمل می‌كنند و نتایج خوبی دارند را می‌شناسند و می‌توانند از آنها استفاده كنند.

زبان فارسی دهمین زبان فضای وب است

بكایی در خصوص رتبه جهانی و وضعیت خط و زبان فارسی در وب افزود: زبان فارسی در وب وضعیتش خیلی بد نیست و دهمین زبان دنیاست هرچند اختلافش با زبان‌های اول و برتر خیلی زیاد است. طبق آمارهای تخمین زده شده سهم زبان فارسی در وب، 1.7 درصد است كه دهمین زبان دنیاست و از زبان‌هایی مانند عربی و چینی رتبه بهتری دارد. اما با توجه به تعداد افرادی كه به این زبان صحبت می‌كنند می‌تواند جایگاه بهتری را به خودش اختصاص دهد كه البته این بهتر شدن منوط به ایجاد زیرساخت‌هایی از جنس دادگان و الگوریتم و ایجاد این زیرساخت‌ها یكی از اهداف آزمایشگاه است.

وی با بیان اینكه این رتبه نشان دهنده این است كه چه تعداد وب سایت در هر زبانی وجود دارد افزود: سهم وب سایت‌هایی كه به زبان فارسی هستند از كل وب سایت‌هایی كه وجود دارد، 1.7 درصد است كه می‌توان گفت حوزه خط و زبان فارسی در وب در رتبه 10 است و طبق این آمار از كشورهایی مثل تركیه و ژاپن پایین‌تر هستیم اما از كشور چین و یا كشورهای عربی وضع استفاده خط و زبان فارسی در فضای وب بهتر است.

بكایی در خصوص زبان انگلیسی گفت: ما سالانه مسابقات و چالش‌هایی داریم كه در حوزه‌های اولویت‌دار در پردازش زبان انگلیسی چالش‌هایی را مطرح و جوایزی تعریف می‌كنند. شركت‌كنندگان در چالش با هدف كسب جوایز و احتمالاً انتشار مقالات و تعریف‌كنندگان چالش با هدف حل یك مساله واقعی موجود، در این روال مشاركت دارند. متأسفانه در ایران هرچند در این خصوص كارهایی در سال‌های گذشته انجام شده، اما انسجام لازم را نداشته است.

وی به دلیل ایجاد آزمایشگاه ارزیابی و رتبه‌بندی خدمات و محصولات خط و زبان فارسی اشاره كرد و ادامه داد: در ایران بستر و زیرساختی نداشتیم كه بتواند برای حوزه‌های اولویت‌دار بنچ‌مارك و دادگان ارزیابی و تست تعریف كند تا بتواند الگوریتم‌ها و مدل‌های مختلفی كه یك هدف دارند و در یك حوزه در حال فعالیت هستند را به صورت عادلانه با هم مقایسه كند. بنابراین اولین هدف در این آزمایشگاه این است كه با تعریف روال‌های ارزیابی استاندارد برای مسائل اولویت‌دار زمینه را برای این ارزیابی‌ها آماده كند.

چالش پردازش خط و زبان فارسی در فضای مجازی برگزار می شود

بكایی همچنین گفت: پروژه آزمایشگاه ارزیابی و رتبه بندی خدمات و محصولات خط و زبان فارسی در فضای وب تحت عنوان پروژه پارسی‌آزما (محفلی برای حل مسائل و چالش‌های حوزه پردازش خط و زبان فارسی در فضای مجازی) در حال انجام است و دوره اول مسابقات مربوط به پارسی‌آزما امسال برگزار می‌شود.

وی افزود: در دوره اول به دنبال ایجاد زیرساخت‌های لازم برای ادامه‌دار بودن پارسی آزما و آزمایشگاه هستیم. همچنین اولویت و تمركز ما در تعریف چالش‌های اولین دوره، الگوریتم‌های مرتبط با پردازش متن‌های موجود در شبكه‌های اجتماعی به خصوص متن‌ها و پست‌های توئیتر است.

عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات ادامه داد: در اولین دوره مسابقه پارسی‌آزما چهار چالش تعریف كردیم كه هر كدام از یك جنبه پست‌های توئیتر را تحلیل می‌كند. مثلاً در یك چالش قرار هست وجود ادعا و نوع آن در یك توییت تشخیص داده شود یا در یك چالش دیگر نوع احساس موجود در متن مشخص شود كه در كل همه اینها از یك جنبه پست‌های فارسی توئیتر را تحلیل می‌كنند.

به گفته وی شركت كنندگان مدل‌ها و الگوریتم‌های زبان فارسی در فضای وب را توسعه می‌دهند.

بكایی در ادامه بیان كرد: چالش‌هایی تعریف كردیم كه افرادی كه در این حوزه الگوریتم دارند و توسعه‌دهنده هستند می‌توانند در این چالش‌ها شركت و با هم رقابت كنند و در انتها الگوریتمی كه به بهترین نحو ممكن بتواند این مساله را حل كند معرفی شده و آزاد رسانی می‌شود تا در آینده كسانی كه این الگوریتم‌ها را نیاز دارند بتوانند از آن‌ها استفاده كنند.

وی در خصوص برگزاری مسابقه پارسی آزما برای اولین دوره و اینكه مهر ماه روز نهایی مسابقه است و برنده نهایی اعلام و جوایز اهدا می‌شود، گفت: امسال اولین دوره مسابقه پارسی‌آزما است و تصمیم داریم سالانه و یا دو بار در سال بتوانیم این مسابقات را ادامه دهیم و در هر دوره مهمترین چالش‌ها و مسائلی كه مورد نیاز سازمان‌ها و صنایع مختلف در حوزه پردازش خط و زبان فارسی است را بیان كنیم.

بكایی در پایان گفت: اگر افرادی در این حوزه فعال هستند و مسأله‌ای دارند كه نیازمند مدل و الگوریتمی برای حل آن هستند می‌توانند برای تعریف چالش در دوره‌های بعدی با پارسی‌آزما در ارتباط باشند. همچنین كسانی كه فكر می‌كنند توانایی حل مساله دارند، می‌توانند به عنوان شركت‌كننده در مسابقات پارسی‌آزما شركت كنند.

دسترسی سریع