آيين رونمايي از نخستين پيكره بهروزشونده زبان فارسی با حضور اساتيد و دانشجويان در دانشكدهٔ ادبيات و علوم انساني دانشگاه شيراز برگزار شد.
به گزارش دیده بان علم ایران به گفته مجریان طرح، توليد پيكره بهروزشونده زبان فارسي ميتواند به عنوان يكي از پروژههاي اصلي مركز در شرف تأسيس علوم انساني ديجيتال دانشگاه شيراز پيگيري شود و علاوه بر كاركردهاي پژوهشي به عنوان طرحي دانشبنيان، منجر به درآمدزايي نيز بشود.
دكتر اميرسعيد مولودي، عضو هيأت علمي بخش زبانهاي خارجي و زبانشناسي دانشگاه شيراز و مدير پروژه پيكره بهروزشونده پارسي پس از تعريف “پيكره” به عنوان مجموعهاي غالباً بزرگ از دادههاي متني، طبيعي و ماشينخواندني، زبانشناسي پيكرهاي را براي مطالعهٔ تقريباً تمام حوزههاي زبان مفيد دانست.
وی با اشاره به كاربردهاي پيكره در حوزههايي چون فرهنگنگاري، سبكشناسي و مطالعات ادبي، آموزش زبان، تحليل گفتمان، معنيشناسي و كاربردشناسي در خصوص مزاياي استفاده از پيكره، انواع پيكره، و معيارهاي ساخت پيكره توضيحاتي ارائه كرد.
استاد بخش زبانهاي خارجي و زبانشناسي دانشگاه شيراز سپس به معرفي پيكرهٔ بهروزشوندهٔ پارسي پرداخت و در خصوص بهروز بودن پيكره گفت: هر زمان كه شما به سامانهٔ جستجوي اين پيكره مراجعه كنيد مشاهده خواهيد كرد كه اين پيكره تا يك روز قبل بهروز شده است و دادههاي جديد به آن اضافه شده است.
وي همچنين با نمايش سامانهٔ جستجوي پيكره توضيحاتي در خصوص نحوهٔ كار و جستجوي واژه و عبارت در آن ارائه كرد.
مدير پروژه پيكره بهروزشونده پارسي با اشاره به اينكه هماكنون دادههاي اين پيكره از متون خبري جمعآوري ميشود افزود: انشاءالله در فازهاي بعدي متون پيكره محدود به اخبار نخواهد بود و متوني از ژانرهاي مختلف به پيكره اضافه خواهد شد.
دكتر مولودي در پايان خاطرنشان كرد كه پيكره بهروزشونده پارسي بعد از پيكره COCA، دومين پيكره دنياست كه با درنظر گرفتن ويژگي توازن موضوعي بهروز ميشود و از اين حيث دستاورد بزرگي براي حوزه زبانشناسي پيكرهاي به طور عام و زبان فارسي به طور خاص به حساب ميآيد.
در ادامه اين مراسم، مرتضي رضائي شريفآبادي، دانشجوي دكتري زبانشناسي دانشگاه شيراز و مسئول فني پروژه به ارائهٔ توضيحات تكميلي در خصوص ويژگيها و امكانات پيكرهٔ بهروزشوندهٔ پارسي پرداخت.
وي سخنان خود را با نحوهٔ رعايت توازن در پيكره آغاز كرد و گفت: هر روز به ميزان مساوي از شش موضوع سياسي، اقتصادي، اجتماعي، فرهنگي، علمي و ورزشي متوني به پيكره اضافه ميشود و به اين ترتيب كاربران هر زمان كه به پيكره مراجعه كنند با پيكرهاي متوازن مواجه هستند.
رضائي با اشاره به ويژگيهايي چون ذخيرهسازي برچسب اجزاي سخن (POS) و سرواژهٔ (Lemma) هر واژه در پايگاه داده و ساختار مناسب پايگاه داده و طراحي رابط كاربري سبك كه منجر به سرعت بالاي سامانهٔ جستجو شده است، افزوده: حجم پيكره تا كنون به نزديك ۲۴ ميليون كلمه (چهار ميليون كلمه در هر موضوع) رسيده است.
مسئول فني پروژه در پايان صحبتهاي خود گامهاي پيش رو براي توسعهٔ پيكره را برشمرد.
شايان توجه است علاقهمندان جهت دسترسي به پيكره بهروزشوندهٔ پارسي ميتوانند به آدرس www.peikare.ir مراجعه کنند.
پيكره شامل متن هاي پيوستة طبيعي است كه ميتوان از آن اطلاعاتي درباره عناصر زباني هم واژگاني هم غيرواژگاني (مانند سبك، نقطه گذاري، دستور، گونه كاربردی) به دست آورد.
كشف واژه هايي خاص يا كاربردهايي خاص از آنها در پيكره هايی از متن هاي معتبر كه متخصصان هر زمينۀ موضوعي آن را نوشته اند، بسيار ارزشمند است زيرا نشان ميدهد اگرچه همه واژه ها در فرهنگهاي لغت ظاهر مي شوند، در بافت هايي خاص نميتوان از آنها استفاده كرد، حتي اگر جمله به لحاظ دستوري درست باشد.
انتهای پیام
* نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند