پژوهشگران زبانشناسي دانشگاه شيراز براي نخستين بار پيكرهاي را براي متون فارسي ايجاد كردهاند كه هر روز به صورت خودكار و متوازن بهروزرساني ميشود.
به گزارش دیدهبان علم ایران دكتر اميرسعيد مولودي، عضو هيئت علمي بخش زبانهاي خارجي و زبانشناسي دانشگاه شيراز و مدير پروژهٔ پيكرهٔ بهروزشونده با بيان اين كه در اين پيكره استانداردهايي رعايت شده است كه پيش از اين در تهيهٔ پيكرههاي زبان فارسي مغفول مانده بود گفت: اين پيكره و جستجوگر آن ابزار پژوهشي مهمي براي تحقيقات زبانشناسي و ساير حوزههاي علوم انساني است و علاوه بر اين براي اهداف پردازشي زبان فارسي نيز ميتواند مورد استفاده قرار گيرد.
وي افزود: ايدهٔ اوليهٔ اين طرح حدود دو سال پيش شكل گرفت و پس از انجام مراحل مطالعاتي در سال ۱۳۹۵، پيادهسازي فاز نخست آن با تمركز بر متون خبري آغاز شد و انشاءالله رونمايي از اين پيكره، مطابق برنامهريزيهاي انجامگرفته، در هفتهٔ پژوهش امسال در آذرماه انجام خواهد شد.
مدير پروژهٔ پيكرهٔ بهروزشونده با اشاره به اين نكته كه امروزه از پيكرههاي زباني تقريباً در تمامي حوزههاي علوم انساني به طور عام و مطالعات زباني به طور خاص استفاده ميشود، گفت: بحث بهروز بودن، توازن و نماينده بودن سه ويژگي مهم براي كارآمدي پيكرههاي زباني است كه در پروژۀ حاضر مورد توجه قرار گرفته است؛ بنابراين پيكرۀ حاضر از اين حيث كه تنوعات زباني را با انتخاب داده از ژانرهاي مختلف پوشش ميدهد، داده به ميزان مساوي از هر ژانر انتخاب ميشود و اينكه هر روز دادههاي آن افزايش مييابد بهترتيب برخوردار از سه ويژگي نماينده بودن، توازن و بهروزشوندگي است.
به گفته وی بهروزشونده بودن پيكرۀ حاضر به پژوهشگر اين امكان را ميدهد كه بتواند تغييرات زباني و حتي فرهنگي-جامعهشناختي را با استفاده از آن بررسي و تحليل کند.
وي همچنين خاطرنشان كرد كه در فاز نخست اين پروژه، هر روز متون خبري به صورت متوازن از ۶ حوزهٔ موضوعي و از خبرگزاريهاي مختلف به پيكره اضافه ميشود.
همچنين مرتضي رضائي شريفآبادي، دانشجوي دكتري زبانشناسي دانشگاه شيراز و مسئول فني پروژه با بيان اينكه مراحل اجرايي كار با همكاري تيمي قوي از مهندسان نرمافزار و با بهرهگيري از جديدترين فناوريها انجام شده است گفت: علاوه بر امكان دريافت دادهٔ پيكره، علاقهمندان ميتوانند براي كاوش در پيكره از ابزار جستجوي برخط تهيهشده استفاده كنند.
وي افزود: تمام متون پيكره به صورت خودكار نرمالسازي و ريشهيابي ميشوند و برچسب اجزاي كلام به واژههاي آنها اختصاص مييابد و براي توازن متون در سطح موضوع و زيرموضوع و همچنين توازن زماني نيز از روشي ابتكاري استفاده شده است.
رضائي تصريح كرد : هماكنون پيكرهٔ بهروزشونده و ابزار جستجوگر آن به صورت آزمايشي و با دسترسي محدود راهاندازي شده است .
گفتني است يكي از مهمترين گام ها در طراحي و ساخت سيستم هاي بازشناسي گفتار پيوسته با دايرۀ لغات بزرگ (LVCSR)، تعليم مدل زباني (Language Model) براي مدل كردن نحوۀ توالي كلمات در يك زبان خاصّ است. براي انجام چنين كاري، داشتن مقادير بسيار زيادي از دادگان متني (Text) از آن زبان همراه با برچسب هاي لازم ضروري است. از طرفي در بسياري از پروژه هاي تحقيقاتي در زمينۀ پردازش زبان طبيعي (Natural Language Processing)، چنين دادگاني مورد نياز است.
پيكره مجموعهاي از پارههاي زباني است كه انتخاب و براساس معيارهاي زباني روشني مرتب ميشوند به نحوي كه همچون نمونها ي از زبان به كار گرفته ميشوند.
پيكره شامل متن هاي پيوسته طبيعي است كه ميتوان از آن اطلاعاتي درباره عناصر زباني، هم واژگاني هم غيرواژگاني (مانند سبك، نقطه گذاري، دستور، گونة كاربردي)، به دست آورد.
كشف واژههايی خاص يا كاربردهايی خاص از آنها در پيكرهاي از متن هاي معتبر كه متخصصان هر زمينه موضوعي آن را نوشتهاند، بسيار ارزشمند است؛ زيرا نشان ميدهد اگرچه همه واژه ها در فرهنگهاي لغت ظاهر ميشوند، در بافتهايی خاص نميتوان از آنها استفاده كرد، حتي اگر جمله به لحاظ دستوري درست باشد.
انتهای پیام
* نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند