پیش بینی پارامتر وضوح گفتار در کلاسهای درس با استفاده از شبکه عصبی پرسپترون چند لایه

پذیرفته شده برای ارائه شفاهی XML
کد مقاله : 1020-ISAV (R1)
نویسندگان
1دانشجوی کارشناسی ارشد مهندسی صدا در دانشگاه صدا و سیما
2دانشکده فنی مهندسی رسانه- دانشگاه صدا و سیمای جمهوری اسلامی ایران
چکیده
اصولاً مهمترین پارامتر برای بررسی شرایط آکوستیکی محیط ها، زمان واخنش است ولی این اطلاعات به تنهایی میتواند گمراه کننده باشد. ما در این مقاله، در فاز اول، دو کلاس درس آموزشی را شبیه سازی کردیم ومشاهده شد که حتی در صورتی که زمان واخنش های کلاسهای درس نزدیک به هم باشد، این امکان وجود دارد که تفاوت قابل توجهی از لحاظ قابلیت درک یا وضوح گفتار بین محیط ها وجود داشته باشد. در نتیجه تمرکز مطلق بر روی زمان واخنش برای بررسی شرایط آکوستیکی محیط و وضوح گفتار، باعث بروز خطا در پیش بینی ها میشود. بنابراین بررسی و اندازه گیری دیگر پارامترهای آکوستیکی مانند پارامتر وضوح گفتار(c50) از اهمیت بالایی برخوردار است، از این جهت در این مقاله به بررسی استفاده از شبکه عصبی پرسپترون چندلایه به منظور پیش بینی وضوح گفتار پرداخته شد. به این منظور در فاز دوم، با استفاده از روش های مبتنی بر آکوستیک هندسی و به کمک شبیه ساز اودئون به جمع آوری مجموعه دادگان مورد نیاز در فرکانس 500 هرتز و 2000 هرتز پرداخته میشود. سپس با استفاده از شبکه عصبی پرسپترون چندلایه، یک سیستم مبتنی بر یادگیری ماشین به منظور پیش بینی وضوح گفتار ارائه شد. در فرکانس 500 هرتز، ضریب تعیین 92 درصد و در فرکانس 2000 هرتز، ضریب تعیین 95 درصد ثبت شد. گرچه این مدل بر اساس نتایج شبیه سازی آموزش دیده است ولی این سیستم طراحی شده، این فرصت را به متخصصان میدهد تا در مورد پیش بینی وضوح گفتار ابزار مناسبی داشته باشند.
کلیدواژه ها
موضوعات