تبدیل متن به گفتار
فناوری تشخیص گفتار نرمافزاری است که قادر است صوت را به متن تبدیل کند.این فناوری در تبدیل گفتار به متن یا به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد.
از جمله محدودیتهای این نرمافزار این است که کلماتی که در این نرمافزار وجود دارد کلماتی است که از قبل به نرمافزار معرفی شدهاست. ضمن ان که در این نرمافزار کلمات محاورهای قابل شناسایی نیست یا حداقل ضعیف است (البته با پیشرفت تکنولوژی این عیب داره کم رنگ میشه.)
مقدمه
هدف بلند مدت سیستمهای بازشناسی خودکار گفتار‚ طراحی ماشینی است که سیگنال صوتی مربوط به یک جملهٔ بیان شده را به دنبالهای از کلمات نوشته شده تبدیل نماید. سیستمهای بازشناسی خودکار گفتار اطلاعات متنوعی ازمنابع دانش گوناگون را در جهت دستیابی به جملهٔ بیان شده از روی سیگنال صوتی دریافت شده، به کار میگیرند. پردازش گفتار به عنوان یکی از زیر شاخههای پردازش سیگنال ٫ به سرعت در حال گسترش است. تکنیکهای پیچیده و نوآوریهای روز افزون این دانش٫همگی در راستای دستیابی به این ارزو هستند که امکان بیابیم مفاهیم در قالب ابزارهای ریاضی فراهم گردد. در این مقاله٫به بیان خلاصهای از انواع روشهای پردازش گفتار میپردازیم:
- تحت تأثیر قرار گرفتن کیفیت سیگنال صوتی به وسیلهٔ نویز محیط و تابع انتقال سیستم انتقال مانند میکروفن، تلفن
- عدم وضوح مرز ما بین کلمات و واجها در سیگنال صوتی
- تنوع وسیع سرعت بیان
- دقت ناکافی در بیان کلمات و به خصوص انتهای آنها در گفتار محاورهای نسبت به گفتار مجزا.
- تاپیر تنوعات متعدد گوینده از جمله جنسیت، شرایط فیزیولوژیک و روانی بر گفتار.
- به کارگیری محدودیتهای معنایی-نهوی زبان برای گفتار زبان طبیعی به روشی مشابه ارتباط انسان با انسان در سیستم بازشناسی.
در جهت غلبه بر مشکلات مذکور تاکنون روشهای متنوعی پیشنهاد شدهاست که از جمله آنها روشهای اماری مبتنی بر قانون تصمیمگیری بیز، روشهای مبتنی بر شبکهٔ عصبی و در برخی موارد ترکیب روشهای اماری و شبکهٔ عصبی است. با بررسی روشهای فوق میتوان دریافت که شناسایی کلمه یا واج بدون خطا بدون استفاده از دانش سطوح بالاتر به خصوص در بازشناسی گفتار پیوسته با حجم لغتنامهٔ بزرگ، امکانپذیر نیست. به عنوان یک نتیجه ‚یک سیستم بازشناسی گفتار که با انبوهی از فرضها دربارهٔ واج ها، کلمات و معانی و ادراک مشخص میشود‚در نظر بگیرد. در سیستمهای مبتنی بر قانون تصمیمگیری بیز برخی از این محدودیتها توسط مدل زبانی به سیستم بازشناسی اعمال میشود. نتایج مطالعات و بررسیها نشان دادهاست که مدلهای زبانی که در حالت کلی توالی واحدهای زبانی را مدل میکنند، در کاهش خطای بازشناسی نقش عمدهای ایفا میکنند. در این میان، استفاده از مدلهای زبانی مبتنی بر شبکههای عصبی با وجود قابلیت این شبکهها در یادگیری زنجیره نمادها و نیز به دلیل قابلیت هموارسازی و خاصیت تعمیم دهی آنها بر روشهای اماری مزیت دارد.
تولید نرمافزار ترجمه گفتار
از جمله قابلیتهای این نرمافزار این است که این نرمافزار قادر است فایلهای WAV،mp3 را مستقل از صدای گوینده به متن تبدیل کند ولی کیفیت ان کمتر از ان است که صدای فرد را به نرمافزار معرفی کنیم. از دیگر قابلیتهای سیستمهای گفتاری میتوان به ترجمهٔ گفتار به سایر زبانها اشاره کرد. از این قابلیت در جنگ امریکا و عراق استفاده شد. امریکاییها سیستمهایی را طراحی و تولید کردند که قادر بود کلام عربی را به انگلیسی ترجمه کند. همچنین در انجام اقدامات امنیتی بهرهبرداری میکنند که میتواند کلمات کلیدی را برای این نرمافزار شناسایی کرد تا نسبت به ان کلمه خاص حساس شود تا در صورت استفاده از آن، سیستم این کلمات را رکورد کند. این قابلیت در سال ۱۹۹۴ در آمریکا طراحی و تولید شد و در سیستمهای تلفنی به کار گرفته شد. در حال حاضر این نرمافزار طراحی و تولید شدهاست به گونهای که در متن و گفتار کاربر، کلمهٔ خاصی را میتوان فعال کرد و این نرمافزار میتواند ان کلمه را جستجو کند و کلمهٔ عبور کاربر ذخیره شود.
کاربردهای نرمافزار تشخیص گفتار
به عنوان یک کاربر رایانه، احتمالاً با قابلیت گفتاری مجموعهٔ افیس به عنوان یکی از ویژگیهای جذاب و تا حدی فانتزی برخورد کرده یا با ان کار کردهاید. به کمک این قابلیت شما میتونید متن رو بخوانید و نرم افزار اون رو به صورت خودکار تایپ کنه و یا حتی متن رو ذخیره و حذف کنید. متاسفانه این قابلیت فقط برای زبان انگلیسی است.(البته زبانهای چینی و ژاپنی را نیز شامل میشود!). به چنین سیستمی، سیستم تشخیص یا بازشناسی گفتار مینامند. چند سالی هست که محققان ¸اساتید و دانشجویان دانشگاههای مختلف کشور دارن این سیستم رو با زبان فارسی سازگار میکنن که نتایج خوبی هم گرفتن. البته شرکت گوگل هم روی این زمینه کار کارده و میشه گفت بهترین نتایج رو گوگل گرفته. (البته این نظر بنده هستش) اما جدیترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شد، ایجاد دادگان گفتاری فارسی دات و یک سیستم اولیه تشخیص گفتار فارسی در مرکز هوشمند علائم بودهاست. در ادامه و در طی یکی –دو سال اخیر ¸مهمترین دستاورد در این تکنولوژی برای زبان فارسی، سیستمهای تشخیص است. در کاربردهایی مانند تشخیص گفتار تلفنی ‚سیستم لزوماً باید مستقل از گوینده باشد. در کاربردهای واقعی معمولاً سیستم را مستقل از گوینده میسازند و موقع استفاده به صدای گوینده خاصی ان را اصطلاحاً تطبیق میکنند این کار در قابلیت گفتاری مجموعه افیس به کمک خواندن متون اولیه در ویزارد سیستم انجام میشود ‚چنین قابلیتی در سیستم نویسا نیز وجود دارد. هر چه تعداد واژگانی که سیستم میتواند تشخیص دهد بیشتر باشد، شباهت میان کلمات بیشتر باشد و در نتیجه کارایی سیستم به علت افزایش اشتباهات کاهش پیدا میکند. از این رو در کاربردهای واقعی معمولاً فقط واژگان متناسب با کاربردهای موردنظر را انتخاب میکنند تا محدود شود. در قابلیت گفتاری افیس هم که ادعا میشود اکثر کلمات انگلیسی را دارد٫ کارایی به شدت پایین است(کارایی پایین آن به علت این است که ما غیر انگلیسی زبان هستیم!)ولی در محصولات محدودتر این شرکت کارایی به مراتب بهتر است. گفتار کاربر میتواند پیوسته و طبیعی یا با مکث میان کلمات همراه باشد٫ بدیهی است که حالت اول مطلوب هر کاربری است. یکی از مشکلاتی که محصولات نویسا و نیوشا تا حد زیادی ان را حل کردهاند٫استخراج و بهکارگیری قابلیتهای زبان ٫زبان فارسی در حد نسبتاً کاملی است. این اطلاعات زبانی میتواند در سایر نرمافزارهایی که نیاز به اطلاعات زبانی دارند٫مانند مترجمها نیز به کار گرفته میشود. اثر صداهای اضافی و ناخواسته در کاربردهای واقعی نرمافزارهای ocr نرمافزارهای تشخیص گفتار را در عمل دچار افت شدید کارایی مینماید٫در محصولات فارسی ارائه شده با رویکردهای مختلفی این نقصان را تا حد زیادی جبران کردهاست.
تکنولوژی بازشناسی گفتار
تکنولوژی بازشناسی گفتار ٫ شیوهای جدید برای تشخیص پیام هاو دستورهای صوتی و حاصل پژوهش جمعی از متخصصین دانشگاه صنعتی شریف در زمینهٔ پردازش گفتار است. آنها توانستهاند نرمافزارهای طراحی و پیادهسازی کنند که بتواند قابلیتهای طرح را در سیستمی که از لحاظ سختافزاری کوچک و از نظر هزینه مقرون به صرفهاست٫پیادهسازی کند. ویژگیهای منحصر به فرد این طرح٫ان را از جدیدترین فناوریهای موجود دنیا در زمینهٔ پردازش گفتار٫متمایز میکند. (واقعا کارشون عالی بوده)
از جمله ویژگیهای این طرح میتوان به موارد زیر اشاره کرد:
- قابل اجرا بر روی رایانه یا سختافزاری مستقل
- سهولت استفاده
- هزینه اندک پیاده سازی
- عدم وابستگی به هیج نوع زبان با گویشی
- عدم حساسیت به سروصدای محیط
- امکان تعریف دستورهای صوتی، مطابق با سلیقه کاربرد
فناوری بازشناسی گفتار، بر پایه این ویژگیها در طیف گستردهای از محصولات قابل استفادهاست. نمونههایی از زمینههای کاربرد آن عبارتند از:
- خودرها
- لوازم خانگی الکتریکی و الکترونیکی
- اسباب بازیها، عروسکها و سرگرمیهای رایانهای
- سیستمهای دیتار افراد کم توان و سالخورده
- نرمافزارهای رایانهای مدیریتی
- سیستمهای آموزش زبان
به عنوان نمونه از این نرمافزار در دادن فرامین صوتی به خودرو ویژه هنگامی که راننده مشغول رانندگی است و نمیتواند کاربری دیگری انجام دهد، استفاده میشود فرامین صوتی شامل موارد ذیل میشوند:
- تنظیم آینههای بغل و عقب
- کنترل بالابر شیشهها
- کنترل قفل کودک
- کنترل روغن ترمز و موتور یا بنزین در حال حرکت
- کنترل رادیو یا هر نوع رسانه دیگر در خودرو
- کنترل برف پاک کنها
- تنظیم صندلیها
- کنترل چراغها
- هر نوع دستور دیگر که انجام آن نیازمند حرکت اضافی راننده یا سرنشینان است.
این نرمافزار، به خوبی در محیط پرنویز، عمل میکند مثلاً در خودرویی با سرعت ۱۰۰ کیلومتر در ساعت با شیشههای باز و در بزرگراه تست شده و پاسخ مناسب گرفتهاست. دیگر مزیت این نرمافزار، حجم بسیار پایین آن است که به راحتی قابل برنامهریزی بر روی یک ای سی است (نسخه دمو روی pc) به راحتی تا ۱۰۰ فرمان را پردازش میکند) نرمافزار مورد بحث، با این مشخصات در ایران مشابه ندارد و موارد موجود در دنیا نیز مانند فرمانی توسط صدا حداقل نیاز به پردازنده پنتیوم با حجم زیاد حافظه دارند. نکته دیگر اینکه این نرمافزار، هوشمند بوده و قابل آموزش دادن است و پس از آموزش (مثلاً با صدای اعضای یک خانواده) صدار هرکدام از آنها را که بشنود (و در کل هر زمانی که کلمه یا فرمانی را بشنود) مستقل از این که چه کسی آن را ادا کردهاست (صدای زن یا مرد، کلفت یا نازک) فرمان را اجرا میکند. دیگر مزیت این نرمافزار، حجم بسیار پایین آن است که به راحتی قابل برنامهریزی بر روی یک ای سی است (نسخه دمو روی کامپیوتر جیبی به راحتی تا ۱۰۰ فرمان را پردازش میکند. نرمافزار مورد بحث با این مشخصات در ایران مشابه ندارد و موارد موجود در دنیا نیز مانند وویس کامند در میکروسافت افیس٫حداقل نیاز به پردازنده پنتیوم با حجم زیاد حافظه دارند نکته دیگر اینکه این نرمافزار هوشمند بوده و قابل آموزش دادن است و پس از آموزش (مثلاً با صدای اعضای یک خانواده) صدای هر کدام از آنها را که بشنود (و در کل هر زمانی که کلمه یا فرمان را بشنود) مستقل از اینکه چه کسی آن را ادا کردهاست (صدای زن با مردن، کلفت یا نازک) فرمان را اجرا میکند.
با یه سرچ کوچیک میتونید در مورد این پروژه بیشتر بخونید.
دستیار های صوتی هوشمن
امروز یکی از پرترفدارترین وسایل دنیا دستیار های صوتی هوشمن هست که شرکت های زیادی از جمله گوگل، مایکروسافت، اپل و سامسونگ دارن خیلی زیاد روی این موضوع کار میکنن که روی گوشی ها و وسایل هوشمندشون دارن پیاده سازیشون میکنن. تا همین سال 2017 یعنی تا زمانی که تراشه Ai (هوش مصنوعی) روی گوشی های هوشمند نصب نشده بود، تنها مشخصه هوشمند تلفن های هوشمن همین دستیار های صوتی هوشمند بود.از جمله دستیار های هوشمند صوتی میتونیم به لیست زیر اشاره کرد.
- siri (apple)
- Bixby (samsung)
- assistant (google)
- Cortana (microsoft)
- HiAssistant (huawei)