آمازون روی بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار کار میکند

محققان آمازون مدعی می باشند در حال گسترش بزرگترین مدل هوش مصنوعی برای تبدیل متن به گفتار بوده که برای آموزش آن از ۱۰۰ هزار ساعت سخنرانی در حوزه عمومی منفعت گیری میبشود.
به نقل از سرویس اخبار فناوری و تکنولوژی تکنا، محققان آمازون مدعی می باشند در حال گسترش یکی از بزرگترین مدلهای هوش مصنوعی برای تبدیل متن به گفتار و آموزش آن می باشند. این مدل با نام BASE TTS برای آموزش از ۱۰۰ هزار ساعت اطلاعات صوتی منفعت گیری کرده و در نتیجه با قابلیتهای دریافت کرده خود میتواند انقلابی در حوزه مدلهای تبدیل متن به صدا تشکیل کند.
مدل تازه آمازون در واقع دارای نام Big Adaptive Streamable TTS به طور مخفف BASE TTS با قابلیتهای تازه خواهد می بود که در آموزش آن از ۱۰۰ هزار ساعت سخنرانی با نوشته عمومی منفعت گیری شده است. ۹۰ درصد از آموزشهای اراعه شده برای این مدل تازه به انگلیسی بوده بقیه آن نیز شامل زبانهای هلندی اسپانیایی و آلمانی است.
با دقت به این که مدل تازه از ۹۸۰ میلیون پارامتر حمایتمیکند. می توان آن را یکی از بزرگترین مدلها در نوع خود محسوب کرد. این چنین ویژگیهای جدیدی به آن اضافه شده که تنها آن را یک پیروی کننده صدا ندانسته و در صورت روبه رو با جملات پیچیده و یا اراعه گفتار با صدای طبیعی می تواند کارکرد فوق الاده را از خود نشان دهد. پیش از آن آمازون در مدلهای ۴۰۰ و ۱۵۰ پارامتری خود نیز از آموزشهای ۱۰ هزار و ۱۰۰۰ ساعتی صدا منفعت گیری کرده می بود.
در وب سایت ساخته شده برای این مدل مثالهای مختلفی از صدا وجود دارد که این هوش مصنوعی با منفعت گیری از برخی متون دشوار به وجود اورده است. یقیناً باید دقت داشت که مدل مورد نظر تا این مدت در مرحله فرایند تجربی قرار داشته و امکان منفعت گیری از آن برای اهداف تجاری وجود ندارد. آمازون در آینده توضیحات بیشتری در رابطه ویژگیهای تازه و نحوه آموزش این مدل زبانی اراعه خواهد کرد.
منبع