اصل ماجرا
erm با استفاده از مدل Whisper و پردازشهای صوتی چند مرحلهای، توکنهای پرکننده را شناسایی و بهصورت هوشمند برش میدهد. برای جلوگیری از کلیک و تغییر صدا، نقاط برش به آرامترین بخش موج منتقل و سپس با کراسفید ترکیب میشوند. خروجی شامل فایل صوتی تمیز و فهرست برشهای JSON است.
متن کامل ترجمهشده
زبانیست ها یک کلمه برای ums، uhs، ers، و نسخه های طولانی (ummmm، uhhhhh) که پودر به زبان انگلیسی: disfluencies. من بسیاری از صوتی را ثبت نمی کنم، اما چند دوستان انجام می دهند، و آنها به من می گویند که ترمیم آن را با دست ناخوشایند است. بنابراین من erm را برای انجام آن ساخته ام. uvx erm input.wav که تمام رابط برای مورد معمول است. آن را می نویسد یک .wav پاک شده و یک لیست کوتاه JSON در کنار واردات. این پست از طریق چگونگی کار می کند، زیرا رویکرد آشکار به نظر نمی رسد بسیار خوب و اکثر کد چیزی است که آن را اصلاح می کند. نسخه احمقانه کار نمی کند البته شما انتظار می رود که کار را انجام دهید: ترجمه با برچسب ها در سطح کلمه، پیدا کردن تیکن مانندگوش شما آن را به عنوان یک کلیک می شنود. - حتی هنگامی که قطعه خود را پاک است، پس از قطعه، پس از قطعه به طور کامل تعادل نمی کند، بنابراین شما یک تغییر ضعیف در هر ترمیم می شنوید. بیشتر از erm کار اصلاح این سه چیز است. یک کلمه سریع در Whisper Whisper مدل OpenAI منبع باز به متن است. شما آن را به صوتی هدایت می کنید، آن را به شما یک ترافیک باز می کند، و با پرچم درست آن نیز به شما شروع و پایان زمان شروع هر کلمه را می گوید. آن را به صورت محلی اجرا می کند، که چیزی است که یک ابزار مانند این را بدون ارسال ضبطات خود را امکان می دهد. erm از سریع تر-whisper استفاده می کند ، یک پیاده سازی که چند برابر سریع تر از اشاره است و از حافظه کمتر استفاده می کند.آگاهی اول، اجرا Whisper. erm از وقت های سطح کلمه درخواست می کند و به آن یک دستورالعمل کوچک را به جلو می دهد که به آن ها می گوید که از پیراهن پاک نکنند. Whisper، به تنهایی باقی مانده، مکمل ها را ترمیم می کند زیرا بسیاری از پیراهن های آموزش خود را پاک است. هر کلمه ای که به عنوان یک پرنده شناخته شده (um، uh، er، و غیره) برمی گردد برای کاشت نامیده می شود. نسخه های طولانی مدت مانند ummmm با stem um بر روی فلج متصل می شوند. Whisper هنوز هم چیزهایی را از دست می دهد، بنابراین سه نفر دیگر به صورت مستقیم به آڈیو نگاه می کنند: مکمل های Gap. اگر بین دو کلمه ای که در پیراهن نوشته شده اند غیر معمول طولانی است (برای مثال بیش از 350ms)، ermغافل گاهی اوقات یک پرنده را به یک کلمه نزدیک می کند، بنابراین “in, uhhhhh” به عنوان یک واحد در تیکن برمی گردد. erm به کلمات طولانی یک تیکن نگاه می کند، آنها را در دایره های کوتاه در آڈیو تقسیم می کند، مشخص می کند که کلمه واقعی چه کلمه است (بر اساس چه مدت کلمه باید به درستی بگویید) و بقیه را به عنوان پرنده درمان می کند. کلمات که خیلی طولانی هستند. اگر یک کلمه آخرین راه طولانی تر از متن خود را می تواند به طور قابل اطمینان برای سخن گفتن است، پایان قاشق مشکوک است. erm از قاشق برای صدای صدا، و به طور اختیاری دو برابر چک با یک تست پیتچ: صدای شکسته را به عنوان کسی که یک صدا (uhhhhhhhhh) نگه دارد، و یاتمیز کردن نقاط قطع یک قطع در دقیقا t = 1.234s زمین هر جایی که شکل حفره اتفاق می افتد در آن لحظه، تقریبا هرگز در صفر است. تمیز کردن دو نقطه عمدی با هم یک مرحله در شکل حفره، و این مرحله کلیک شما می شنویید است. دو اصلاح کوچک، در ترتیب. اول، هر نقطه پایان قطع اجازه می دهد تا یک قطعه کوچک (تا 60ms) به زمین در آرام ترین نقطه در نزدیکی است. اگر در اتومبیل لحظه ای در اتومبیل درست قبل از یا پس از نقطه قطع اصلی، چرخش وجود دارد. چرخش در آنجا محدود است تا آن را نمی تواند به یک کلمه همسایه عبور، در غیر این صورت شما از صحبت واقعی چسبیده می شود. دوم، از آن نقطه آرام، نقطه پایان به نزدیک ترین لحظه که شکل حفره دقیقا از صفر عبور می کند. دوقطعه ای که کوچک است هرچند نمی تواند از تمیز کردن در هر دو طرف زنده بماند و فقط به عنوان یک فلیپ به نظر می رسد. Splicing ffmpeg با استفاده از یک crossfade انجام می دهد تمیز کردن واقعی است. به جای تمیز کردن دو قطعه از صوتی با هم، آن را به مدت کوتاهی متلاشی می کند و یکی از آنها را از بین می برد در حالی که دیگران در می ریزد. که بر روی هر اختلاف باقی مانده تمیز می شود. جور انتخاب می کند که چقدر طول می کشد. یک طول ثابت (به اکثر آموزش ها می گویند 80ms یا بیشتر) به هر دو راه اشتباه می گوید: قطعه های کوتاه با هم متلاشی می شوند، قطعه های طولانی هنوز پوپ می کنند. erm اندازه طول را به اندازه قطعه کاهش می دهد: یک قطعه کوچک از uh یک crossfadeهر اتاق دارای یک ” سکوت” کمی متفاوت است، و با هم زدن دو سکوت نزدیک به یکدیگر هنوز هم یک تغییر ضعیف را می توانید بشنوید. اصلاح دیوانه است اما کار می کند. در ضبط اصلی (یک قطعه واقعی از “این اتاق هنگامی که هیچ کس حرف می زند) یک استراحت پیدا کنید و آن را زیر طیف زمان مشخصی اگر شما یک حجم خوب را می دانید. در حال حاضر پس زمینه یکسان است، چرا که آن را در همه جا همان لوله است. هر اشتباه کوچک در هر قطعه در هر قطعه توسط صدای ثابت در بالا پوشیده می شود. به طور استاندارد استراحت به طور خودکار پیدا می شود. شما همچنین می توانید آن را در طیف زمان خاصی اگر شما یک خوب را می دانید نشان دهید. Denoiser دیوانه است البته ffmpeg دارای یک محدود کننده ساخته شده نیست، و شما می توانید آنerm دارای چهار حالت است: هیبرید است، و یکی که شما می خواهید: تشخیص بر روی صوتی اصلی اجرا می شود (به طوری که می تواند تمام راهنمایی ها را ببینید)، اما قطعات واقعی از یک کپی پاک، denoised (به طوری که قطعات خوب به نظر می رسد) می آید. پیش به نظر می رسد منطقی است اما بدترین گزینه است، زیرا اجرا از شناسه ها بر روی فایل اتوماتیک denoised پنهان چیزهایی است که آنها به دنبال هستند. تایید راندورهای صوتی می تواند در راه های ناخودآگاه، بنابراین یک فرمان زیر تایید: uvx erm validate input.wav cleaned.wav -cuts cuts.json آن را انجام می دهد سه چک: - فایل اتوماتیک در واقع باز می شود. - اتوماتیک کوتاه تر از واردات با حدود کل طول قطعات (با یکآنها مانند پرندگان به نظر می رسد اما آنها کار واقعی را در جمله انجام می دهند، و قطع آنها به طور خودکار تغییر می کند چه کسی گفته است. قانون erm می گوید: فقط چیزهایی را که صدا هستند، نه زبان را حذف کنید. آن را نیز تکرار کلمات، شروع های جعلی، یا استراحت های طولانی فکر نمی کند. آن ها صدا در بالای سخنرانی نیستند؛ آنها سخنرانی هستند، فقط messier از سخنران می خواهد. پاک کردن آنها را یک تصمیم تحلیلی در مورد آن است که نیاز به نگه داشتن، و erm هیچ نظر در مورد آن ندارد. امتحان کنید شاید سریع ترین راه این است که با uv ، که دریافت و اجرا ابزار در یک مرحله بدون یک نصب دائم: uvx ermwa input. —vry-run # ببینید چه چیزی می تواند uvx erm input.wav را قطع کنید. # render اگر شما ترجیح می دهید آناگر شما یادداشت های صوتی یا podcasts را ضبط می کنید و هر کلمه دیگری شما um است، آن را امتحان کنید.
چرا مهمه؟
امروزه تولید محتواهای صوتی مثل پادکست و یادداشتهای صوتی بهسرعت رشد کرده؛ پرکنندههای گفتاری باعث طولانی شدن و کاهش کیفیت میشوند. erm این پرکنندهها را بهصورت خودکار حذف میکند، بنابراین زمان و هزینه ویرایش دستی کاهش مییابد. کاربران میتوانند بدون ارسال فایل به سرویسهای ابری، محتوای خود را تمیز و حرفهای عرضه کنند.
به درد کی میخوره؟
• تولیدکنندگان پادکست • توسعهدهندگان ابزارهای صوتی • پژوهشگران پردازش گفتار • افراد تولید محتوا در شبکههای اجتماعی
تو عمل چی کار کنیم؟
با نصب erm میتوانید یک فرمان ساده اجرا کنید و فایل صوتی خود را از پرکنندهها پاک کنید؛ نیازی به ویرایش دستی یا نرمافزارهای پیچیده ندارید. این کار باعث میشود ضبطهای شما کوتاهتر، واضحتر و آماده انتشار شوند.
نظر Blue IT News
توصیه میکنیم قبل از حذف، یک نسخه پشتیبان از فایل اصلی نگه دارید؛ در صورت نیاز به بازگرداندن بخشهای حذفشده میتوانید به سادگی از آن استفاده کنید.
این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Doug است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید.