«erm: ابزار خط فرمان محلی که «ام»، «اُه» و «ارم» را از گفتار حذف می‌کند»

اصل ماجرا

erm با استفاده از مدل Whisper و پردازش‌های صوتی چند مرحله‌ای، توکن‌های پرکننده را شناسایی و به‌صورت هوشمند برش می‌دهد. برای جلوگیری از کلیک و تغییر صدا، نقاط برش به آرام‌ترین بخش موج منتقل و سپس با کراس‌فید ترکیب می‌شوند. خروجی شامل فایل صوتی تمیز و فهرست برش‌های JSON است.

متن کامل ترجمه‌شده

زبانیست ها یک کلمه برای ums، uhs، ers، و نسخه های طولانی (ummmm، uhhhhh) که پودر به زبان انگلیسی: disfluencies. من بسیاری از صوتی را ثبت نمی کنم، اما چند دوستان انجام می دهند، و آنها به من می گویند که ترمیم آن را با دست ناخوشایند است. بنابراین من erm را برای انجام آن ساخته ام. uvx erm input.wav که تمام رابط برای مورد معمول است. آن را می نویسد یک .wav پاک شده و یک لیست کوتاه JSON در کنار واردات. این پست از طریق چگونگی کار می کند، زیرا رویکرد آشکار به نظر نمی رسد بسیار خوب و اکثر کد چیزی است که آن را اصلاح می کند. نسخه احمقانه کار نمی کند البته شما انتظار می رود که کار را انجام دهید: ترجمه با برچسب ها در سطح کلمه، پیدا کردن تیکن مانندگوش شما آن را به عنوان یک کلیک می شنود. - حتی هنگامی که قطعه خود را پاک است، پس از قطعه، پس از قطعه به طور کامل تعادل نمی کند، بنابراین شما یک تغییر ضعیف در هر ترمیم می شنوید. بیشتر از erm کار اصلاح این سه چیز است. یک کلمه سریع در Whisper Whisper مدل OpenAI منبع باز به متن است. شما آن را به صوتی هدایت می کنید، آن را به شما یک ترافیک باز می کند، و با پرچم درست آن نیز به شما شروع و پایان زمان شروع هر کلمه را می گوید. آن را به صورت محلی اجرا می کند، که چیزی است که یک ابزار مانند این را بدون ارسال ضبطات خود را امکان می دهد. erm از سریع تر-whisper استفاده می کند ، یک پیاده سازی که چند برابر سریع تر از اشاره است و از حافظه کمتر استفاده می کند.آگاهی اول، اجرا Whisper. erm از وقت های سطح کلمه درخواست می کند و به آن یک دستورالعمل کوچک را به جلو می دهد که به آن ها می گوید که از پیراهن پاک نکنند. Whisper، به تنهایی باقی مانده، مکمل ها را ترمیم می کند زیرا بسیاری از پیراهن های آموزش خود را پاک است. هر کلمه ای که به عنوان یک پرنده شناخته شده (um، uh، er، و غیره) برمی گردد برای کاشت نامیده می شود. نسخه های طولانی مدت مانند ummmm با stem um بر روی فلج متصل می شوند. Whisper هنوز هم چیزهایی را از دست می دهد، بنابراین سه نفر دیگر به صورت مستقیم به آڈیو نگاه می کنند: مکمل های Gap. اگر بین دو کلمه ای که در پیراهن نوشته شده اند غیر معمول طولانی است (برای مثال بیش از 350ms)، ermغافل گاهی اوقات یک پرنده را به یک کلمه نزدیک می کند، بنابراین “in, uhhhhh” به عنوان یک واحد در تیکن برمی گردد. erm به کلمات طولانی یک تیکن نگاه می کند، آنها را در دایره های کوتاه در آڈیو تقسیم می کند، مشخص می کند که کلمه واقعی چه کلمه است (بر اساس چه مدت کلمه باید به درستی بگویید) و بقیه را به عنوان پرنده درمان می کند. کلمات که خیلی طولانی هستند. اگر یک کلمه آخرین راه طولانی تر از متن خود را می تواند به طور قابل اطمینان برای سخن گفتن است، پایان قاشق مشکوک است. erm از قاشق برای صدای صدا، و به طور اختیاری دو برابر چک با یک تست پیتچ: صدای شکسته را به عنوان کسی که یک صدا (uhhhhhhhhh) نگه دارد، و یاتمیز کردن نقاط قطع یک قطع در دقیقا t = 1.234s زمین هر جایی که شکل حفره اتفاق می افتد در آن لحظه، تقریبا هرگز در صفر است. تمیز کردن دو نقطه عمدی با هم یک مرحله در شکل حفره، و این مرحله کلیک شما می شنویید است. دو اصلاح کوچک، در ترتیب. اول، هر نقطه پایان قطع اجازه می دهد تا یک قطعه کوچک (تا 60ms) به زمین در آرام ترین نقطه در نزدیکی است. اگر در اتومبیل لحظه ای در اتومبیل درست قبل از یا پس از نقطه قطع اصلی، چرخش وجود دارد. چرخش در آنجا محدود است تا آن را نمی تواند به یک کلمه همسایه عبور، در غیر این صورت شما از صحبت واقعی چسبیده می شود. دوم، از آن نقطه آرام، نقطه پایان به نزدیک ترین لحظه که شکل حفره دقیقا از صفر عبور می کند. دوقطعه ای که کوچک است هرچند نمی تواند از تمیز کردن در هر دو طرف زنده بماند و فقط به عنوان یک فلیپ به نظر می رسد. Splicing ffmpeg با استفاده از یک crossfade انجام می دهد تمیز کردن واقعی است. به جای تمیز کردن دو قطعه از صوتی با هم، آن را به مدت کوتاهی متلاشی می کند و یکی از آنها را از بین می برد در حالی که دیگران در می ریزد. که بر روی هر اختلاف باقی مانده تمیز می شود. جور انتخاب می کند که چقدر طول می کشد. یک طول ثابت (به اکثر آموزش ها می گویند 80ms یا بیشتر) به هر دو راه اشتباه می گوید: قطعه های کوتاه با هم متلاشی می شوند، قطعه های طولانی هنوز پوپ می کنند. erm اندازه طول را به اندازه قطعه کاهش می دهد: یک قطعه کوچک از uh یک crossfadeهر اتاق دارای یک ” سکوت” کمی متفاوت است، و با هم زدن دو سکوت نزدیک به یکدیگر هنوز هم یک تغییر ضعیف را می توانید بشنوید. اصلاح دیوانه است اما کار می کند. در ضبط اصلی (یک قطعه واقعی از “این اتاق هنگامی که هیچ کس حرف می زند) یک استراحت پیدا کنید و آن را زیر طیف زمان مشخصی اگر شما یک حجم خوب را می دانید. در حال حاضر پس زمینه یکسان است، چرا که آن را در همه جا همان لوله است. هر اشتباه کوچک در هر قطعه در هر قطعه توسط صدای ثابت در بالا پوشیده می شود. به طور استاندارد استراحت به طور خودکار پیدا می شود. شما همچنین می توانید آن را در طیف زمان خاصی اگر شما یک خوب را می دانید نشان دهید. Denoiser دیوانه است البته ffmpeg دارای یک محدود کننده ساخته شده نیست، و شما می توانید آنerm دارای چهار حالت است: هیبرید است، و یکی که شما می خواهید: تشخیص بر روی صوتی اصلی اجرا می شود (به طوری که می تواند تمام راهنمایی ها را ببینید)، اما قطعات واقعی از یک کپی پاک، denoised (به طوری که قطعات خوب به نظر می رسد) می آید. پیش به نظر می رسد منطقی است اما بدترین گزینه است، زیرا اجرا از شناسه ها بر روی فایل اتوماتیک denoised پنهان چیزهایی است که آنها به دنبال هستند. تایید راندورهای صوتی می تواند در راه های ناخودآگاه، بنابراین یک فرمان زیر تایید: uvx erm validate input.wav cleaned.wav -cuts cuts.json آن را انجام می دهد سه چک: - فایل اتوماتیک در واقع باز می شود. - اتوماتیک کوتاه تر از واردات با حدود کل طول قطعات (با یکآنها مانند پرندگان به نظر می رسد اما آنها کار واقعی را در جمله انجام می دهند، و قطع آنها به طور خودکار تغییر می کند چه کسی گفته است. قانون erm می گوید: فقط چیزهایی را که صدا هستند، نه زبان را حذف کنید. آن را نیز تکرار کلمات، شروع های جعلی، یا استراحت های طولانی فکر نمی کند. آن ها صدا در بالای سخنرانی نیستند؛ آنها سخنرانی هستند، فقط messier از سخنران می خواهد. پاک کردن آنها را یک تصمیم تحلیلی در مورد آن است که نیاز به نگه داشتن، و erm هیچ نظر در مورد آن ندارد. امتحان کنید شاید سریع ترین راه این است که با uv ، که دریافت و اجرا ابزار در یک مرحله بدون یک نصب دائم: uvx ermwa input. —vry-run # ببینید چه چیزی می تواند uvx erm input.wav را قطع کنید. # render اگر شما ترجیح می دهید آناگر شما یادداشت های صوتی یا podcasts را ضبط می کنید و هر کلمه دیگری شما um است، آن را امتحان کنید.

چرا مهمه؟

امروزه تولید محتواهای صوتی مثل پادکست و یادداشت‌های صوتی به‌سرعت رشد کرده؛ پرکننده‌های گفتاری باعث طولانی شدن و کاهش کیفیت می‌شوند. erm این پرکننده‌ها را به‌صورت خودکار حذف می‌کند، بنابراین زمان و هزینه ویرایش دستی کاهش می‌یابد. کاربران می‌توانند بدون ارسال فایل به سرویس‌های ابری، محتوای خود را تمیز و حرفه‌ای عرضه کنند.

به درد کی می‌خوره؟

• تولیدکنندگان پادکست • توسعه‌دهندگان ابزارهای صوتی • پژوهشگران پردازش گفتار • افراد تولید محتوا در شبکه‌های اجتماعی

تو عمل چی کار کنیم؟

با نصب erm می‌توانید یک فرمان ساده اجرا کنید و فایل صوتی خود را از پرکننده‌ها پاک کنید؛ نیازی به ویرایش دستی یا نرم‌افزارهای پیچیده ندارید. این کار باعث می‌شود ضبط‌های شما کوتاه‌تر، واضح‌تر و آماده انتشار شوند.

نظر Blue IT News

توصیه می‌کنیم قبل از حذف، یک نسخه پشتیبان از فایل اصلی نگه دارید؛ در صورت نیاز به بازگرداندن بخش‌های حذف‌شده می‌توانید به سادگی از آن استفاده کنید.

این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Doug است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید.