\chapter{مقدمه و معرفی}
\section{بهسازی گفتار}
محیط اطراف ما سرشار از منابع صوتی مختلف است. تنها برخی از این منابع، حاوی اطلاعات مهمی هستند و ما به آن­ها نیاز داریم. به این دسته از منابع، منبع مطلوب گفته می‌شود. برخی منابع نیز اطلاعات مفیدی نداشته و بر روی منبع مطلوب اثر مداخله‌گرایانه دارند که به این دسته منابع، نویز می‌گوییم. نویز، مجموعه‌ای از سیگنال‌های مزاحم محیطی است که با قرار­گرفتن در زمینه تمیز، منجر به افت کیفیت سیگنال مطلوب می‌شود.
عوامل تخريبي سيگنال گفتار به چهار دسته زیر تقسيم بندي می‌شوند:
\begin{itemize}
\item نویز جمع‌شونده\LTRfootnote{Additive Noise}: اين نويز مي‌تواند ناشي از منابع صوتي طبيعي و يا مصنوعي باشد.
\item انعكاس\LTRfootnote{Echo}: انعكاس آكوستيكي به دليل تزويج ميان بلندگو و ميكروفون ايجاد مي‌شود. 
\item پژواک\LTRfootnote{Reverberation}: پژواك، نتيجه انتشار چندمسيره سيگنال گفتار است كه باعث اعوجاج طيفي و به دنبال آن، كاهش فهم گفتار مي‌شود.
\item تداخل\LTRfootnote{Interference}: تداخل، ناشي از اثر چند منبع صوتي بر روي يكديگر است كه بيشتر در سيستم‌هاي ارتباط گفتاري كه شامل چند شركت كننده و بلندگو است، رخ مي‌دهد.
\end{itemize}

بهسازی گفتار به طور عام مقابله با عوامل مذکور و بهبود کیفیت و قابلیت فهم سیگنال گفتار تخریب شده به کمک ابزارهای پردازش سیگنال است. در این راستا، تاکنون روش‌های متنوعی در قالب دو دسته روش‌های تک‌کاناله و چندکاناله ارائه شده است. در روش‌های تک‌کاناله به دلیل وجود تنها یک حسگر نمی‌توان بیشتر از یک مقدار مشخصی بهسازی انجام داد ولی در روش‌های چندکاناله برای رسیدن به کیفیت بالاتر از چندین حسگر برای ضبط صدا استفاده می‌کنیم\cite{benesty2009noise}.

 بهسازی گفتار به دو دلیل مسئله پیچیده‌ای می‌باشد. اول این‌که ماهیت و ویژگی‌های سیگنال­ نویز با زمان تغییر می‌کند، بنابراین یافتن روشی که به طور واقعی در تمام محیط‌های عملی کاربرد داشته باشد بسیار مشکل است. دوم، وجود معیارهای تعیین کیفیت هستند که برای هر کاربرد باید به طور جداگانه تعریف شوند. دو معیار ادراکی که به طور گسترده در تعیین میزان عملکرد مناسب روش‌ها مورد استفاده قرار می‌گیرند کیفیت سیگنال(که با آزمون‌هایی مثل \LTRfootnote{Mean Opinion Score}\lr{MOS} سنجیده می‌شود) و قابل فهم بودن سیگنال(معمولا با آزمون \LTRfootnote{Diagnostic Rhyme Test}\lr{DRT} سنجیده می‌شوند) هستند. لذا برآورده کردن این شروط هم‌زمان با هم بسیار مشکل است. معیار مهم دیگر بهبود عملکرد کمی است که به طور مثال با افزایش نسبت سیگنال به نویز (\lr{SNR}) بررسی می‌شود. کاربردهای مخابراتی که روش‌های کاهش نویز گفتار در آن‌ها مورد استفاده قرار می‌گیرد در زیر لیست شده اند\cite{benesty2005speech}:
\begin{itemize} 
\item ارتباطات دست آزاد 
\item سمعک 
\item ارتباطات راه دور و محلی 
\item ماشین‌های پاسخ‌گو 
\item بازسازی گفتار 
\item کنفرانس تلفنی 
\end{itemize}

\section{اصول کلی حاکم بر آرایه‌های میکروفونی}
\subsection{تعریف آرایه‌های میکروفونی}
در سیستم‌های قدیمی، سیگنال‌های صوتی نوعاً با یک حسگر ضبط شده و پردازش‌های لازم بر روی خروجی حسگر صورت می‌پذیرفت؛ اما این روش از محدودیت‌هایی نظیر از دست رفتن حالت طبیعی سیگنال صوتی، انعطاف‌ ناپذیری سیستم در پردازش سیگنال ضبط شده، و ... رنج می‌برد. برای مقابله با این معایب، مفهوم آرایه‌های میکروفونی مطرح شد. آرایه‌های میکروفونی توانایی بالقوه‌ای در حل مسایل مهمی مانند: بهسازی گفتار،کاهش نویز، حذف پژواک، تفکیک منابع\LTRfootnote{Source Separation} و مکان‌یابی منابع\LTRfootnote{Source Localization}، دارند. با این وجود طراحی و پیاده‌سازی آرایه‌های میکروفونی و الگوریتم‌های شکل‌دهنده‌ پرتو آنها برای پردازش سیگنا‌ل‌های پهن‌باند مثل گفتار کار آسانی نیست\cite{benesty2012study,benesty2015design}. 

آرایه میکروفونی شامل تعدادی حسگر صوتی است که به گونه‌ای خاص کنار هم قرار گرفته و با توجه به تنوع موجود در سیگنال‌های دریافتی حسگرها، امکان انجام پردازش‌های مختلف را فراهم می‌آورد. سیگنال‌های دریافتی توسط حسگرهای یک آرایه حاوی سیگنال مطلوب\LTRfootnote{Desired Signal }، نویز، تداخل و نیز اطلاعات انتشار سیگنال در محیط -که در پاسخ ضربه کانال نهفته- می‌باشد\cite{benesty2012study}. 

پردازش‌های متفاوتی بر روی خروجی یک آرایه می‌تواند صورت بگیرد که از آن جمله می‌توان به مکان‌یابی و ردیابی منابع، استخراج سیگنال مطلوب، کاهش نویز جمعی و تفکیک منابع مختلف اشاره کرد. میزان مفید واقع شدن این پردازش‌ها به عوامل مختلفی چون کیفیت هر حسگر، تعداد حسگر‌ها، هندسه آرایه، محیط و الگوریتم‌های پردازشی(شکل‌دهی پرتو) وابسته است. بر اساس نحوه‌ طراحی آرایه نتیجه پردازش می‌تواند بسیار متفاوت باشد.
\subsection{بررسی انواع آرایه‌های میکروفونی}
یکی از انواع تقسیم‌بندی‌های آرایه‌های میکروفونی بر اساس نحوه‌ پاسخ آرایه در یک میدان صوتی است که بر پایه آن، آرایه‌های میکروفونی به دو گروه: 1) آرایه‌های میکروفونی جمعی\LTRfootnote{Additive Microphone Arrays} و 2) آرایه‌های میکروفونی تفاضلی(\LTRfootnote{Differential Microphone Arrays}\lr{DMA}) تقسیم‌بندی می‌شوند \cite{benesty2015design,5970096}. 

آرایه‌های جمعی آرایه‌هایی هستند که با سنکرون‌سازی و اعمال‌کردن یک سری قواعد، به سیگنال بهسازی شده دست پیدا می‌کنند. در چنین آرایه‌هایی فشار صوتی در هر حسگر به یک سیگنال الکتریکی تبدیل می‌شود. با پردازش بر روی خروجی این حسگرها، سیگنال مطلوب بیرون کشیده شده و نویز و تداخل تضعیف می‌گردد\cite{benesty2015design}. برای نشان دادن نحوه‌ کار آرایه‌های جمعی یک مثال ساده که یک آرایه‌ خطی با فاصله‌ یکسان بین میکروفون‌ها است را مطابق شکل \ref{fig1-1} در نظر بگیرید. فرض کنید که یک منبع سیگنال در فاصله‌ دور از آرایه قرار گرفته و موج‌های کروی آن به صورت صفحه‌ای به آرایه برخورد می‌کنند. اگر از تضعیف انتشار صرف نظر کنیم سیگنال دریافتی در زمان‌های گسسته $k$ و در میکروفون $m$ام به صورت زیر نوشته می‌شوند:
\begin{figure} [t] 
\centerline{\includegraphics[width=11cm]{fig1-1.PNG}}
\captionsetup{font=footnotesize,textfont = bf}
\caption{{آرایه‌ خطی با فاصله‌ یکنواخت بین میکروفون‌ها و منبع سیگنال در فاصله‌ دور\cite{benesty2012study}}
\label{fig1-1}
\end{figure}
\begin{equation}
\[
\begin{gathered}
y_{m}(k)=x_{m}(k) + v_{m}(k)\hfill\\
=x(k-t-\tau_{m}) + v_{m}(k), \quad  m=1,2,...,M \hfill\\
\end{gathered}
\]
\label{equa1-1}
\end{equation} 
که  $t$ زمان انتشار از منبع $x(k)$ تا میکروفون اول (نقطه‌ مرجع) است، $\tau_m$ تأخیر نسبی بین میکروفون اول و $m$ام و $x_m(k)$ و $v_m(k)$ به ترتیب سیگنال مطلوب و نویز مشاهده شده در میکروفون $m$ام است. فرض می‌شود که نویز و سیگنال مطلوب ناهمبسته هستند. در این آرایه می‌توان $\tau_m$ را به صورت زیر بیان کرد:
\begin{equation}
\[
\tau_{m}=\frac{(m-1)\delta \cos\theta}{c}, \quad  m=1,2,...,M
\]
\label{equa2-1}
\end{equation} 
که  $\delta$ فاصله‌ بین دو میکروفون همسایه و  $c$ سرعت صوت در هوا و $\theta$ هم زاویه‌ برخورد سیگنال است. برای سادگی روابط را در حوزه‌ فرکانس نیز بازگو می‌کنیم. 
\begin{equation}
\[
\begin{gathered}
Y_{m}(\omega)=X_{m}(\omega) + V_{m}(\omega)\hfill\\
=x(\omega)e^{-j\omega (t-\tau_{m})} + v_{m}(\omega), \quad  m=1,2,...,M \hfill\\
\end{gathered}
\]
\label{equa3-1}
\end{equation} 
که $\omega=2\pi f$ فرکانس زاویه‌ای و $j=\sqrt{-1}$ است. اکنون باید $Y_{m}(\omega)$ را برای بدست آوردن سیگنال مطلوب $x(\omega)$ و کم کردن اثر $V_{m}(\omega)$ پردازش کنیم. یکی از ساده‌ترین و متداول‌ترین راه‌های ممکن استفاده از شکل‌دهنده پرتو تأخیر و جمع(\LTRfootnote{Delay and Sum Beamformer}\lr{DSB}) است. در این روش به منظور جبران تأخیرهای $\tau_{m}$ برای همزمان‌سازی، سیگنال‌های میکروفون‌ها در $e^{j\omega \tau_{m}}$ ضرب می‌شود و سپس روی همه‌ نتایج میانگین‌گیری می‌شود. خروجی شکل پرتو تأخیر و جمع به صورت زیر خواهد شد: 
\begin{equation}
\[
\begin{gathered}
Z(\omega)=\frac{1}{M} \sum_{m=1}^{M}Y_{m}(\omega)e^{j\omega \tau_{m}}\hfill\\
=X(\omega)e^{-j\omega t} +\frac{1}{M} \sum_{m=1}^{M}V_{m}(\omega)e^{j\omega \tau_{m}}, \quad  m=1,2,...,M \hfill\\
\end{gathered}
\]
\label{equa4-1}
\end{equation}
برای بررسی میزان کاهش نویز خروجی شکل‌دهنده‌ پرتو نسبت به ورودی می‌توان نسبت سیگنال به نویز ورودی و خروجی را محاسبه کرد. \lr{SNR} ورودی شکل‌دهنده‌ پرتو برای مدل \ref{equa3-1} نسبت به نقطه‌ مرجع به صورت زیر است: 
\begin{equation}
\[
\begin{gathered}
\rm{iSNR}(\omega)=\frac{\phi _{X_{1}}(\omega)}{\phi _{V_{1}}(\omega)}\hfill\\
=\frac{\phi _{X}(\omega)}{\phi _{V_{1}}(\omega)}, \hfill \\
\end{gathered}
\]
\label{equa5-1}
\end{equation}
که در آن $\phi _{X_{1}}(\omega)=E\left[ |X_{1}}(\omega)|^{2}\right]  $ ،  $\phi _{V_{1}}(\omega)=E\left[ |V_{1}}(\omega)|^{2}\right] $ و $\phi _{X}(\omega)=E\left[ |X(\omega)|^{2}\right]  $ است و  نماد امید ریاضی می‌باشد. \lr{SNR} خروجی شکل‌دهنده‌ پرتو نیز به صورت زیر تعریف می‌شود: 
\section{ساختار پایان‌نامه}
\section{جمع‌بندی فصل}