Разпознаване на реч, технологии и разпознаване на приложения SOC чип е обяснен в този раздел Стабилната стъпка на обработка, която включва специфичен матричен процесор за отстраняване на шума, базиран на базов ech сигнал и подпространство, допълнително обсъдени Тази AsiP матрица sol,t, единица за разлагане на QR, матрица Levinison- Решател на матрици Durbin Toeplitz, модул за бърз матричен транспозит Система, базирана на Discus в ALTERA FPGA, е извършена в последния раздел на тази глава, въведение в базирана на HMM система за разпознаване на речта, три категории, а именно изолирани, точност на Connectethenition за много голям речник Разпознаването на свързана реч (или по-правилно изречения) е подобно на изолираното Следователно разпознаването на думи е възможно тонизирано Непрекъснатото разпознаване на реч е метод за разпознаване на спонтанна реч
Системата е в състояние да разпознае речта на конкретен говорещ, докато независимите от говорещите системи могат да се използват за откриване на реч от всеки неопределен говорещ В момента базирани на независими говорещи квантизатори, които имат система за разпознаване с висока степен на разпознаване, данните за обучението трябва да понасят всички видове размер на речния фонд, по-висока разпозната система за разпознаване на изолирани цифри постигане на по-висока точност чрез съхраняване на по-фини модели на цифрите Освен това, ако се свие, има значително намаляване на изчислителната производителност на системата Данните за обучение трябва да бъдат генерирани Проблемът с изолираното разпознаване на думи може да бъде разделен на две части, а именно - Преден край Обикновено, frontInstem, ние също внедрихме разбиване на шума Първият етап във всяко разпознаване на реч Делиране на входния говорен сигнал въз основа на определени обективни параметри, наричани също FrontEnd параметри, Моделирането на входния говорен сигнал включва три основни операции спектрално моделиране, извличане на характеристики и параметрична трансформация( Фигура 1) Spectertingnt frequencylule може да се добави към модула за обработка на предния край, което ще се подобри
ker Independent Speech Processingand Recognitio3 Архитектура за разпознаване на речNIOS 2 е мек процесор, който може да бъде реализиран във всеки от комплектите за разработка на Alteras FPGA. Базиран е на 32-битова RISC архитектура и е естествен избор в проекти, където производителността на процесора е от съществено значение NIOs процесорът може да работи на различни честоти, въз основа на които изчислителната способност на процесора може да бъде избрана Процесорът Nios се предлага в три различни степени на скорост и може да бъде набор от инструкции и т.н. По този начин е възможно да бъде част от systerIX
Чрез симулиране на P (фърмуерни модули) като софтуерни обекти, системата може да бъде развита до напреднало състояние, преди да е необходимо да бъде тествана върху действителната цел. Друго предимство на този подход е, че внедряването в Altera FPGA с отделни 32-битови инструкции и шини за данни изпълнявайки данни от време на чип и извън него, процесорът Nios има 32 32-битови регистъра с общо предназначение и 16 32-битови контролни регистъра, аритметично логическо устройство (ALU), устройство за изключения, кеш за инструкции и кеш за данни, тази гъвкавост позволява на потребителя да балансира необходимата производителност на целевото приложение цена на софтуерните данни aAltera са свързани чрез системна шина с възможност за блокиране IyO) Всички системни устройства, на които са били поставени; елемент в най-ниското място в паметта на стека отива firstterrupts, ако Interrupt EnableE)bit в регистъра за състоянието на машината (MSR) е зададен на 1 При прекъсване инструкцията inlete, трябва ръчно да се активира прекъсването enablecontrol, ниосоцесорът трябва да се направи в C/C++NIOS инструментът има базиран на gnu вградени C/C++ компилатори и програма за отстраняване на грешки за генериране на), половин дума (16 бита) и прпроцесор (Agarwal 2001) NIOS процесорът поддържа необходимия машинен код за NIOS процедурата трябва да бъде включен граници на думи, половин дума върху половин дума фигурира Masters на шина, които да се добавят едновременно и предлага отлични възможности за арбитраж с един вид хардуерен интерфейс, наречен custominstruction, който действа като хардуерно картографирана инструкция към процесора Nos (A2006) Можем също да ускорим софтуерната функция в NIOS pystem, Неинструкции различни пъти да бъдат интегрирани в дизайна за ускоряване на стария софтуер В сравнение с пълния софтуер perforsystem
Ускоряването на разпознаването на реч, технологиите и приложенията подобрява 20-кратно подобрение на ефективността. Нашият дизайн използва тези персонализирани броячи, Ethernet контролер, Dcontroller флаш контролер, потребителски елементи, PLL, HLCDpute времето за изпълнение на софтуерна рутина или се използва за създаване на тритервали, за да сигнализира някои от хардуерни периферни устройства Хардуер Свързва се към системата по два различни начина Хардуерният компонент може да бъде конфигуриран Персонализиран компонент на инструкциипроцесор или въпреки инструкция, NIOSчетири различни вида персонализирани технологии, а именно комбинирани; Персонализирана инструкция, базирана на множество цикли, разширени и вътрешни регистърни файлове
Персонализираният модул за инструкции може също да бъде свързан към и да свърже някои от персонализираните сигнали за инструкции към външни също така да бъде свързан към системата thNIOS чрез Avalon Slave или Master Interface Устройствата Avalon Slave могат да имат точки и те от процесора чрез прекъсвания Тези прекъсвания могат да бъдат приоритизирани ръчно Не ■PData Bus Фигура 5 NIOS Architectureg архитектура с фиксирана запетая всички ефекти на дължината на думата Всички базирани на DSP дизайни силно зависят от плаващата към фиксирана запетая DSP алгоритъмът може да не е приложим във форма с плаваща запетая Анализ с фиксирана пинта
es за независима от говорителя обработка на речта Шумът на системата е изключително важен за разбиране на нелинейния характер на характеристиките на квантуване. Това води до определени ограничения и предположения за квантуване, например, че дължината на думата след квантуване (Meng 2004r сигнали, за които се приема, че са равномерно разпределени, с бяло и некорелирано добавено всеки път, когато възникне съкращаване. Този максимален модел е драстично повлиян от дължината на думата в еднаква структура на дължината на думата, намаляваща при приблизително, че не е необходимо да има много точни модели на мощността на грешката на квантуване, за да се предскаже необходимата ширина на сигнала, в дължина на множество думи реализация на системата, внедряването трябва да се коригира много по-добре и така полученото внедряване има тенденция да бъде по-чувствително към изходната мощност, произтичаща от безкрайна прецизност, дефинира съотношението тогава-шум, за да се предскаже ефектът на квантуване на конкретна анотация за дължина и мащабиране на думата, добавете думата- стойности на дължината и мащабиране от всяка атомарна операция до извеждане (Haykin 1992) Прецизният изход зависи не само от входовете, но и от игоритъма, който трябва да се приложи
Например внедряването с фиксирана точка на сложен FFTch етап на изчисление (BFT дължините се губят повече битове точност Етапът на извличане на характеристики е внедрен в процесор Nios с входове с фиксирана прецесия. Следните диаграми описват характеристиките на фиксираната точка на алгоритъма 6 MFCC с фиксирана точка изпълнение
Разпознаване на реч, технологии и приложенияNo ot sampesnditiaseghi 2004. Съотношението сигнал/шум може да варира леко, думата може да се разтегли твърде дълго или да преодолява шума HMM и да го извади от действителната реч HMM (Hermus 2007) Приемникът трябва да включва достатъчно програмируеми параметри да бъде преконфигуриран, за да вземе алгоритъм за възпроизвеждане, базиран на сингулярна стойност, декомпозиран, намалява характеристиките на речевия сигнал (Hemkumar 1991) 43 FCTSVD алгориум Около 2005 г. Оценяване на периодите в наблюдавания речев сигнал, Формиране на hanktrix Hy от I SIlence peИнициализиране на реда на запазените сингулярни стойности на HxLet S=S+l и реконструиране на прогнозна матрица на Hx, Hx- с помощта на firvalues6 Изчисляване на Frobenius Constrained norm metric и грешката е по-малка от 0
0098 else goto4 4 Scalech се увеличава, стойностите на променливата формалният алгоритъм се насища, докато алгоритъмът log-Viterbi, използван от неговия хардуер, не претърпява само добавяния, а не умножение45 Първоначални оценки на HMM patersere, използвани за A и pi матрици. Как матрицата не може да бъде инициализирана с произволни стойности като има влияние върху конвергенцията на
технологии за независима от говорителя обработка и разпознаване на реч Систалгоритъм Тъй като непрекъснатите скрити модели на Markovf BMean и Variance се получават с помощта на сегментен алгоритъм за K-средни стойности5 Модули на проекта1 Първият модул се занимава с извличане на s и функции (СОФТУЕР ЗА ПРЕДНА ОБРАБОТКА, ИЗПЪЛНЕН В ПРОЦЕСОР NIOOS 2) необходими са за удобство и приложението, където системата трябва да бъде разгърната (ОБУЧЕНИЕ-ОФЛАЙН, ИЗВЪРШЕНО В MATLAB-препратка3 Максимална вероятност, базирана на wordgnition (ПАРАЛЕЛЕН ХАРДУЕР) ФИГУРАЦИЯ
базиран на 2c контролер (mPu 2 AUDIO Codecster Module за извличане на данни за аудио кодек с интегриран контролер SRAMry за част за хардуерно разпознаване с ефективен модул за управление на модове, базиран на FSMs4 Контролерът за реч има следните модули, изградени на базата на модул за разпознаване на говор с памет контролери за модел parameterRAMSinput Frame буфери за съхранение на функции с контролер на паметта за съхранение на функции RAMbuffermodel изходно съхранениеЕфикасно устройство за управление на режима за превключване между variLED дисплейно устройство за окончателно показване на резултатите6 Персонализирано разлагане на единична стойност uniSoftwareHardware Modules InterfacedCustom Instructionsv Audio serial 2 ParallelFFt базиран featureModule(Avalon Master)Mel Filter banksg Изход Буфери за кадри Разпознаване на реч Modentroller tov Софтуерна замяна за SVD разпознаване на реч Таблица 2 Система за разпознаване на изолирана дума Хардуерен/софтуерен дял432MHZ125MHZ
5 Разпознаване на реч, технологии и приложения, неконфигурирани чрез 12C Заявките за четене се игнорират. Устройството се конфигурира чрез записване на данни във вътрешна рег. конфигурирано чрез прехвърляне на данни и адрес на вътрешните регистри серийно чрез 12C__data pin Clock сигнал се прилага към 12C__clk pin Clock signalely USB/нормален режим главен часовникUD_XCLK, от който се генерира AUD_BCLK), USB режимът трябва да hFIXED96kHz)12896MHz (44 1kHz 882kHz)
Този елемент използва генериране на часовник в нормален режим при 18432MHz Прехвърлянето се инициира чрез изтегляне на MPU__DATA ниско, докато MPU_CLK е високо. Данните от конфигурацията на конкретен вътрешен регистър имат 3-байта Байт 1: ( ADDR 60Jo1 3ADDR[ 60 е АДРЕС НА УСТРОЙСТВО, който ВИНАГИ е Ox34Последният бит е r/w бит, който винаги е O(запис, ), тъй като WM8731 е само за запис Байт 2: ( REG[6O,DATA8 >REG[6 0] е 7-битов адрес на регистъра, DATA[8 е MSB на MPU_ DATA е намалено от CODEC betweconfirmationСледните операции, необходими за извършване на dperate в планираното Oxo към AUDIO RESETустройство: Напишете '0 на WM8731 POWER DOWN CTL, 7 бита Включете главния режим: AUDIO INTERFACE FMI53 Как работи тази хардуерна системаCodec се конфигурира чрез CPU 2 12C интерфейс със следните спецификации WM8731 POWER Down CTL се използва за устройствотоY WM8731_ANALOG_ PATH- CTL регистър се настройва микрофонното съоръжениеv WM8731_SAMPLING_ CTL регистър е настроен на 16h100E за фиксиране на аудио кодека в НОРМАЛЕН РЕЖИМ с ADC честота на семплиране от 8 KHz Работна честота на кодека 2MHZ Стъпка 2: The сериен входният битов поток се преобразува в паралелни данни с помощта на персонализиран Avalon Masterinterface и се съхранява в SRAM модул. Съхраняването на аудио ще бъде прекъснато от контролиран от външен потребител превключвател, за да стартирате стъпката на обработка E КОНФИГУРИРАНО), за да стартирате обработката на функцията на стъпка 4: В софтуера речта започва и крайните точки са открити, ние извършваме прозорци, използваме кратък анализ на Фурие на речта на 30 ms с
ker Independent Speech Processing 5tep6: Оценявайте разстоянието между говорните сигнали и направете групиране с помощта на базирания на смеси блоков квантизатор, базиран на Mahalanobis distan
cestaringperformedStep7: Функциите се извличат и съхраняват в БУФЕРА НА ВХОДНАТА КАДРА на модула за разпознаване на реч. Стъпка 8: Стъпки от 1 до 6 ще продължат, докато краят на рамката бъде открит от попълнения хардуерен модул и всеки изходен етап се съхранява в OUTPUTдопълване на непрекъснат скрит модел на Марков и размер на речника Там винаги съществува компромис между работната честотаIse потискане и т.н. дума HMm базирана на два основни алгоритъма1 изход2Log VIterbiementation-Output Вероятностното изчисление е изчислително интензивният набор от умножения и Add operationecognition gorithm is56 Желание за хардуер. Нашата архитектура (Фигура 11) се концентрира върху трите основни проблема Мощност, Памет (Пропускателна способност) и размер на аларма Винаги има компромис между операциите честота и речник за разпознаване, точност на думата, потискане на шума и т.н. Архитектура, базирана на HMM, която използва непрекъснато hmm за тяхното внедряване (Cho 2002) Две основни стъпки в алгоритъма за разпознаване1 Изчислителен режим на изходна вероятност Аудиото се съхранява в SRAM от Aterrastorocessor за функции след 5 Процесорът започва да обработва пробите за извличане функции и пълен сигнал на говорния контролер
Обработка на реч49AttributeHeCombCombinationinationLinearMLPDCTetFig 1 Компоненти на система за разпознаване на реч Frequency Cepstral Co-efficient Основната идея зад анализа на линейното предсказуемо кодиране (LPC) е, че извадка от реч може да бъде апроксимирана като линейна комбинация от минали проби от реч чрез минимизиране на сумата на квадрата определят се разлики (в краен интервал) между уникален набор от коефициенти. Речта се моделира като изход от линейни, променящи се във времето систерцитирани или от квазипериодични импулси (по време на озвучено говорене), или от случаен шум (по време на) Методът за линейно предсказване осигурява стабилна , надежден и точен метод за оценка на параметрите, които характеризират линейната променяща се във времето система, представяща вокалния тракт. коефициенти, които трябва да бъдат решени, Nup е редът на предиктора, т.е
e коефициентите в модела и e(n) е моделът остатъкът съществува няколко метода за изчисляване на коефициентите Коефициентите на модела, който приближава сигнала в прозореца за анализ (рамката), могат да се използват като характеристики, но обикновено прилага се по-нататъшна обработка. По-висок ред. Използваните по-добре lp филтри ще бъдат прогнозирането на модела на сигнала. Моделът от по-нисък ред, от друга страна, улавя тенденцията на сигнала, в идеалния случай формантите. Това дава изгладен спектър. LI-коефициентите дават еднакво тегло на цялото спектър, което не е в съответствие с
498 Разпознаване на реч, технологии и приложения Човешка слухова система За озвучени региони на речта, моделът с всички полюси на LPC осигурява добро приближение до спектралната обвивка на гласовия тракт. По време на беззвучни и назални области на речта LPC моделът е по-малко ефективен от озвучената област
Изчислението, включено в обработката на LPC, е важно за способността да се осигури реч и във връзка с него Функциите, получени с помощта на кепстрален анализ, превъзхождат тези, които не го използват, а методите на филтърната банка надминават LMFC с Fitions и MFCC са повече, те са по-малко зависими от говорещия и повече независими от говорещия InFourier базирана на трансформация mFCC Feature extractioMethod for Front End Processing (Фигура 2)Frame blockingWindowingcomputationx(k)=∑x(n)ei,0≤k
ker Independent Speech Processinga FFT рутинна След преглеждане на говорния сигнал, Дискретна трансформация на Фурие (DFT) се използва за прехвърляне на тези проби от времеви домейн в такива от честотен домейн Директно изчисление на операциите, като се приема, че тригонометричната функция, докато FFT алгоритъмът се използва само често за обработка на реч за прехвърляне на речеви данни от времева област към X(k)=>x(n)e и изходи imry
Квадратният корен е монотонно нарастваща функция и може да бъде отбелязан, ако се интересува само от големината (пренебрегването на увеличения динамичен диапазонte((k)2+Im((A-)2путация все още изисква две реални умножения и добре познато приближение до дадена е функцията на абсолютната стойност A+jAm≈A-|+Ainless Често използваното приближение е само малко по-сложно за прилагане, но предлага много по-добра производителност (вижте tablAr+ jAAВзети са горните приближения wFFT изходи и техните спектрални величини Нелинейност на човешкия слух и банки от филтри Mel за включване на честота нелинейни триъгълни филтърни банки със 102 коефициента, равномерно разпределени в Min и кепстралните вектори, се извличат въз основа на следното уравнение 6 (вижте Фигура 3) (Mel( F)-Mel(FMel(f)=2595*log, (0*(10)
Разпознаване на реч, технологии и приложения))f(m-1)≤k≤f(m)H()-f(m)-f(m-1)f(m)≤k≤f(mf0k> f(mFig 3 Mel Filter Bank Симетричен и реален, inDfT се редуцира до дискретно ко. Тази трансформация декорелира характеристики, което води до използване на диагонални ковариационни матрици вместо fultrices, докато се моделират коефициентите на характеристиките чрез линейни комбинации от гаусови функции. Следователно сложността и изчислителната цена могат да бъдат намалени. Това е особено полезен за системи за разпознаване на реч Тъй като DCI събира по-голямата част от информацията в сигнала към коефициентите от по-нисък порядък, чрез отхвърляне на коефициентите от по-висок порядък се постига значително намаляване на разходите за изчисление
Обикновено броят на коефициентите k, замъгляването варира между 8 и 13. Тетралните коефициенти към цялостния прозорец, за да минимизираме тези чувствителност. Ние използвахме претегляне чрез лентов филтър на вектора за формиране на речевите рамки. Те могат да се използват с кепстрална производна, която дава приемливо разпознаване. точност Cepstral представителство на спектъра В практическо приложение△Cm()≈OCn(u*∑k=Cn(+k)}0≤m≤M, където H е нормализационен фактор
Типичен вектор на характеристиките: Фигура 4()△c2()△△cM(t-1)△Ac1(t)△Ac2(),△AcM(tВекторът на характеристиките се състои както от статичен път, така и от динамична част от речевия сигналN2+ M2Фигура 4 Представяне на делта и параметрите на делта-делта, изчисляват ефективно p(o x), вероятността f последователността на наблюдение, като се има предвид отговарящият модел (т.е. най-добре показва наблюдението)
Алгоритъмът на Витерби намира оптималните параметри на модела A=(A, B, n)top(oI X) Това определено е най-трудният проблем на HMM. Ние избираме A=(A, B, n) по такъв начин, че неговата вероятност , p(o A), се максимизира локално с помощта на итеративна процедура като Baum-Welchmethod (L Rabiner 1993) Базовият разпознавател на реч работи с безшумни HMM състояния, а матричният процес се използва като блок за предварително кондициониране за генериране на безшумни HMM модели от шума( Vaseghi), в който непрекъснатият hmm, моделиран за моделиране на hmm състоянията, Aodel се характеризира с броя на състоянията N, броя на отделните символи за наблюдение M, theA, първоначалната вероятностна матрица Ili, вероятността за изходно наблюдение за характеристика xl в състояние I, b(x)
Разпознаване на реч, технологии и приложенияlog b, (x,)()=0ax:2(8P,(+loga; )+logb, (x)x(0,(1)+log au)4)3) Terminationlog(P(O/a))=max(Sg(i)+logan)q'=arg max 2(8)(i)+logВероятността на векторите за наблюдение, p(oI A) трябва да бъде максимизирана за различен модпараметър стойности, които съответстват на HMM модели за различни думи. Процедурите за напред и назад, както е описано в (Karthikeyan -ASICON 2007) Тъй като алгоритъмът на Viterbi води до недостатъчен поток поради много ниска вероятност, стойностите се умножават рекурсивно върху рамката на речта, внедрява се вятърен алгоритъм, който е различен от дадените методи in(Karthikeyan-ASICONдопълване на Напред, Назад, както и на витербиохмиката на горния алгоритъм, Тъй като алгоритъмът Напред, който се заменя в модифицирания алгоритъм напред
използвахме модифициран алгоритъм напред, обратен алгоритъм, както и алгоритъм на viterbi3 The Baum Welch rehe third, and by fardjust the model(A, B,mize the probability of theanalytically solvethe вероятност на последователността на наблюдението Всъщност, дадена всяка крайна повече от съдържащи данни, няма оптимален начин, но изберете A=(A, B, n), така че P(o I X) да се максимизира локално с помощта на итеративна процедура като метода на Баум-Уелч. За да опишете процедурата
за независима обработка на реч и разпознаване (итеративно актуализиране и подобряване) на параметрите на HMM, първо дефинираме Et(i,j), вероятността да бъдете в състояние Si в момент t и състояние Si в момент t+1, като се има предвид модел и наблюдение, както и mlAP класификационни правила, ние трябва да създадем модел на възможност p(oj) за всеки от различните възможни класове PDIGaussian разпределение Можем да създадем Gaussian модел, като просто намерим извадката и примерната ковариматрица U(√2P(2o- pU-(o-yВероятност да бъдете в състояние Si в момент t и състояние S в tim предвид модела и последователността на наблюдение, le5 i, i)=P(q,= Si, qu+1=SO, N )
4 Cov. Ковариационната матрица, използвана в моделно базирано разпознаване на реч, проблем, който използва NU-вариантно gauHMM моделиране с m размерни характеристики, може да се разглежда по следните начини. Следните 39-мерни вектори на характеристики се разглеждат за проектиране на непрекъснато HMM базирано разпознаване на реч rc1()c2(t) cMt),△cl(t)△c2(1)…△△cM(t-1)△Ac1(t)△△c2(1)△△cM(t1)E(t),△E(t) Където △C(r),△△Cда бъдат представени като beloAC(=0C 2a+2kCna△△Cn(t)k*△Cmn(+k)0≤m≤MCCompletematrix (разстояние мярка mahalanobis distanceComplete ковариационна матрица, когато се разглежда води до много високи сложност на изпълнението и не може да бъде лесно постигната със съществуващия хардуер Обвързването на секараметъра (Pihl-1996) В този метод всички състояния и други статистически характеристики се считат за различни от обща ковариационна матрица за всички
Клъстери за разпознаване на реч, технологии и приложения, получени по време на блоково квантуване на GMM и като се има предвид средната стойност, нито един изход за наблюдение, различен за всеки хардуер на състоянието. Нашата ковариация е блоковият диагонал е валидна, тъй като използването на ортогонална трансформация като DCT декорелира кепстралните вектори Съществува корелация между времевата разлика кепстрални вектори, делта кепстрални вектори и делта-делта кепстрални вектори. Така че можем да конструираме ковариационната матрица като триелементна блокова диаграма, която обратната матрица може лесно да бъде намерена с помощта на Singt. Последният метод е да се приеме, че ковариационната матрица е диагонална, което дава най-простата хардуерна архитектура Стойностите на обратния диагонал се съхраняват в местоположения на паметта и се извършват само многократни операции и този метод е по-малко интензивен от гледна точка на гледна точка
Настоящите хардуерно базирани разпознаватели прилагат това влошават производителността на разпознаване на системата, тъй като не представят ефективно корелацията, въведена от векторния квантизатор По-ранни предложени реализации се основават само на този метод (Karthikeyan-ASICON 2007) Където E(r) представлява статистическата Оперативно очакване кепстралният векторE(△s123)E△1C1)E(△s1k1)EAMc2,△0напълно диагонализирана корелация във векторите на характеристиките чрез векторен квантозадинамичен набор от вектори на характеристики HРазгледайте вектора на характеристиките сред двата набора от динамични характеристики делта и делта делта вектори на характеристики статичния featuretrix може лесно да се получи чрез линейни решаващи устройства, Изчислението на Singitontrix Abe се ускорява от паралелния двустранен якобиетод с някои стъпки на предварителна обработка, които биха концентрирали почти алгоритъма на нормата на Фробениус. Въпреки това печалбата в скоростта, измерена чрез общото време за паралелно изпълнение, зависи решително от това колко ефективно е внедряването на разпределената QR и LQ факторизация дори паралелна структура