Библиотека диссертаций Украины Полная информационная поддержка
по диссертациям Украины
  Подробная информация Каталог диссертаций Авторам Отзывы
Служба поддержки




Я ищу:
Головна / Фізико-математичні науки / Теоретичні основи інформатики та кібернетики


Білецький Борис Олександрович. Ефективність байєсівських методів розпізнавання : Дис... канд. наук: 01.05.01 - 2008.



Анотація до роботи:

Білецький Б.О. Ефективність байєсівських методів розпізнавання. – Рукопис.

Дисертація на здобуття наукового ступеня кандидата фізико-математичних наук за спеціальністю 01.05.01 – теоретичні основи інформатики та кібернетики. – Інститут кібернетики ім. В.М. Глушкова НАН України, Київ, 2007.

У дисертаційній роботі побудовано верхні та нижні оцінки похибки байєсівської процедури розпізнавання для незалежних ознак. Оцінки отримано у вигляді поліному в залежності від входу задачі (розмірів класів навчаючої вибірки, кількості ознак та числа значень ознак). Верхня та нижня оцінки похибки є точними та відрізняються на абсолютну константу, звідки випливає, що байєсівська процедура розпізнавання є оптимальною на незалежних ознаках.

У роботі показано, що байєсівські процедури розпізнавання можна застосовувати на об’єктах, що описуються моделями ланцюгів Маркова. Для цього досліджується поведінка оцінок нестаціонарних перехідних ймовірностей. Показано, що оцінки перехідних ймовірностей, побудованих у вигляді частот, асимптотично нормальні, отримані дисперсії та коваріації цього граничного розподілу. Доведено, що оцінки похибки байєсівської процедури розпізнавання на ланцюгах Маркова в асимптотиці збігаються з оцінками похибки на незалежних ознаках.

У дисертаційній роботі байєсівська процедура розпізнавання застосовується для прогнозування вторинної структури білка. Задача ставиться таким чином: необхідно за отриманою на вході амінокислотною послідовністю та за послідовностями з відомими вторинними структурами визначити вторинну структуру вихідної послідовності. Для визначення вторинної структури білка послідовно визначається вторинна структура кожної амінокислоти, що входить до його складу, при цьому робиться припущення, що на вторинну структуру амінокислоти впливає оточення з сусідніх амінокислот .

Для розв’язання задачі використовується байєсівська процедура розпізнавання на ланцюгах Маркова. Амінокислотна послідовність білка описувалася нестаціонарним ланцюгом Маркова з 20 станами (кожен стан відповідає певному типу амінокислотних залишків). Перехідні ймовірності оцінюються за навчаючими вибірками, у якості яких використовувалася інформація з відкритих баз даних генетичної інформації NCBI.

Середня точність розпізнавання підрахована на множині з 23 тисяч білків перевищує 80 %. Як приклад продемонстровано результати розпізнавання вторинної структури деяких білків: серед них гемоглобін людини, лізоцим людини, білки ВІЛ p17 та p24.

У процесі дослідження відповідності амінокислотних послідовностей білків моделям ланцюгів Маркова проаналізовано понад 50 геномів бактерій та рослин. Показано, що в геномах цих організмів мають місце закономірності комплементарності по одному ланцюжку ДНК.

У дисертаційній роботі побудовано ефективні процедури розпізнавання для нестаціонарних ланцюгів Маркова. Отримано верхню та нижню оцінки похибки в залежності від розмірів навчаючої вибірки, кількості ознак та числа значень ознак.

Наведено методику аналізу нуклеотидніх послідовностей ДНК та амінокислотних послідовностей білків.

Основні наукові результати дисертаційної роботи такі:

  1. Отримано верхню та нижню оцінки похибки байєсівської процедури розпізнавання у дискретному випадку.

  2. Досліджено асимптотичну поведінку оцінок перехідних ймовірностей, отриманих у вигляді частот. Показано, що оцінки асимптотично нормальні, отримано дисперсії та коваріації цього граничного розподілу.

  3. Досліджено ефективність байєсівської поцедури розпізнавання на нестаціонарних ланцюгах Маркова.

  4. Проведено статистичний аналіз геномів понад 50 бактерій та рослин. Досліджено закономірності комплементарності по одному ланцюжку ДНК.

  5. Побудовано низку методів розпізнавання вторинної структури білка, в основі якого лежить байєсівська процедура розпізнавання для стаціонарних та нестаціонарних ланцюгів Маркова.