scispace - formally typeset
Search or ask a question
Journal ArticleDOI

Method of computer search of homologous sites with the possible insertions/deletions in the nucleotide sequences and evaluation of their statistical significance

20 Nov 1990-Biopolymers & Cell (National Academy of Sciences of Ukraine, Institute of Molecular Biology and Genetics of the NAS of Ukraine)-Vol. 6, Iss: 6, pp 59-63
About: This article is published in Biopolymers & Cell.The article was published on 1990-11-20 and is currently open access. It has received None citations till now.

Content maybe subject to copyright    Report

УДК 570.12
И. А. Шахмурадов, В. А. Гасумов
КОМПЬЮТЕРНЫЙ МЕТОД ПОИСКА В НУКЛЕОТИДНЫХ
ПОСЛЕДОВАТЕЛЬНОСТЯХ УЧАСТКОВ ГОМОЛОГИИ
С ВОЗМОЖНЫМИ ВСТАВКАМИ/ДЕЛЕЦИЯМИ
И ОЦЕНКА ИХ СТАТИСТИЧЕСКОЙ ЗНАЧИМОСТИ
Разработан компьютерный метод, позволяющий выявить все участки гомологии с за-
данными характеристиками (длина участка, число несовпадений, число и размер деле-
ций/вставок) в одной нуклеотидной последовательности или между двумя последова-
тельностями ДНК (РНК) и оценить статистическую значимость найденных гомологий.
Этот метод особо эффективен для поиска потенциальных шпилечных структур в нуклео-
тидных последовательностях, а также может применяться при выравнивании двух по-
следовательностей ДНК (РНК).
Введение. В последние годы в связи с нарастающим потоком инфор-
мации по первичной структуре и функционированию биополимеров
(ДНК, РНК, белки) встала проблема систематизации, анализа и обоб-
щения этих данных для выявления особенностей структурно-функцио-
нальной организации и эволюции генетического аппарата. В этой связи
особо важное значение имеет разработка эффективных компьютерных
методов анализа различных структурно-функциональных и эволюцион-
ных характеристик последовательностей ДНК (РНК) и белков [1—8].
Основная проблема, возникающая при поиске разнообразных структур-
ных особенностей реальных последовательностей (повторяющихся уча-
стков, функциональных сайтов и т. д.), состоит в оценке их статисти-
ческой значимости. Так, разработан ряд компьютерных методов поиска
участков гомологии повторов различных классов внутри или между
нуклеотидными последовательностями [3—6]. Наиболее универсальным
в этом плане является метод контекстного анализа, разработанный Со-
ловьевым и соавт. [6], позволяющий выявить различные типы повторя-
ющихся фрагментов внутри или между нуклеотидными последователь-
ностями и, что важно, оценить статистическую значимость найденных
гомологий. Единственным недостатком указанного метода является то,
что он не допускает наличия в сравниваемых фрагментах ДНК (РНК)
возможных вставок/делеций, а последнее довольно часто встречается
при сравнении различных последовательностей.
Нами разработан компьютерный метод, учитывающий это обстоя-
тельство при поиске гомологичных участков внутри или между нуклео-
тидными последовательностями, т. е. определяющий уровень статисти-
ческой значимости выявляемых гомологий. Ниже описывается этот
метод.
Метод. Статистический критерий. Будем рассматривать повторяющиеся
участки (/, nil, ПЇ2, k\, k
2
, k
3
) нескольких типов (рис. 1). Здесь / число совпадающих
(комплементарных) нуклеотидов, nil и пг
2
число первых и последних обязатель-
ных совпадений, /ei число симметрических несовпадений, Iz
2
общее число
нуклеотидов во вставках / делениях по двум сравниваемым фрагментам, />
3
об-
щее число вставок/делеций по двум сравниваемым фрагментам. Очевидно, что число
(k) всевозможных мест вставок/делеций в двух сравниваемых сегментах равно /
гп\п\2 —I—
1
1' и Естественно предположить, что пг
и
ηι
2
~>0;
ь
2
, —0,1,... ;
kz
<С
k. Пусть исследуется нуклеотидная последовательность длины N
y
образован-
ная нуклеотидами 4 типов (A, G, T/U, С) с соответствующими частотами их встречае-
мости ρ ι, ρ 2, рз, р4 и со случайным их расположением.
Вероятность совпадения двух неперекрывающихся. е. статистически независи-
мых в случайной последовательности) участков длины /+&і в / позициях равна:
р{1, k) =C^
ki
P
1
(1 (1)
> И. А. ШАХМУРАДОВ, В. А. ГАСУМОВ, 1990
ISSN 0233-7657. БИОПОЛИМЕРЫ И КЛЕТКА. 1990. Т. G. 6
59

где ρ для различных типов повторов вычисляется следующим образом:
(2)
(3)
для инвертированных повторов и комплементарных палиндромов в одной последова-
тельности;
Вычислим число способов размещения вставок/инсерций, содержащих всего Ze
2
нуклеотидов, в пределах двух сравниваемых сегментов. Пусть в первом сегменте раз-
мещаем Ji вставок (деледий во втором), содержащих всего i\ нуклеотидов, а во втором
сегменте /2 =
^3—zyvutsronmlkihedcaWVUTSRQPNMJIGFEDCBAJi
вставок (делений в первом) из i
2
=k2—h нуклеотидов, причем
для г
ь
/2» /і и /
2
выполняются следующие условия:
60
ISSN 0233-7657. БИОПОЛИМЕРЫ И КЛЕТКА. 1990. Т. G. 6
для прямых повторов в одной последовательности;
для комплементарных палиндромов с учетом пар G—T(U).
(4)
Если сравниваются две последовательности длины N
i
и N
2
с частотами нуклеоти-
дов Pn
1
р\2> Різ, Pl4 И /721, р22, р23, р24xtplaQJC СООТВЄТСТВЄННО, ТО формулы (2) И (3) ВЫГЛЯ-
ДЯТ так:
Различные типы повторов. Вставка (I), деления (D) и несовпадение (*) отмечены:
/=15,ytsrponmlkjihfedcaZTIDA £, = 1, />2=3, Aj
3
=I
Different types of repeats. The insertion (I), deletionkD (D) and distinction (*) are marked:
^= 15,
Ze
1
= I
j
k
2
= 3, &з =
1
(2')
(3)
нуклеотидов можно разместить по
способом соответственно. Креме того,
вставкам
вставок

ISSN 0233-7657. БИОПОЛИМЕРЫ И КЛЕТКА. 1990. Т. 6. G
61
Если число (/) выявленных повторов (/, ш,,xtplaQJC /7?2,zyvutsronmlkihedcaWVUTSRQPNMJIGFEDCBA k
2
, ко) в реальной последователь-
ности равно или превышает верхнюю границу доверительного интервала (Z
0
), рассчитан-
ную для случайной последовательности тон же длины и с темп же частотами нуклеоти-
дов, мы называем их неслучайными с уровнем значимости Q.
Верхней границей доверительного интервала с уровнем значимости Q (обычно
0,95^Q<1) для превышения среднего числа найденных повторов над ожидаемым
по случайным причинам будет такое, что
где φ и р(1,ι) определяются по формулам (1) и (12) соответственно. Пусть среднее
число повторов (/, mi, т
2
, k
u
k
2
,
3
) в случайной последовательности близко к 1 (это
означает отсутствие значительного числа таких участков в случайных последователь-
ностях). Тогда можно применить биноминальное распределение для оценки вероятности
(P(t)) наличия в этой последовательности t искомых повторов:
где Φι и Cp
2
вычисляются с помощью формул) (11), (11).
Таким образом, общее число) возможных пар повторяющихся участков (/, т
и
k\, k
2
, k
3
) по одной или двум нуклеотидным последовательностям с учетом всех
различных размещений допускаемых вставок / делений равно:
в случайной
Поэтому среднее ожидаемое число повторов
последовательности (Z
cn
) равно
можно разместить по k допустимым местам C
k
1
и C
J
k
2
_j способом соответственно. Если
же все k
2
нуклеотидов разместить по к
3
вставкам только в одном из двух сравниваемых
сегментов, то число всевозможных расположений вставок будет С\
я
. Таким образом,
общее число (Cp
1
) размещений k
3
вставок, содержащих всего к
2
нуклеотидов, по двум
сегментам равно:
где J
1
, ί
2
,, /
2
выполняют условия (5) и
Наконец, определим число
2
) всевозможных размещений двух сравниваемых сег-
ментов по одной или двум исследуемым последовательностям. В случае поиска прямых
и инвертированных повторов в пределах одной последовательности
Для тандемных прямых повторов и комплементарных палиндромов
В случае комплементарных палиндромов, образующих предполагаемую шпилечную
структуру, минимальное расстояние между двумя инвертированными повторами, вхо-
дящими в комплементарный палиндром, должно быть, по физико-химическим соображе-
ниям, не менее трех нуклеотидов. Поэтому, если d\ и d
2
являются заданным минималь-
ным и максимальным расстоянием соответственно между двумя инвертированными пов-
торами палиндрома, то в этом случае
В случае сравнения двух разных последовательностей максимальное число (CpJ
lax
)
всевозможных размещений двух сегментов по этим последовательностям равно
где
(6)
(7)
(8)
(9)
(10)
)
(11')
(12)
(13)
(14)
(15)

Алгоритм поиска повторов. Для сравнения двух участков анализируе-
мой последовательности разработан подход, суть которого заключается в использова-
нии матрицы точечной гомологии с применением модифицированного нами метода опти-
мального выравнивания Нидлмака и Вунша [2]. При этом из всех допустимых вариан-
тов (с точки зрения параметров анализа) выбирается самый оптимальный (по крите-
рию Нидлмана и Вунша). При таком подходе очень часто встречается ситуация, когда
реально найденное число симметрических несовпадений, общее число нуклеотидов во
вставках и общее число вставок в пределах сравниваемых фрагментов оказываются
меньше изначально заданных чиселzyvutsronmlkihedcaWVUTSRQPNMJIGFEDCBA k
u
k
2
и
3
. Поэтому указанные параметры анализа
фактически являются максимально допустимыми числами несовпадений при фиксирован-
ных параметрах /, т\ и т
2
а также d
{
и d
2
в случае поиска шпилечных структур. По этой
причине после полного просмотра анализируемой последовательности осуществляется
группировка выявленных повторяющихся участков по параметрам I
u
т
и
т
2
, k
u
Iz
2
и
3
и оценка их статистической значимости по вышеизложенному критерию.
Описанный метод реализован в диалоговом и файловом (с заданием параметров
анализа заранее с помощью некоторого файла) режимах па персональном компьютере
типа IBM и является достаточно эффективным при исследовании длинных нуклеотидных
последовательностей (нескольких тысяч нуклеотидов).
Обсуждение метода. Описанный метод позволяет выявить все
участки гомологии с заданными характеристиками (число совпадающих
нуклеотидов, число несовпадений, число и размер делеций/вставок) в
одной нуклеотидной последовательности или между двумя последова-
тельностями ДНК (РНК) и оценить статистическую значимость най-
денных гомологий. Этот метод особо эффективен при поиске элементов
. е. потенциальных участков образования шпилек) вторичных струк-
тур нуклеотидных последовательностей, а также для выравнивания
двух последовательностей ДНК (РНК), так как в этих случаях нали-
чие вставок/делеций в сравниваемых последовательностях практически
неизбежно.
METHOD OF COMPUTER SEARCH OF HOMOLOGOUS SITES WITH THE
POSSIBLE INSERTIONS / DELETIONS IN THE NUCLEOTIDE SEQUENCES
AND EVALUATION OF THEIR STATISTICAL SIGNIFICANCE
I. A. Shakhmuradov, V. A. Gasumov
Institute of Botany, Academy of Sciences
of the Azerbaijan SSR, Baku, 370073
S u m m a r у
A computer method which allows revealing all the homologous sites with the given cha-
racteristics (the site's length, number of distinctions, number and size of deletions / inser-
tions) in one nucleotide sequence or between two DNA (RNA) sequences and evaluating
the statistical significance of the found homologies was developed. This method is espe-
cially effective for the search of potential stem-loop structures in the nucleotide sequences
and can be used to align the two DNA (RNA) sequences.
СПИСОК ЛИТЕРАТУРЫ
1. Fitch W. M. An improved method of testing for evolutionary homology//J. Мої.
Biol. 1966. 16, N 1. P. 9—16.
2. Needleman S. B., Wunsch C. D. A general method applicable to the search for simila-
rities in the amino acid sequences of two proteins//Ibid. 1970. 48, N 3. P. 443
453.
3. Wachter R. The number of repeats expected in random nucleic acid sequences and found
in genes //J. Theor. Biol. 1981. 91, N ,1. P. 71—9«.
4.Brezinski D. P. Statistical significance of DNA sequence symmetries // Nature.
1975.—253.—P. 128—130.
5. Day G. R., Blake R .D. Statistical significance of symmetrical and repetitive segments
in DNA//Nucl. Acids Res. 1982. 10, N 24.—P. 8323—8339.
6. Колчанов Η. Α., Соловьев В. В., Жарких А. А. Высокая насыщенность прямыми пов-
торами в генах РНК-полимераз по данным контекстного анализа //Докл. АН СССР.
1983,—273, JMb 3.—С. 741—744.
62
ISSN 0233-7657. БИОПОЛИМЕРЫ И КЛЕТКА. 1990. Т. G. № 6 62

7.zyvutsronmlkihedcaWVUTSRQPNMJIGFEDCBA Use of «Perscptron» algorithm to distinguish translational initiation sites in E. coli /
G. D. Stormo, T. D. Scheider, L. Gold, A. Ehrenfucht//Nucl. Acids Res.—1985. 13,
N 8.—P. 2997—3011.
8. Энхансероподобные структуры в умеренно повторяющихся последовательностях эука-
риотических геномов / И. А. Шахмурадов, Н. А. Колчанов, В. В. Соловьев, В. А. Рат-
нер // Генетика, 1986.—22, 3. С. 357—367.
Ин-т ботаники им. В. Л. Комарова АН АзССР, Баку Получено 10.05.90
УДК 576.315.42
В. В. Шматченко, А. Б. Бережнев
КАРТИРОВАНИЕ МЕСТ ПРИКРЕПЛЕНИЯ ДНК
К ЯДЕРНОМУ СКЕЛЕТУ
МЕТОДОМ ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ
ПРОТЯЖЕННЫХ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
Методом графического представления нуклеотидных последовательностей в виде кривых
линий, отражающих распределение AT- и GC-оснований по длине последовательности,
выявлены характерные (S-образные) профили кривых, соответствующие местам крепле-
ния ДНК к ядерному скелету эукариот. Впервые показана применимость использован-
ного метода для картирования участков связывания ДНК со скелетными структурами
ядра. Тем самым продемонстрирована возможность обнаружения функционально одно-
типных не го мо логичных участков ДНК, что не представляется возможным с помощью
других известных компьютерных методов анализа протяженных нуклеотидных последо-
вательностей.
Введение. К настоящему времени установлена первичная структура
большого числа генов и прилегающих к ним некодирующих областей
ДНК. Поток такой информации нарастает и требует осмысления. Ана-
лиз же структурно-функциональной организации генома сегодня не-
сколько отстает от процесса накопления данных о первичных последо-
вательностях. Поэтому определенную ценность представляет всякий
свежий подход, проливающий свет на выяснение функциональной зна-
чимости тех или иных участков последовательностей.
Широкие возможности в этом плане открывают разнообразные
компьютерные методы анализа последовательностей, позволяющие об-
рабатывать значительные массивы информации и представлять резуль-
таты в удобной для осмысления форме, например в виде графиков.
Одним из перспективных подходов такого рода является метод графи-
ческого представления нуклеотидных последовательностей, предложен-
ный Хамори [1], где для визуального анализа предлагается более
детальная картина, чем та, которая получается при глобальном анализе
содержания GC-оснований. В последнем случае фиксируется лишь
суммарный уровень GC- и АТ-оснований, имеющий биологический
смысл (см., например, [2]). Кроме того, данный метод в нашем иссле-
довании позволяет судить о функциональном подобии негомологичных
последовательностей ДНК путем установления схожести профилей по-
лучаемых с его помощью кривых линий, являясь своего рода графичес-
ким аналогом метода выравнивания. Qt выравнивания метод построе-
ния профилей нуклеотидных последовательностей отличает возмож-
ность эффективного сопоставления протяженных участков последова-
тельностей, не обладающих к тому же близостью первичных структур, что
бывает актуально в ряде случаев. В частности, при анализе хромо-
сомной ДНК на предмет наличия мест прикрепления к ядерному ске-
лету нами был использован данный метод как наиболее адекватный
решаемой проблеме.
© В. В. ШМАТЧЕНКО, А. Б. БЕРЕЖНЕВ, 1990
ISSN 0233-7657. БИОПОЛИМЕРЫ И КЛЕТКА. 1990. Т. G. № 6
63
References
More filters
Journal ArticleDOI
TL;DR: A computer adaptable method for finding similarities in the amino acid sequences of two proteins has been developed and it is possible to determine whether significant homology exists between the proteins to trace their possible evolutionary development.

11,844 citations

Journal ArticleDOI
TL;DR: A "Perceptron" algorithm is used to find a weighting function which distinguishes E. coli translational initiation sites from all other sites in a library of over 78,000 nucleotides of mRNA sequence.
Abstract: We have used a "Perceptron" algorithm to find a weighting function which distinguishes E. coli translational initiation sites from all other sites in a library of over 78,000 nucleotides of mRNA sequence. The "Perceptron" examined sequences as linear representations. The "Perceptron" is more successful at finding gene beginnings than our previous searches using "rules" (see previous paper). We note that the weighting function can find translational initiation sites within sequences that were not included in the training set.

668 citations

Journal ArticleDOI
TL;DR: A more sensitive method of searching for a homologous relation between two proteins is presented and results for α - and β -hemoglobin, for which the homology is already known, are presented and shown to be consistent.

303 citations

Journal ArticleDOI
TL;DR: Equations are derived that allow the computation of the number of repeats of different lengths and frequencies expected in any random sequence of known chain length and base composition.

27 citations

Journal ArticleDOI
TL;DR: Methods of computer analysis for the recurrence of symmetrical and repetitive elements in large numbers of DNA sequences are described, together with derivations of appropriate quantitative criteria for the evaluation of the statistical significance of these elements in DNAs of different base composition.
Abstract: Methods of computer analysis for the recurrence of symmetrical and repetitive elements in large numbers of DNA sequences are described, together with derivations of appropriate quantitative criteria for the evaluation of the statistical significance of these elements in DNAs of different base composition. Examples of some extraordinary variations in the occurrence of symmetrical and repetitive elements are provided, many of which are new. Special consideration is devoted to a determination of the statistical significance of a two-fold palindrome at the origin of replication. A computer search of 14 independently determined DNA sequences containing an origin of replication locus indicates each contains a large two-fold palindrome. The average length of this palindrome is 28 +/- 6 base pairs, of which 22 contribute to the palindromic symmetry. The probability of occurrence of such a palindrome is only 1/26000, while the probability of occurrence in all 14 different species is (1/26000).

20 citations