Упрощенная система молекулярного ввода-вывода - Simplified molecular-input line-entry system

Улыбки
Расширение имени файла
.smi
Тип интернет-СМИ
химические / x-дневные улыбки
Тип форматаформат химического файла
Алгоритм генерации SMILES для Ципрофлоксацин: прерывание циклов, затем запись в виде ответвлений от основной магистрали

В упрощенная система молекулярного ввода и линейного ввода (Улыбки) является спецификацией в виде строчная запись для описания структуры химические вещества используя короткие ASCII струны. Строки SMILES могут быть импортированы большинством редакторы молекул для преобразования обратно в двумерный рисунки или трехмерный модели молекул.

Первоначальная спецификация SMILES была начата в 1980-х годах. С тех пор он был изменен и расширен. В 2007 г. открытый стандарт под названием OpenSMILES был разработан в химическом сообществе с открытым исходным кодом. Другие линейные обозначения включают Обозначение линии Висвессера (WLN), РОСДАЛ, и Обозначение линии SYBYL (SLN).

История

Первоначальная спецификация SMILES была инициирована Дэвидом Вейнингером из лаборатории отдела экологии Среднего континента USEPA в г. Дулут в 1980-е гг.[1][2][3][4] Признанными за их участие в ранней разработке были «Гилман Вейт и Роуз Руссо (USEPA), а также Альберт Лео и Корвин Ханш (Колледж Помона) за поддержку работы, а также Артура Вейнингера (Помона; Daylight CIS) и Джереми Скофилда (Cedar River Software, Рентон, Вашингтон) за помощь в программировании системы ».[5] В Агентство по охране окружающей среды профинансировал первоначальный проект по разработке SMILES.[6][7]

С тех пор он был изменен и расширен другими, в первую очередь Системы дневной химической информации. В 2007 г. открытый стандарт под названием "OpenSMILES" был разработан Голубой обелиск Сообщество химиков с открытым исходным кодом. Другие «линейные» обозначения включают Обозначение линии Висвессера (WLN), РОСДАЛ и SLN (Tripos Inc).

В июле 2006 г. ИЮПАК представил ИнЧИ как стандарт для представления формул. Преимущество SMILES в том, что он немного более читабелен, чем InChI; он также имеет широкую базу поддержки программного обеспечения с обширной теоретической поддержкой (например, теория графов ).

Терминология

Термин SMILES относится к строковой нотации для кодирования молекулярных структур, и конкретные экземпляры должны строго называться строками SMILES. Однако термин SMILES также обычно используется для обозначения как одной строки SMILES, так и нескольких строк SMILES; точное значение обычно очевидно из контекста. Термины «канонический» и «изомерный» могут привести к некоторой путанице при применении к SMILES. Эти термины описывают различные атрибуты строк SMILES и не исключают друг друга.

Как правило, для молекулы может быть записано несколько равноправных строк SMILES. Например, CCO, OCC и С (О) С все определяют структуру этиловый спирт. Были разработаны алгоритмы для генерации одинаковой строки SMILES для данной молекулы; из множества возможных строк эти алгоритмы выбирают только одну из них. УЛЫБКИ уникальны для каждой структуры, хотя и зависят от канонизация алгоритм, используемый для его генерации, называется каноническими УЛЫБКАМИ. Эти алгоритмы сначала преобразуют УЛЫБКИ во внутреннее представление молекулярной структуры; Затем алгоритм исследует эту структуру и создает уникальную строку SMILES. Были разработаны различные алгоритмы генерации канонических УЛЫБК, в том числе алгоритмы Системы дневной химической информации, Программное обеспечение OpenEye Scientific, МЕДИТ, Группа химических вычислений, ООО «МолСофт», а Комплект для разработки химии. Обычное применение канонических SMILES - индексация и обеспечение уникальности молекул в база данных.

Оригинальный документ, описывающий КАНГЕН[2] утверждал, что алгоритм генерирует уникальные строки SMILES для графов, представляющих молекулы, но алгоритм не работает в ряде простых случаев (например, клиновидный, 1,2-дициклопропилэтан) и не может считаться правильным методом канонического представления графа.[8] В настоящее время не существует систематического сравнения коммерческого программного обеспечения для проверки наличия таких недостатков в этих пакетах.

Обозначение SMILES позволяет указать конфигурация в тетраэдрических центрах, и геометрия двойной связи. Это структурные особенности, которые не могут быть определены одной связностью, и поэтому УЛЫБКИ, кодирующие эту информацию, называются изомерными УЛЫБКАМИ. Примечательной особенностью этих правил является то, что они допускают строгое частичное определение хиральности. Термин изомерные УЛЫБКИ также применяется к УЛЫБКАМ, в которых изомеры указаны.

Графическое определение

С точки зрения вычислительной процедуры, основанной на графах, SMILES - это строка, полученная путем печати узлов символов, встречающихся в в глубину обход дерева из химический график. Химический график сначала обрезается, чтобы удалить атомы водорода, а циклы разбиваются, чтобы превратить его в остовное дерево. Если циклы были прерваны, добавляются цифровые суффиксные метки для обозначения подключенных узлов. Круглые скобки используются для обозначения точек ветвления на дереве.

Полученная форма SMILES зависит от выбора:

  • облигаций, выбранных для разрыва цикла,
  • начального атома, используемого для обхода в глубину, и
  • порядка, в котором перечислены ветви при обнаружении.

Определение SMILES как строки контекстно-свободного языка

С точки зрения теории формального языка SMILES - это слово. SMILES можно анализировать с помощью контекстно-независимого парсера. Использование этого представления было в предсказании биохимических свойств (включая токсичность и биоразлагаемость) на основе главного принципа химиоинформатики, заключающегося в том, что подобные молекулы обладают схожими свойствами. В прогнозных моделях реализован подход к распознаванию синтаксических образов (который включал определение молекулярного расстояния) [9] а также более надежная схема, основанная на статистическом распознавании образов. [10].

Описание

Атомы

Атомы представлены стандартной аббревиатурой химические элементы в квадратных скобках, например [Au] за золото. Скобки могут быть опущены в общем случае атомов, которые:

  1. входят в "органическую подгруппу" B, C, N, О, п, S, F, Cl, Br, или же я, и
  2. не иметь официальное обвинение, и
  3. имеют количество присоединенных водородов, подразумеваемое моделью валентности SMILES (обычно их нормальная валентность, но для N и P это 3 или 5, а для S это 2, 4 или 6), и
  4. нормальные изотопы, и
  5. не являются хиральными центрами.

Все остальные элементы должны быть заключены в скобки, а заряды и атомы водорода должны быть указаны явно. Например, УЛЫБКИ для воды может быть записано как О или же [OH2]. Водород также можно записать как отдельный атом; вода также может быть записана как [H] O [H].

Когда используются скобки, символ ЧАС добавляется, если атом в скобках связан с одним или несколькими атомами водорода, за которым следует количество атомов водорода, если больше 1, затем знак + за положительный заряд или - за отрицательный заряд. Например, [NH4 +] за аммоний (NH+
4
). Если имеется более одного заряда, это обычно записывается цифрой; однако также можно повторять знак столько раз, сколько иона имеет заряды: можно написать либо [Ti + 4] или же [Ti ++++] за титан (IV) Ti4+. Таким образом гидроксид анион (ОЙ ) представлен [ОЙ-], то гидроксоний катион (ЧАС
3
О+
) является [OH3 +] и кобальт (III) катион (Со3+) либо [Co + 3] или же [Co +++].

Облигации

Облигация представлена ​​одним из символов . - = # $ : / .

Связи между алифатический атомы считаются одиночными, если не указано иное, и подразумеваются смежностью в строке SMILES. Хотя одинарные облигации можно записать как -, обычно опускается. Например, УЛЫБКИ для этиловый спирт можно записать как C-C-O, CC-O или же C-CO, но обычно пишется CCO.

Двойной, тройной и четырехместный облигации представлены символами =, #, и $ соответственно, как показано на УЛЫБКАХ О = С = О (углекислый газ CO
2
), C # N (цианистый водород HCN) и [Ga +] $ [As-] (арсенид галлия ).

Дополнительным типом облигации является «не-облигация», обозначенная значком ., чтобы указать, что две части не склеены. Например, водный хлорид натрия можно записать как [Na +]. [Cl-] чтобы показать диссоциацию.

Ароматическая «полуторная» связь может быть обозначена :; видеть § Ароматичность ниже.

Одинарные связи, смежные с двойными связями, могут быть представлены с использованием / или же для обозначения стереохимической конфигурации; видеть § Стереохимия ниже.

Кольца

Кольцевые структуры записываются путем разрыва каждого кольца в произвольной точке (хотя некоторые варианты приведут к более разборчивым УЛЫБКАМ, чем другие), чтобы сделать ациклический структура и добавление числовых меток замыкания кольца, чтобы показать связь между несмежными атомами.

Например, циклогексан и диоксан можно записать как C1CCCCC1 и O1CCOCC1 соответственно. Для второго звонка метка будет 2. Например, декалин (декагидронафталин) может быть записан как C1CCCC2C1CCCC2.

SMILES не требует, чтобы номера звонков использовались в каком-либо определенном порядке, и разрешает номер звонка ноль, хотя это редко используется. Кроме того, разрешено повторно использовать номера звонков после закрытия первого звонка, хотя обычно это затрудняет чтение формул. Например, бициклогексил обычно пишется как C1CCCCC1C2CCCCC2, но его также можно записать как C0CCCCC0C0CCCCC0.

Несколько цифр после одного атома указывают на множественные связи, замыкающие кольцо. Например, альтернативное обозначение SMILES для декалина: C1CCCC2CCCCC12, где последний углерод участвует в обеих замыкающих кольцевых связях 1 и 2. Если требуются двузначные номера кольца, метке предшествует %, так С% 12 представляет собой одинарную замыкающую связь кольца 12.

Одной или обеим цифрам может предшествовать тип связи, чтобы указать тип связи, замыкающей кольцо. Например, циклопропен обычно пишется C1 = CC1, но если двойная связь выбрана как связь, замыкающая кольцо, ее можно записать как C = 1CC1, C1CC = 1, или же C = 1CC = 1. (Предпочтительна первая форма.) С = 1CC-1 является недопустимым, поскольку явно указывает конфликтующие типы для связи, закрывающей кольцо.

Связи, замыкающие кольцо, не могут использоваться для обозначения множественных связей. Например, C1C1 не является действительной альтернативой C = C за этилен. Однако их можно использовать с не связями; C1.C2.C12 это своеобразный, но законный альтернативный способ написать пропан, чаще пишется CCC.

Выбор точки разрыва кольца рядом с присоединенными группами может привести к более простой форме УЛЫБКИ, избегая ветвей. Например, циклогексан-1,2-диол проще всего записать как OC1CCCCC1O; выбор другого места разрыва кольца приводит к разветвленной структуре, для записи которой требуются круглые скобки.

Ароматичность

Ароматный кольца, такие как бензол можно записать в одной из трех форм:

  1. В Форма Кекуле с чередующимися одинарными и двойными связями, например C1 = CC = CC = C1,
  2. Использование символа ароматической облигации :, например С1: С: С: С: С: С1, или же
  3. Чаще всего, записывая составляющие атомы B, C, N, O, P и S в нижнем регистре б, c, п, о, п и s, соответственно.

В последнем случае предполагается, что связи между двумя ароматическими атомами (если не показаны явно) являются ароматическими связями. Таким образом, бензол, пиридин и фуран могут быть представлены соответственно УЛЫБКАМИ c1ccccc1, n1ccccc1 и o1cccc1.

Ароматический азот, связанный с водородом, как обнаружено в пиррол должен быть представлен как [нГ]; таким образом имидазол записывается в нотации SMILES как n1c [nH] cc1.

Когда ароматические атомы одинарно связаны друг с другом, например, в бифенил, одинарная облигация должна отображаться явно: c1ccccc1-c2ccccc2. Это один из немногих случаев, когда символ одинарной облигации - необходимо. (Фактически, большинство программ SMILES может правильно сделать вывод, что связь между двумя кольцами не может быть ароматической, и поэтому примет нестандартную форму. c1ccccc1c2ccccc2.)

Алгоритмы Daylight и OpenEye для генерации канонических улыбок различаются обработкой ароматичности.

Визуализация 3-цианоанизола как COc (c1) cccc1C # N.

Разветвление

Ветви описываются в скобках, как в CCC (= O) O за пропионовая кислота и FC (F) F за фтороформ. Первый атом в круглых скобках и первый атом после заключенной в скобки группы связаны с одним и тем же атомом точки ветвления. Символ облигации должен находиться внутри скобок; снаружи (например: CCC = (O) O) является недействительным.

Замещенные кольца могут быть записаны с точкой разветвления в кольце, как показано УЛЫБКАМИ COc (c1) cccc1C # N (см. изображение ) и COc (cc1) ccc1C # N (см. изображение ), которые кодируют изомеры 3 и 4-цианоанизола. Написание SMILES вместо заменяемых колец может сделать их более удобочитаемыми.

Ветви можно писать в любом порядке. Например, бромхлордифторметан можно записать как FC (Br) (Cl) F, BrC (F) (F) Cl, C (F) (Cl) (F) Br, или т.п. Как правило, форму SMILES легче всего читать, если первой идет более простая ветвь, а последняя часть без скобок является наиболее сложной. Единственные предостережения в отношении таких перестановок:

  • Если номера звонков используются повторно, они объединяются в пары в соответствии с их порядком появления в строке SMILES. Для сохранения правильного сопряжения могут потребоваться некоторые настройки.
  • Если стереохимия указана, необходимо внести корректировки; видеть Стереохимия § Примечания ниже.

Единственная форма ветки, которая нет требуемые скобки - это связи, замыкающие кольцо. Правильный выбор связей, замыкающих кольцо, может уменьшить количество требуемых скобок. Например, толуол обычно записывается как Cc1ccccc1 или же c1ccccc1C, избегая круглых скобок, если они написаны как c1ccc (К) ccc1 или же c1ccc (ccc1) С.

Стереохимия

транс-1,2-дифторэтилен

SMILES разрешает, но не требует, спецификацию стереоизомеры.

Конфигурация вокруг двойных связей указывается с помощью символов / и чтобы показать направленные одинарные связи, смежные с двойной связью. Например, F / C = C / F (см. изображение ) является одним из представлений транс -1,2-дифторэтилен, в котором атомы фтора находятся по разные стороны от двойной связи (как показано на рисунке), тогда как F / C = CF (см. изображение ) является одним из возможных представлений СНГ -1,2-дифторэтилен, в котором фтор находится на одной стороне двойной связи.

Символы направления облигации всегда входят в группы не менее двух, из которых первая является произвольной. То есть, FC = CF такой же как F / C = C / F. Когда присутствуют чередующиеся одинарные-двойные связи, группы больше двух, причем средние символы направления находятся рядом с двумя двойными связями. Например, обычная форма (2,4) -гексадиена записывается С / С = С / С = С / С.

Бета-каротин, с выделенными одиннадцатью двойными связями.

В качестве более сложного примера: бета-каротин имеет очень длинную основу из чередующихся одинарных и двойных связей, которые можно записать CC1CCC / C (C) = C1 / C = C / C (C) = C / C = C / C (C) = C / C = C / C = C (C) / C = C / C = C ( С) / С = С / С2 = С (С) / СССС2 (С) С.

Конфигурация в тетраэдрический углерод определяется @ или же @@. Рассмотрим четыре связи в том порядке, в котором они появляются слева направо в форме УЛЫБКИ. Если смотреть на центральный углерод с точки зрения первой связи, остальные три расположены либо по часовой стрелке, либо против часовой стрелки. Эти случаи обозначены @@ и @соответственно (поскольку @ сам символ представляет собой спираль против часовой стрелки).

L-Аланин

Например, рассмотрим аминокислота аланин. Одна из его форм SMILES - NC (C) C (= O) O, более полно записывается как N [CH] (C) C (= O) O. L-Аланин, более распространенный энантиомер, записывается как N [C @@ H] (C) C (= O) O (см. изображение ). Если рассматривать связь азот-углерод, водород (ЧАС), метил (C) и карбоксилат (С (= O) O) группы появляются по часовой стрелке. D-Alanine можно записать как N [C @ H] (C) C (= O) O (см. изображение ).

Хотя порядок, в котором ветки указываются в SMILES, обычно не имеет значения, в данном случае он имеет значение; замена любых двух групп требует перестановки индикатора хиральности. Если ветви поменять местами, то аланин записывается как NC (C (= O) O) C, то конфигурация также меняется; L-аланин записывается как N [C @ H] (C (= O) O) C (см. изображение ). Другие способы написания включают C [C @ H] (N) C (= O) O, OC (= O) [C @@ H] (N) C и OC (= O) [C @ H] (C) N.

Обычно первая из четырех связей появляется слева от атома углерода, но если УЛЫБКИ начинаются с хирального углерода, например С (С) (N) С (= O) O, то все четыре справа, но появляются первыми ( [CH] облигация в данном случае) используется в качестве ссылки для заказа следующих трех: L-аланин также может быть написан [C @@ H] (C) (N) C (= O) O.

Спецификация SMILES включает уточнения по @ символ для обозначения стереохимии вокруг более сложных хиральных центров, таких как тригонально-бипирамидная молекулярная геометрия.

Изотопы

Изотопы задаются числом, равным целой изотопной массе, предшествующей атомному символу. Бензол в котором один атом углерод-14 записывается как [14c] 1ccccc1 и дейтерохлороформ является [2H] C (Cl) (Cl) Cl.

Примеры

МолекулаСтруктураФормула улыбки
ДинитрогенN≡NN # N
Метилизоцианат (MIC)CH3−N = C = OCN = C = O
Сульфат меди (II)Cu2+ТАК2−
4
[Cu + 2]. [O-] S (= O) (= O) [O-]
ВанилинМолекулярная структура ванилинаO = Cc1ccc (O) c (OC) c1
COc1cc (C = O) ccc1O
Мелатонин (C13ЧАС16N2О2)Молекулярная структура мелатонинаCC (= O) NCCC1 = CNc2c1cc (OC) cc2
CC (= O) NCCc1c [nH] c2ccc (OC) cc12
Флавопереирин (C17ЧАС15N2)Молекулярная структура флавопереиринаCCc (c1) ccc2 [n +] 1ccc3c2 [nH] c4c3cccc4
CCc1c [n +] 2ccc3c4ccccc4 [nH] c3c2cc1
Никотин (C10ЧАС14N2)Молекулярная структура никотинаCN1CCC [C @ H] 1c2cccnc2
Энантотоксин (C17ЧАС22О2)Молекулярная структура энантотоксинаCCC [C @@ H] (O) CCC = CC = CC # CC # CC = CCO
CCC [C @@ H] (O) CC / C = C / C = C / C # CC # C / C = C / CO
Пиретрин II (С22ЧАС28О5)Молекулярная структура пиретрина IICC1 = C (C (= O) C [C @@ H] 1OC (= O) [C @@ H] 2 ​​[C @ H] (C2 (C) C) / C = C (C) / C ( = O) OC) C / C = CC = C
Афлатоксин B1 (C17ЧАС12О6)Молекулярная структура афлатоксина B1O1C = C [C @ H] ([C @ H] 1O2) c3c2cc (OC) c4c3OC (= O) C5 = C4CCC (= O) 5
Глюкоза (β-D-глюкопираноза) (C6ЧАС12О6)Молекулярная структура глюкопиранозыOC [C @@ H] (O1) [C @@ H] (O) [C @ H] (O) [C @@ H] (O) [C @ H] (O) 1
Бергенин (цускутин, а смола ) (C14ЧАС16О9)Молекулярная структура кускутина (бергенина)OC [C @@ H] (O1) [C @@ H] (O) [C @ H] (O) [C @@ H] 2 ​​[C @@ H] 1c3c (O) c (OC) c ( O) cc3C (= O) O2
А феромон калифорнийского щитовка(3Z, 6R) -3-метил-6- (проп-1-ен-2-ил) дека-3,9-диен-1-илацетатCC (= O) OCCC (/ C) = CC [C @ H] (C (C) = C) CCC = C
(2S,5р)-Халькогран: а феромон из короед Pityogenes chalcographus[11](2S, 5R) -2-этил-1,6-диоксаспиро [4.4] нонанCC [C @ H] (O1) CC [C @@] 12CCCO2
α-туйон (C10ЧАС16O)Молекулярная структура туйонаCC (C) [C @@] 12C [C @@ H] 1 [C @@ H] (C) C (= O) C2
Тиамин (витамин B1, С12ЧАС17N4Операционные системы+)Молекулярная структура тиаминаOCCc1c (C) [n +] (cs1) Cc2cnc (C) nc2N

Чтобы проиллюстрировать молекулу с более чем 9 кольцами, рассмотрим цефалостатин -1,[12] стероидный 13-кольцевой пиразин с эмпирическая формула C54ЧАС74N2О10 изолированные от Индийский океан полухордовый Цефалодискус gilchristi:

Молекулярная структура цефалостатина-1

Начиная с самой левой метильной группы на рисунке:

CC (C) (O1) C [C @@ H] (O) [C @@] 1 (O2) [C @@ H] (C) [C @@ H] 3CC = C4 [C @] 3 ( C2) C (= O) C [C @ H] 5 [C @ H] 4CC [C @@ H] (C6) [C @] 5 (C) Cc (n7) c6nc (C [C @@] 89 (C)) c7C [C @@ H] 8CC [C @@ H]% 10 [C @@ H] 9C [C @@ H] (O) [C @@]% 11 (C) C% 10 = C [C @ H] (O% 12) [C @]% 11 (O) [C @ H] (C) [C @]% 12 (O% 13) [C @ H] (O) C [C @@]% 13 (C) CO

Обратите внимание, что % появляется перед индексом меток закрытия кольца над цифрой 9; видеть § Кольца над.

Другие примеры SMILES

Обозначения SMILES подробно описаны в руководстве по теории SMILES, предоставленном Системы дневной химической информации и представлен ряд иллюстративных примеров. Утилита «Изображение» от Daylight предоставляет пользователям средства для проверки собственных примеров УЛЫБКИ и является ценным образовательным инструментом.

Расширения

СМАРТС представляет собой линейное обозначение для описания структурных структур в молекулах. Хотя он использует многие из тех же символов, что и SMILES, он также позволяет указывать подстановочный знак атомов и связей, которые можно использовать для определения субструктурных запросов для химическая база данных поиск. Распространенное заблуждение состоит в том, что субструктурный поиск на основе SMARTS включает сопоставление строк SMILES и SMARTS. Фактически, строки SMILES и SMARTS сначала преобразуются во внутренние представления графов, которые ищутся подграф изоморфизм.

SMIRKS, надмножество «response SMILES» и подмножество «response SMARTS», представляет собой строковое обозначение для определения преобразований реакции. Общий синтаксис для расширений реакции: РЕАГЕНТ> АГЕНТ> ПРОДУКТ (без пробелов), где любое из полей можно оставить пустым или заполнить несколькими молекулами, разделенными точкой (.) и другие описания в зависимости от базового языка. Атомы можно дополнительно идентифицировать по номеру (например, [C: 1]) для отображения,[13] например в [CH2: 1] = [CH: 2] [CH: 3] = [CH: 4] [CH2: 5] [H: 6] >> [H: 6] [CH2: 1] [CH: 2] = [CH: 3] [CH: 4] = [CH2: 5].[14]

Преобразование

SMILES можно преобразовать обратно в двумерные представления с помощью алгоритмов генерации структурных диаграмм (SDG).[15] Это преобразование не всегда однозначно. Преобразование в трехмерное представление достигается методами минимизации энергии. Существует множество загружаемых и доступных в Интернете утилит для преобразования.

Смотрите также

Рекомендации

  1. ^ Вейнингер, Дэвид (февраль 1988 г.). «SMILES, химический язык и информационная система. 1. Введение в методологию и правила кодирования». Журнал химической информации и компьютерных наук. 28 (1): 31–6. Дои:10.1021 / ci00057a005.
  2. ^ а б Вейнингер, Дэвид; Вейнингер, Артур; Вейнингер, Джозеф Л. (май 1989 г.). «SMILES. 2. Алгоритм генерации уникальной нотации SMILES». Журнал химической информации и моделирования. 29 (2): 97–101. Дои:10.1021 / ci00062a008.
  3. ^ Вейнингер, Дэвид (август 1990). «УЛЫБКИ. 3. ДЕПИКТ. Графическое изображение химических структур». Журнал химической информации и моделирования. 30 (3): 237–43. Дои:10.1021 / ci00067a005.
  4. ^ Суонсон, Ричард Поммьер (2004). «Вхождение информатики в комбинаторную химию» (PDF). В Rayward, W. [Warden] Boyd; Боуден, Мэри Эллен (ред.). История и наследие научных и технологических информационных систем: материалы конференции 2002 года Американского общества информационных наук и технологий и Фонда химического наследия. Медфорд, штат Нью-Джерси: Информация сегодня. п. 205. ISBN  9781573872294.
  5. ^ Вейнингер, Дэйв (1998). "Благодарности на странице смайлов и т. Д." Daylight Tutorial ". Получено 24 июня, 2013.
  6. ^ Андерсон, Э .; Veith, G.D .; Вейнингер, Д. (1987). УЛЫБКИ: линейная запись и компьютерный интерпретатор химических структур (PDF). Дулут, Миннесота: Агентство по охране окружающей среды США, Лаборатория экологических исследований, Дулут. Отчет № EPA / 600 / M-87/021.
  7. ^ "УЛЫБКИ Учебник: Что такое УЛЫБКИ?". Агентство по охране окружающей среды США. Получено 23 сентября, 2012.
  8. ^ Хатчисон Д., Канаде Т., Киттлер Дж., Клиенберг Дж. М., Mattern F, Mitchell JC, Наор М, Нирстраз О, Rangan CP, Штеффен Б., Судан M, Терзопулос Д., Тайгар Д., Варди МО, Вейкум Г, Рашид Л, Неглур Г., Гроссман Р.Л., Лю Б. (2005). «Назначение уникальных ключей химическим соединениям для интеграции данных: некоторые интересные примеры счетчиков». В Ludäscher B (ред.). Интеграция данных в науках о жизни. Конспект лекций по информатике. 3615. Берлин: Springer. С. 145–157. Дои:10.1007/11530084_13. ISBN  978-3-540-27967-9. Получено 12 февраля, 2013.
  9. ^ Сидорова, Дж. Анисимова М., «Распознавание образов в химическом применении на основе НЛП», Pattern Recognition Letters, 45 (2014) 11-16.
  10. ^ Сидорова, Дж., Гарсия, Дж., «Переход от синтаксических методов к статистическим: классификация с автоматически сегментированными признаками из последовательностей», Распознавание образов, 48 (11), 3749-3756
  11. ^ Байерс, JA; Birgersson, G; Löfqvist, J; Аппельгрен, М; Бергстрём, Г. (март 1990 г.). «Выделение синергистов феромонов короеда, Pityogenes chalcographus, от сложных запахов насекомых-растений путем фракционирования и комбинированного биотеста " (PDF). Журнал химической экологии. 16 (3): 861–76. Дои:10.1007 / BF01016496. PMID  24263601. S2CID  226090.
  12. ^ «CID 183413». PubChem. Получено 12 мая, 2012.
  13. ^ "СМИРКС Учебник". Дневной свет. Получено 29 октября, 2018.
  14. ^ «Реакция УЛЫБКИ и УЛЫБКИ». Получено 29 октября, 2018.
  15. ^ Хелсон, Х. Э. (1999). «Построение структурной схемы». В Lipkowitz, K. B .; Бойд, Д. Б. (ред.). Rev. Comput. Chem. Обзоры по вычислительной химии. 13. Нью-Йорк: Wiley-VCH. С. 313–398. Дои:10.1002 / 9780470125908.ch6. ISBN  9780470125908.