Файл химической таблицы - Chemical table file

Файл химической таблицы (CT File) - семейство текстовых форматы файлов химических веществ описывающие молекулы и химические реакции. Один формат, например, перечисляет каждый атом в молекуле, координаты x-y-z этого атома и связи между атомами.

Форматы файлов

В семействе есть несколько форматов файлов.

Форматы были созданы Информационные системы MDL (MDL), который был приобретен Symyx Technologies затем слился с Accelrys Corp., которая сейчас называется BIOVIA, дочерняя компания Dassault Systemes of Dassault Group[1]

CT-файл - это открытый формат, BIOVIA публикует свою спецификацию.[2]

Molfile

ctab
Расширение имени файла
.mol
Тип интернет-СМИ
химический / x-mdl-molfile
Тип форматаформат химического файла

An MDL Molfile - это формат файла для хранения информации об атомах, связях, связях и координатах молекулы.

Molfile состоит из некоторой информации заголовка, таблицы соединений (CT), содержащей информацию об атомах, затем соединений и типов связей, за которыми следуют разделы для более сложной информации.

Молфил достаточно распространен, чтобы большинство, если не все, хеминформатика программные системы / приложения могут читать формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторым вычислительным программным обеспечением, таким как Mathematica.

Электрический ток де-факто стандартная версия - molfile V2000; хотя в последнее время формат V3000 получил достаточно широкое распространение, чтобы представить потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.

Содержание Molfile L-аланина
L-аланин
Строка заголовка (может быть пустым, но строка должна существовать)Блок заголовка

(3 строки)

  ABCDEFGH09071717443D
Строка отметки времени программы / файла

(Название исходной программы и отметка времени файла)

Экспортировано
Строка комментария (может быть пустым, но строка должна существовать)
6 5 0 0 1 0 3 В2000
Линия счетаТаблица подключений
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0-0,7207 2,0817 0,0000 C 1 0 0 0 0 0-1,8622 -0,3695 0,0000 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1.9464 0.4244 0.0000 O 0 5 0 0 0 0
Блок атома

(1 строка для каждого атома): x, y, z (в ангстремы ), элемент и т. д.

1 2 1 0 0 01 3 1 1 0 01 4 1 0 0 02 5 2 0 0 02 6 1 0 0 0
Блок облигаций

(1 строка для каждой связи): 1-й атом, 2-й атом, тип и т. Д.

M CHG 2 4 1 6 -1M ISO 1 3 13
Блок свойств
M КОНЕЦ
Конец строки

(ПРИМЕЧАНИЕ: некоторым программам не нравится пустая строка перед M END)

КОНЕЦ

Линия счета

Строка Original Counts имеет следующую спецификацию.

Ценить660001V2000
Описаниеколичество атомовколичество облигацийномер списка атомовХиральный флаг, 1 = хиральный;

0 = не хиральный

количество записей stextколичество строк

дополнительные свойства

моль версия
Тип[Generic][Generic][Запрос][Generic][ISIS / Desktop][Generic]

Расширенная таблица подключений (V3000)

Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует единственное molfile-приложение, которое содержит тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный молфил.

Обратите внимание, что «без структуры» помечается меткой «V3000» вместо метки версии «V2000». Помимо версии в шапке есть еще два изменения:

  • Количество строк приложения всегда записывается как 999, независимо от того, сколько их на самом деле. (Все текущие считыватели проигнорируют счет и остановятся на M END.)
  • «Размерный код» поддерживается более явно. Таким образом, «3D» на самом деле означает 3D, хотя «2D» будет интерпретироваться как 3D, если будут найдены ненулевые Z-координаты.

В отличие от molfile V2000, расширенный molfile V3000 Rgroup имеет тот же формат заголовка, что и molfile не-Rgroup.

L-Аланин для mol.jpg
L-аланин
ОписаниеБлок заголовка
GSMACCS-II07189510252D 1 0,00366 0,00000 0
Заголовок с отметкой времени
Рисунок 1, J. Chem. Инф. Comput. Sci., Том 32, № 3., 1992
Строка комментария
0 0 0 0 0 999 V3000
Линия совместимости с V2000
M V30 НАЧАТЬ CTAB
Таблица подключений
M V30 СЧЕТА 6 5 0 0 1
Линия счета
M V30 НАЧАЛО АТОММ V30 1 C -0,6622 0,5342 0 0 CFG = 2M V30 2 C 0,6622 -0,3 0 0M V30 3 C -0,7207 2,0817 0 0 МАССА = 13M V30 4 N -1,8622 -0,3695 0 0 CHG = 1M V30 5 O 0,622 -1,8037 0 0M V30 6 O 1,9464 0,4244 0 0 CHG = -1M V30 КОНЕЦ АТОМ
Блок атома
M V30 BEGIN BONDM V30 1 1 1 2M V30 2 1 1 3 CFG = 1M V30 3 1 1 4M V30 4 2 2 5M V30 5 1 2 6M V30 END BOND
Блок облигаций
M V30 END CTABM END

Линия счета

Строка подсчета обязательна, и она должна быть первой. Он определяет количество атомов, связей, 3D-объектов и S-групп. Он также указывает, установлен ли флаг CHIRAL. По желанию, в строке счетчиков можно указать молрегно. Это используется только тогда, когда regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки счета:

M V30 СЧИТАЕТ na nb nsg n3d хиральный
M V30 СЧЕТАнаnbнсгn3dхиральный[REGNO = regno]
M V30 СЧЕТА65001
количество атомов
количество облигаций
количество Sгрупп
количество 3D-ограничений
если 1 = молекула хиральная
молекула или модель regno

SDF

ctab
Расширение имени файла
.sd, .sdf
Тип интернет-СМИ
химический / x-mdl-sdfile
Тип форматаформат химического файла

SDF - это один из семейства форматов файлов с химическими данными, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает файл структурных данных, а файлы SDF фактически обертывают molfile (MDL Molfile ) формат. Множественные соединения ограниченный строками, состоящими из четырех знаков доллара ($$$$). Особенностью формата SDF является его способность включать связанные данные.

Связанные элементы данных обозначаются следующим образом:

>  <Unique_ID>XCA3464366>  <ClogP>5.825>  <Vendor>Сигма>  <Molecular Weight>499.611

Также поддерживаются многострочные элементы данных. Спецификация MDL SDF-формата требует, чтобы был вставлен символ жесткого возврата каретки, если одна строка любого текстового поля превышает 200 символов. На практике это требование часто нарушается, так как многие Улыбки и ИнЧИ строки превышают эту длину.

Другие форматы семьи

Существуют и другие, менее часто используемые форматы семейства:

  • RXNFile - для представления единой химической реакции;
  • RDFile - для представления списка записей со связанными данными. Каждая запись может содержать химические структуры, реакции, текстовые и табличные данные;
  • RGFile - для представления Структуры Маркуша (не рекомендуется, Molfile V3000 может представлять структуры Маркуша);
  • XDFile - для представления химической информации в XML формат.

Смотрите также

Рекомендации

  1. ^ Dalby, A .; Nourse, J. G .; Hounshell, W. D .; Gushurst, A. K. I .; Grier, D. L .; Leland, B.A .; Лауфер, Дж. (1992). «Описание нескольких форматов файлов химической структуры, используемых компьютерными программами, разработанными в Molecular Design Limited». Журнал химической информации и моделирования. 32 (3): 244. Дои:10.1021 / ci00007a012.
  2. ^ Биовия (июнь 2014 г.), Форматы файлов CT, Биовия. Определения формата CTFile доступны по запросу (требуется регистрация).

внешняя ссылка

  • SDF Toolkit бесплатное программное обеспечение для обработки файлов SD (SDF).
  • NCI / CADD преобразователь химических идентификаторов генерирует файлы SD (SDF) из химических названий, номеров реестра CAS, SMILES, InChI, InChIKey, ....
  • KNIME бесплатное программное обеспечение для обработки данных и анализа данных, а также может читать и записывать файлы SD (SDF).
  • Панель сравнительной токсикологии служба, предоставляемая Агентством по охране окружающей среды (EPA), которая генерирует файлы SD (SDF) из химических названий, номеров реестра CAS, SMILES, InChI, InChIKey, ...