Формат химического файла - Chemical file format

В этой статье обсуждаются некоторые общие молекулярные форматы файлов, включая использование и преобразование между ними.

Отличительные форматы

Химическая информация обычно предоставляется в виде файлы или же потоки было создано множество форматов с различной степенью документации. Формат указывается тремя способами (см. Химический раздел MIME)

  • расширение файла (обычно 3 буквы). Это широко используется, но ненадежно, поскольку такие общие суффиксы, как «.mol» и «.dat», используются во многих системах, включая нехимические.
  • файлы с самоописанием где информация о формате включена в файл. Примеры - CIF и CML.
  • химический / MIME-тип добавлен химически осведомленным сервером.

Язык химической разметки

Язык химической разметки (CML) - это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях «Инструменты для работы с языком химической разметки» и «XML для химии и биологических наук» CML рассматривается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint, Jmol, XDrawChem и MarvinView.

Формат банка данных белков

В Формат банка данных белков обычно используется для белков, но может использоваться и для других типов молекул. Первоначально он был разработан и остается форматом с фиксированной шириной столбца и, таким образом, официально имеет встроенное максимальное количество атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Однако многие инструменты могут читать файлы, превышающие эти ограничения. Например, E. coli 70S рибосома в 2009 году был представлен в виде 4 файлов PDB: 3I1M, 3I1N, 3I1O и 3I1P. В 2014 году они были объединены в один файл, 4V6C.

Некоторые файлы PDB содержат необязательный раздел, описывающий связь атома, а также положение. Поскольку эти файлы иногда используются для описания макромолекулярных сборок или молекул, представленных в явный растворитель, они могут вырасти очень большими и часто сжимаются. Некоторые инструменты, такие как Jmol и KiNG,[1] может читать файлы PDB в формате gzip. WwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 г. произошли довольно серьезные изменения в спецификации формата PDB (до версии 3.0) и устранены многие проблемы с файлами в существующей базе данных.[2] Типичное расширение файла для файла PDB: .pdb, хотя в некоторых старых файлах используется .ent или же .brk. Некоторые инструменты молекулярного моделирования записывают нестандартные файлы в стиле PDB, которые адаптируют базовый формат к своим потребностям.

Формат GROMACS

Семейство форматов файлов GROMACS было создано для использования с программным пакетом молекулярного моделирования. GROMACS. Он очень похож на формат PDB, но был разработан для хранения вывода из молекулярная динамика моделирования, поэтому он обеспечивает дополнительную числовую точность и опционально сохраняет информацию о частицах скорость а также положение в заданной точке траектории моделирования. Он не позволяет хранить информацию о подключении, которая в GROMACS получается из отдельных файлов молекулы и системной топологии. Типичное расширение файла для файла GROMACS: .gro.

Формат CHARMM

В Очарование пакет молекулярной динамики[3] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координата) и PSF (структура белка file) в основном уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбца, напоминает формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и требуется перед началом моделирования. Типичные используемые расширения файлов: .crd и .psf соответственно.

Формат GSD

Формат файлов общих данных моделирования (GSD), созданный для эффективного чтения / записи общих имитаций частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-синий. Пакет также содержит модуль python, который считывает и записывает файлы gsd схемы hoomd с простым в использовании синтаксисом. [1]

Формат файла Ghemical

В Химический программное обеспечение может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию он использует формат GPR. Этот файл состоит из нескольких частей, разделенных тегом (! Header,! Info,! Atoms,! Bonds,! Coord,! PartialCharges и! End).

Предлагаемый тип MIME для этого формата: применение / x-ghemical.

Обозначение линии SYBYL

Обозначение линии SYBYL (SLN) - это химическое строчная запись. Основанный на SMILES, он включает полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет указывать Структура Маркуша запросы. Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.

Примеры SLN

ОписаниеSLN строка
БензолC [1] H: CH: CH: CH: CH: CH: @ 1
АланинNH2C [s = n] H (CH3) C (= O) OH
Запрос, показывающий боковую цепочку RR1 [hac> ​​1] C [1]: C: C: C: C: C: @ 1
Запрос на амид / сульфамидNHC = M1 {M1: O, S}

Улыбки

В Sподразумевается Mглазной яnput Lине Eпопытка Sспецификация (Улыбается) это строчная запись для молекул. Строки SMILES включают связь, но не включают 2D или 3D координаты.

Атомы водорода не представлены. Другие атомы представлены символами их элементов B, C, N, O, F, P, S, Cl, Br и I. Символ «=» представляет двойные связи, а «#» представляет тройные связи. Ветвление обозначено (). Кольца обозначаются парами цифр.

Некоторые примеры

ИмяФормулаSMILES строка
МетанCH4C
Этиловый спиртC2ЧАС6ОCCO
БензолC6ЧАС6C1 = CC = CC = C1 или c1ccccc1
ЭтиленC2ЧАС4C = C

XYZ

В Формат файла XYZ - это простой формат, который обычно дает количество атомов в первой строке, комментарий ко второй, за которым следует количество строк с атомными символами (или атомными числами) и декартовыми координатами.

Номер в леях

Номер MDL содержит уникальный идентификационный номер для каждой реакции и вариации. Формат - RXXXnnnnnnnn. R указывает на реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.

Другие распространенные форматы

Одним из наиболее широко используемых отраслевых стандартов являются файл химической таблицы форматы, такие как Формат данных структуры (SDF) файлы. Это текстовые файлы, которые соответствуют строгому формату для представления нескольких записей химической структуры и связанных полей данных. Формат был первоначально разработан и опубликован Molecular Design Limited (MDL). MOL - это еще один формат файлов от MDL. Это описано в главе 4 Форматы CTfile.[4]

PubChem также имеет форматы файлов XML и ASN1, которые представляют собой параметры экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (чаще всего ASN1 - это двоичный формат).

В таблице ниже перечислено большое количество других форматов.

Преобразование между форматами

OpenBabel и JOELib являются свободно доступными инструментами с открытым исходным кодом, специально разработанными для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.

babel -i input_format input_fileФормат вывода выходной файл

Например, чтобы преобразовать файл epinephrine.sdf из SDF в CML, используйте команду

babel -i sdf epinephrine.sdf -o cml epinephrine.cml

В результате получается файл epinephrine.cml.

Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, могут читать файлы в нескольких форматах и ​​записывать их в других форматах. Инструменты JChemPaint (на основе Комплект для разработки химии ), XDrawChem (на основе OpenBabel ), Перезвон, Jmol, Мол2моль[5][нужна цитата ] и Discovery Studio вписываются в эту категорию.

Химический проект MIME

«Химический MIME» - это фактический подход к добавлению MIME типы к химическим потокам.

Этот проект стартовал в январе 1994 г. и впервые был объявлен на семинаре по химии на Первой Международной конференции WWW, состоявшейся в ЦЕРНе в мае 1994 г. ... Первая версия проекта в Интернете была опубликована в мае – октябре 1994 г., а вторая пересмотренная версия в период с апреля по сентябрь 1995 г. Документ, представленный CPEP (Комитету по печатным и электронным публикациям) на заседании IUPAC в августе 1996 г., доступен для обсуждения.[6]

В 1998 г. работа была официально опубликована в JCIM.[7]

Расширение файлаMIME ТипПравильное имяОписание
алкхимическая / x-алхимияФормат Алхимии
CSFхимический / x-cache-csfCAChe MolStruct CSF
cbin, cascii, ctabхимический / x-cactvs-binaryФормат CACTVS
cdxхимический / x-cdxФайл обмена ChemDraw
Cerхимический / x-ceriusФормат MSI Cerius II
c3dхимический / x-chem3dФормат Chem3D
чмхимический / x-chemdrawChemDraw файл
cifхимический / x-cifКристаллографический информационный файл, Кристаллографическая информационная структураОпубликован Международным союзом кристаллографии
cmdfхимический / x-cmdfФормат данных CrystalMaker
cmlхимический / x-cmlЯзык химической разметкиXML основан Язык химической разметки.
cpaхимический / х-компасКомпасная программа Такахаши
bsdхимический / x-crossfireФайл Crossfire
csm, csmlхимический / x-csmlЯзык разметки химического стиля
ctxхимический / x-ctxФормат файлов CTX группы Gasteiger
cxf, cefхимический / x-cxfФормат химического обмена
emb, emblхимический / x-embl-dl-нуклеотидФормат нуклеотидов EMBL
spcхимический / x-galactic-spcФормат SPC для спектральных и хроматографических данных
inp, gam, gaminхимический / x-gamess-inputGAMESS Формат ввода
fch, fchkхимический / x-gaussian-checkpointГауссовский Формат контрольной точки
детенышхимический / x-gaussian-cubeГауссовский Формат куба (волновая функция)
gau, gjc, gjf, comхимический / x-gaussian-inputГауссовский Формат ввода
gcgхимический / x-gcg8-последовательностьФормат белковой последовательности
генхимический / x-genbankФормат ToGenBank
istr, istхимический / x-isostarБиблиотека межмолекулярных взаимодействий IsoStar
jdx, dxхимический / x-jcamp-dxJCAMP Формат обмена спектроскопическими данными
родняхимический / x-kinemageКинетические (структура белка) изображения; Кинемаг
мкмхимическая / х-макмолекулаФормат файла MacMolecule
ммд, ммодхимический / x-макромодель-вводМакромодель Молекулярная механика
мольхимический / x-mdl-molfileMDL Molfile
улыбки, улыбкихимические / x-дневные улыбкиУпрощенная спецификация ввода строки молекулярного вводаЛинейное обозначение молекул.
sdfхимический / x-mdl-sdfileФайл данных структуры
эльхимический / x-sketchelSketchEl Molecule
dsхимический / х-лист данныхТаблица данных SketchEl XML
инчихимический / x-inchiМеждународный химический идентификатор ИЮПАК
jsd, jsdrawхимический / x-jsdrawСобственный формат файла JSDraw
штурвал, ихельмхимикат / x-helmПистойя Альянс ШЛЕМ нитьЛинейное обозначение биологических молекул
xhelmхимический / x-xhelmXML-файл Pistoia Alliance XHELMXML основан ШЛЕМ включая определения мономеров

Поддерживать

Для Linux / Unix файлы конфигурации доступны как "химические-мим-данные"пакет в .deb, Об / мин и форматы tar.gz для регистрации химических типов MIME на веб-сервере.[8][9] Затем программы могут зарегистрироваться в качестве средства просмотра, редактора или процессора для этих форматов, чтобы была доступна полная поддержка химических типов MIME.

Источники химических данных

Вот краткий список источников свободно доступных молекулярных данных. В Интернете гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.

  1. Соединенные штаты Национальный институт здоровья PubChem база данных - это огромный источник химических данных. Все данные представлены в двух измерениях. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
  2. Всемирный банк данных о белках (wwPDB )[10] является отличным источником данных о координатах молекул белков и нуклеиновых кислот. Данные трехмерны и представлены в формате Protein Data Bank (PDB).
  3. eMolecules - коммерческая база данных молекулярных данных. Данные включают двухмерную структурную схему и строку улыбок для каждого соединения. eMolecules поддерживает быстрый поиск субструктур на основе частей молекулярной структуры.
  4. ChemExper коммерческая база данных молекулярных данных. Результаты поиска включают двухмерную структурную схему и файл кротов для многих соединений.
  5. Нью-Йоркский университет Библиотека трехмерных молекулярных структур.
  6. В Агентство по охране окружающей среды США Сеть баз данных распределенной структуры с возможностью поиска токсичности (DSSTox) - это проект программы EPA по вычислительной токсикологии. База данных содержит молекулярные файлы SDF с акцентом на канцерогенные и другие токсичные вещества.

Смотрите также

Рекомендации

  1. ^ Chen, V.B .; и другие. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации». Белковая наука. 18 (11): 2403–2409. Дои:10.1002 / pro.250. ЧВК  2788294. PMID  19768809.
  2. ^ Хенрик, К .; и другие. (2008). «Восстановление архива банка данных белков». Исследования нуклеиновых кислот. 36 (Проблема с базой данных): D426 – D433. Дои:10.1093 / нар / гкм937. ЧВК  2238854. PMID  18073189.
  3. ^ Brooks, B.M .; и другие. (1983). «CHARMM: программа для расчета энергии макромолекул, минимизации и динамики». J. Comput. Chem. 4: 187–217. Дои:10.1002 / jcc.540040211.
  4. ^ Информационные системы MDL 2005
  5. ^ Домашняя страница Mol2mol
  6. ^ Домашняя страница химической MIME (Проверено 24 января 2013 г.)
  7. ^ Rzepa, H. S .; Murray-Rust, P .; Уитакер, Б. Дж. (1998). "Применение химических многоцелевых расширений электронной почты в Интернете (химическое MIME) Интернет-стандартов для электронной почты и обмена информацией в Интернете". Журнал химической информации и моделирования. 38 (6): 976. Дои:10.1021 / ci9803233.
  8. ^ http://packages.debian.org/search?keywords=chemical-mime
  9. ^ http://downloads.sourceforge.net/chemical-mime/
  10. ^ Berman, H.M .; и другие. (2003). «Представляем всемирный банк данных о белках». Структурная биология природы. 10 (12): 980. Дои:10.1038 / nsb1203-980. PMID  14634627.

внешняя ссылка