SMILES ( Simplified Molecular Input Line Entry System , fra engelsk - "a system of simplified representation of molecules in the input line") er et system af regler (specifikation) for en utvetydig beskrivelse af sammensætningen og strukturen af et kemisk molekyle ved hjælp af en ASCII tegnstreng . Navnet på engelsk er et homonym for ordet smiles ( smiles ), men det skrives kun med store bogstaver. Det har ingen entydig analog på russisk, det anbefales at bruge det på originalsproget. Udtales som "smiley".
En streng af tegn, kompileret efter reglerne for SMILES, kan konverteres af mange molekylære editorer til en todimensionel eller tredimensionel strukturformel for et molekyle .
Den originale SMILES-specifikation blev udviklet af Arthur Weininger og David Weininger i slutningen af 1980'erne [1] . Standarden er siden blevet ændret og udvidet; Daylight Chemical Information Systems, Inc. tog den mest aktive del i dette arbejde . .
Andre linjenotationer omfatter Wiswesser (WLN), SMARTS , ROSDAL og Sybyl Line Notation ( Tripos Inc. ). For nylig foreslog IUPAC InChI som en standard for lineær repræsentation af formler. SMILES har fordele i forhold til InChI, især en bedre opfattelse af formler af en person, samt enklere softwaresupport på grund af tilstedeværelsen af en omfattende teoretisk base- grafteori .
Den originale SMILES-specifikation manglede regler for, hvordan notationen var opbygget, og hvordan de rumlige isomerer af molekyler blev skelnet. For at løse disse problemer er der udviklet udvidelser til standarden:
Med hensyn til grafteori er SMILES en streng opnået ved at udskrive symbolerne for hjørnerne af en molekylær graf i den rækkefølge, der svarer til deres dybde- første gennemgang . Den indledende behandling af grafen omfatter fjernelse af brintatomer og enkeltbindinger og opdeling af cyklusserne, så den resulterende graf er en spændende skov . De steder, hvor grafen er opdelt, tildeles tal, der indikerer tilstedeværelsen af en binding i det oprindelige molekyle. Parenteser bruges til at angive forgreningspunkterne for et molekyle .
Atomer er angivet med symbolerne for kemiske grundstoffer i firkantede parenteser , for eksempel er guld betegnet som [Au]. For organogene grundstoffer ( B , C , N , O , P , S , F , Cl , Br , I ) kan parenteserne udelades. I dette tilfælde kan brintatomer udelades eksplicit, hvis deres antal svarer til den mindste normale valens i overensstemmelse med eksplicit specificerede bindinger. Atomer i aromatiske ringe er normalt skrevet med små bogstaver i stedet for store bogstaver, selvom nogle dialekter af SMILES bruger en eksplicit veksling af dobbelt- og enkeltbindinger (som i Kekules strukturformel for benzen ). Hvis det er nødvendigt at angive partiklens formelle ladning, skrives brintatomerne og ladningssymbolet eksplicit [3] . Isotoper er skrevet i firkantede parenteser med atomvægten foran atomsymbolet, for eksempel ville 13 C isotopen blive skrevet som . [13C]
For eksempel ville SMILES-indgangen for vand være O, for ethanol ville det være CCO. Hydroxylanionen skrives , og jern(II) ionen som . [OH-][Fe+2]
En enkelt kemisk binding kan skrives ved hjælp af symbolet -mellem de bundne atomer, men i praksis bruges dette ikke, bindestregen er udeladt. Den aromatiske bindingsbetegnelse ( : ) udelades også normalt. En dobbeltbinding er betegnet med et lighedstegn , for eksempel skrives kuldioxidO=C=O som . En tredobbelt binding betegnes med en octothorpe , for eksempel skrives blåsyreC#N som .
Molekylets sidekæder er omsluttet i parentes . For eksempel skrives propionsyreCCC(=O)O som . Den kanoniske form af trifluormethan ser ud som C(F)(F)F, men sådan en notation er ubelejlig at læse på grund af dens overbelastning af parenteser, så det samme molekyle kan skrives i en ikke-kanonisk form som FC(F)F.
Atomerne placeret i enderne af bindingen, der er brudt under konstruktionen af den spændende skov, er betegnet med det samme tal. For eksempel skrives cyclohexanC1CCCCC1 som , og benzen skrives som c1ccccc1.
Dobbeltbindingskonfiguration skrives med / og \ . For eksempel F/C=C/Fsvarer til trans - difluorethylen , og F/C=C\Feller F\C=C/Fsvarer til cis -difluorethylen (se fig.).
SMARTS er en modifikation af SMILES, der tillader brugen af en uordnet struktur af atomer og bindinger. Udbredt i søgemaskiner i databaser over stoffer. Anvendelsespraksis har forårsaget en almindelig misforståelse, at i computersøgningen efter strukturer sammenlignes kæderecords, mens der udføres en meget mere produktiv sammenligning af grafer bygget på basis af SMILES-formler.
SMILES-formlen kan konverteres til en todimensionel strukturel formel ved hjælp af Structure Diagram Generation-algoritmerne udviklet af Helson [4] . Transformationen giver ikke altid et entydigt resultat. Omdannelsen til en tredimensionel strukturformel udføres ved hjælp af princippet om den minimale energi ved stofdannelse.
Molekylær visualisering | |||||
---|---|---|---|---|---|
Kemiske formler |
| ||||
Molekylære modeller |
| ||||
Andet |
Strukturkemi | |
---|---|
kemisk binding | |
Struktur display | |
Elektroniske egenskaber | |
Stereokemi |