Pfam

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 12. juli 2019; checks kræver 8 redigeringer .

Pfam  er en database over proteindomænefamilier . Hver familie i den er repræsenteret af en multipel justering af proteinsekvensfragmenter og en skjult Markov-model (HMM) . I marts 2021 indeholdt Pfam 19.179 poster (familier) forenet i 645 klaner [1] .

Historie

Pfam-databasen blev grundlagt i 1997 af forskere fra Sanger Institute [2] og vedligeholdes aktivt af et konsortium af forskere fra forskellige lande [3] . Siden 2011 er der artikler i den engelsksprogede Wikipedia [4] for poster med en kendt funktionel annotation . I begyndelsen af ​​2021 blev mindst ét ​​domæne beskrevet i Pfam detekteret i 77 % af UniProt-databasesekvenserne, disse domæner dækker 53,2 % af den samlede længde af disse sekvenser [5] .

Tidsskriftet Nucleic Acids Research udgiver med jævne mellemrum artikler, der beskriver udviklingen og tilstanden af ​​Pfam [6] . Den nuværende version af Pfam 34.0 er bygget på Pfamseq-databasen baseret på UniProt KB 2020_06-udgivelsen [7] . Pfamseq indeholder 57 millioner aminosyresekvenser med en samlet længde på 21,7 milliarder aminosyrerester [8] .

Struktur af Pfam

Der er to kategorier af proteindomænefamilier i Pfam: Pfam-A og Pfam-B. Domæner overlapper ikke - der er ingen proteiner i databasen, hvor mindst en aminosyrerest tilhører to forskellige domæner samtidigt. Nogle familier, der har en fælles evolutionær oprindelse og har bevaret ligheder på niveau med sekvenser eller strukturer, forenes i klaner. Samlingen af ​​klaner hedder Pfam-C.

Pfam-A

Pfam-A indeholder familier, der kureres manuelt. For at danne hver Pfam-A-familie konstrueres en frøjustering ud fra dens mest repræsentative repræsentanter. Baseret på den oprettes en skjult Markov-model (HMM) , også kaldet en profil . Den består af match-, insert- og deletetilstande for hver multiple alignment -søjle, med emissionssandsynligheder tildelt for alle aminosyrer i den første af disse tilstande [2] . Disse emissionssandsynligheder præsenteres for hver familie på dens side som et sekvenslogo .

Derefter udføres en søgning ved hjælp af den modtagne HMM i Pfamseq-databasen svarende til den seneste UniProtKB- udgivelse . Alle sekvenser, for hvilke HMM-match-scoren overstiger en tærskel, manuelt indstillet for hver familie, er inkluderet i den fulde justering. Hvis det viser sig, at nogle medlemmer af familien ikke findes, når der søges med HMM, redigeres den originale multiple alignment for at opnå det optimale resultat [2] . De resulterende HMM'er gemmes i Pfam-databasen og kan bruges til at søge efter domæner i nye proteinsekvenser via en webgrænseflade .

Familiebeskrivelser er overvejende indeholdt i Wikipedia og er åbne for offentlig redigering. Det skal dog bemærkes, at mere end en fjerdedel af alle familier ikke har en funktionel annotation, sådanne domæner er udpeget som DUF (Domain of unknown function). Desuden indeholder hver familie information om dens repræsentation i forskellige taxa , varianter af domænestrukturen af ​​de proteiner, der indeholder den, og et fylogenetisk træ for den indledende justering. Hvor det er muligt, er iPfam -data om protein-protein-interaktioner tilgængelige. Arkiveret 12. juni 2020 på Wayback Machine og links til 3D-strukturer i PDB - databasen .

Pfam-B

Ud over manuelt kurerede familier, indeholder Pfam Pfam -B- familier , der er genereret automatisk ved hjælp af MMSeqs2- programmet . De har ikke en funktionel anmærkning og er generelt af væsentlig dårligere kvalitet end Pfam-A familierne. Nogle af dem repræsenterer områder med lav kompleksitet og afspejler ikke det sande forhold mellem proteinsekvenser, så det anbefales at kontrollere homologien af ​​medlemmer af Pfam-B-familierne ved hjælp af andre metoder, såsom BLAST . Proteinsekvensjusteringer for Pfam-B-familierne er ikke tilgængelige via Pfam-webgrænsefladen, men kan downloades som en zip-fil.

Klaner

Klaner (Pfam-C) er sammenslutninger af familier af proteindomæner, der har en fælles evolutionær oprindelse. Sammenligning af 3D-domænestrukturer er guldstandarden for klandannelse, i mangel heraf kan markant lighed mellem profiler (som kan bestemmes ved hjælp af HHsearch- programmet ) eller lighed mellem databasesøgeresultater ved hjælp af forskellige profiler (bestemt af SCOOP -programmet ) også bruges. For klaner, såvel som for Pfam-A-familier, er der givet en generel justering af alle dets medlemmer, taxa-fordelingsoplysninger, data om protein-protein-interaktioner og links til tredimensionelle strukturer.

Klassificering af poster

En Pfam-record er et sæt af lignende regioner af proteinsekvenser. Alle poster er tildelt en af ​​seks typer [4] :

  1. Familie ( Familie ) - grundlæggende type, et sæt af relaterede ( homologe ) steder;
  2. Domæne ( domæne ) er en stabil strukturel enhed, eller i det mindste et funktionelt sted, fundet i forskellige proteinarkitekturer;
  3. Gentag ( Gentag ) - et kort afsnit, der er ustabilt isoleret set, men danner en stabil struktur, når der er flere kopier af det;
  4. Motiv ( Motiv ) - et kort bevaret område uden for de kugleformede domæner;
  5. Coiled-Coil ( Superspiral block ) - områder, der danner supercoils, dvs. bundter af 2-7 snoede alfa-helixer;
  6. Uordnet ( Ustruktureret blok ) - konservative områder med en forskudt aminosyresammensætning, der ikke danner en stabil (globulær) struktur.

Ofte bruges betegnelsen familie (familie), også på Pfams hjemmeside, i stedet for betegnelsen entry (record), hvilket skaber betydelig forvirring.

Funktioner

Pfam-siden giver interaktiv adgang til dataene samt muligheden for at se dataene grafisk.

Vinduet "Hop til...", som findes på de fleste Pfam-sider, giver dig mulighed for hurtigt at søge efter familier eller klaner ved hjælp af identifikator (ID) eller adgangskode (adgangskode). Øverst på enhver Pfam-side er der også et søgeordssøgefelt for familier, "søgeordssøgning" [9] .

Ved at søge efter en proteinsekvens i HMM -biblioteket i Pfam kan man finde ud af dens domænearkitektur. For mange kendte proteinsekvenser er det allerede blevet beregnet: For at se det skal du indtaste sekvensidentifikationen eller adgangskoden i fanevinduet "se en sekvens" på webstedets hovedside. Hvis sekvensen ikke genkendes af Pfam, kan du bruge søgesiden , hvor du skal indtaste aminosyre- eller nukleotidsekvensen [9] .

Hvis du skal søge efter et stort antal sekvenser, kan du uploade en fil med sekvenser i FASTA -formatet på fanen Batchsøgning på søgesiden , mens hver fil ikke bør indeholde mere end 5000 sekvenser. I dette tilfælde modtager brugeren resultaterne inden for 48 timer på e-mailadresse, som også skal angives på søgesiden [9] . Det er også muligt at søge lokalt ved hjælp af "pfam_scan.pl" scriptet. Dette vil kræve HMMER3 -softwaren , HMM-bibliotekerne og nogle andre yderligere filer, der kan findes på Pfam-webstedet [9] .

Pfam har beregnet domænearkitekturer for Integr8-baseproteomer [10] . Adgang til disse data er åben i kolonnen "Proteomer" på siden "Gennemse" . For de organismer, der præsenteres her, er information tilgængelig om domænesammensætningen og domænearkitekturerne for deres proteiner.

Pfam giver også mulighed for at søge efter proteiner efter domænearkitektur. For at gøre dette skal du på fanen "Domænearkitektur" på søgesiden i et særligt vindue vælge domæner, der skal eller ikke skal inkluderes i målproteinet. Du kan også bruge den mere avancerede PfamAlyzer Java-applet [11] .

Noter

  1. Pfam 34.0 er frigivet . Hentet 25. marts 2021. Arkiveret fra originalen 24. marts 2021.
  2. 1 2 3 Sonnhammer et al, 1997 .
  3. Pfam-konsortiet . Hentet 27. april 2015. Arkiveret fra originalen 16. januar 2019.
  4. 12 Punta et al., 2012 .
  5. Mistry et al., 2021 .
  6. Pfam: Referencer og bibliografi . Hentet 27. april 2015. Arkiveret fra originalen 16. januar 2019.
  7. Pfam: Om . Hentet 30. april 2015. Arkiveret fra originalen 16. januar 2019.
  8. Noter til Pfam release 34.0 . Hentet 13. juni 2020. Arkiveret fra originalen 14. juni 2021.
  9. 1 2 3 4 Pfam: Hjælp . Hentet 27. april 2015. Arkiveret fra originalen 16. januar 2019.
  10. integr8 < EMBL-EBI . Hentet 30. april 2015. Arkiveret fra originalen 7. november 2018.
  11. Hollich & Sonnhammer, 2007 .

Litteratur