En proteinfamilie er en gruppe af evolutionært beslægtede proteiner , der deler en homolog aminosyresekvens . Dette udtryk er næsten synonymt med udtrykket "genfamilie", eftersom hvis proteiner har homologe aminosyresekvenser, så skal generne, der koder for dem , også vise en betydelig grad af homologi i DNA - nukleotidsekvenserne . Dette udtryk må ikke forveksles med udtrykket " familie " i taksonomien for arter af levende organismer .
Som med mange andre biologiske termer er brugen af en proteinfamilie meget kontekstafhængig: den kan referere til en stor gruppe af proteiner med subtil primær sekvenshomologi eller en meget snæver gruppe af proteiner med næsten samme primære struktur, funktion og tredimensionel organisation eller ethvert andet mellemliggende tilfælde. For at skelne mellem disse to ekstreme situationer introducerede Dyhoff konceptet med en protein-superfamilie [1] [2] [3] . Over tid blev begreber som klasse , gruppe , klan og underfamilie opfundet , men de led alle den samme tvetydige skæbne. I almindelig brug forstås en superfamilie (strukturel homologi) at indeholde familier (primær sekvenshomologi), der indeholder underfamilier. Derfor har en superfamilie, såsom PA-proteaseklanen, et lavere niveau af konserverede sekvenser end en af dens medlemsfamilier, såsom C04-familien. Det virker usandsynligt, at en præcis definition med klare kriterier vil dukke op i den nærmeste fremtid, og derfor skal læseren selv bestemme, hvordan man præcist skal forstå disse begreber i hver specifik kontekst.
.
Begrebet en proteinfamilie opstod på et tidspunkt, hvor der stadig var meget få proteiner med en kendt primær og tertiær struktur; hovedsageligt små, enkelt-domæne proteiner såsom myoglobin , hæmoglobin og cytochrom c er blevet undersøgt . Siden da har mange proteiner vist sig at indeholde mange strukturelt og funktionelt uafhængige enheder eller domæner . På grund af rekombinationen af gener, der opstod under evolution, udviklede forskellige domæner sig uafhængigt. Af denne grund er der i de senere år blevet mere og mere opmærksomhed på proteindomænefamilier. En række onlineressourcer er dedikeret til at definere og katalogisere sådanne domæner (se listen i slutningen af artiklen).
Delene af hvert protein har forskellige strukturelle begrænsninger (det vil sige strukturelle egenskaber, der er nødvendige for at opretholde proteinets struktur og funktion). For eksempel, for funktionen af det aktive sted af et enzym , er det nødvendigt, at visse aminosyrerester er meget præcist placeret i forhold til hinanden i tredimensionelt rum. På den anden side kan protein-protein-interaktion forekomme over en stor overflade og være begrænset af aminosyrernes hydrofobicitet eller hydrofilicitet . Funktionelt vigtige dele af proteiner udvikler sig langsommere end ikke-konserverede regioner såsom overfladesløjfer og giver anledning til blokke af konserverede sekvenser. Sådanne blokke kaldes normalt motiver . Som i det foregående tilfælde er en række onlineressourcer afsat til deres definition og katalogisering.
Ifølge nuværende ideer kan proteinfamilier dannes på to måder. I det første tilfælde opdeles forældrearten i to genetisk isolerede efterkommerarter, hvilket tillader genet/proteinet uafhængigt at akkumulere variationer ( mutationer ) i disse to linjer. Som et resultat dannes en familie af ortologe proteiner, som sædvanligvis har et fælles bevaret motiv. Den anden måde er genduplikation og udseendet af en paralog . Da den første kopi af genet stadig er i stand til at udføre sin funktion, er duplikatet frit til at ændre sig og erhverve nye funktioner (gennem tilfældige mutationer). Nogle familier af gener/proteiner, især i eukaryoter , gennemgår betydelig kopiering eller reduktion under evolutionen, nogle gange sammen med en fordobling af hele genomet.
Efterhånden som det samlede antal proteiner med en kendt struktur stiger, og efterhånden som interessen for proteomanalyse stiger, forsøges der at organisere proteiner i familier og beskrive deres domæner og motiver. Pålidelig identifikation af proteinfamilier er afgørende for fylogenetisk analyse, bestemmelse af proteinfunktion og undersøgelse af mangfoldigheden af proteinfunktioner i en given fylogenetisk gruppe. Enzyme Function Initiative (EFI) bruger proteinfamilier og superfamilier som grundlag for at skabe en strategi for storskala taksonomisk fordeling af enzymer med ukendt funktion [4] .
Algoritmiske midler til etablering af en proteinfamilie er baseret på begrebet lighed. Det meste af tiden er den eneste lighed, vi har adgang til, primær strukturhomologi.
Der er mange biologiske databaser dedikeret til proteinfamilier, som giver dig mulighed for hurtigt at afgøre, om et nyopdaget og identificeret protein er medlem af en allerede kendt proteinfamilie. I særdeleshed:
Der er også specialiserede søgemaskiner: