Go to content
SV På svenska

High-throughput biochemistry in protein sequence space

Reference number
FFL24-0236
Project leader
Marklund, Emil
Start and end dates
250801-300731
Amount granted
15 000 000 SEK
Administrative organization
Stockholm University
Research area
Life Sciences

Summary

Specific recognition and binding of DNA, RNA and protein by other RNAs and proteins, regulate cellular processes in all life forms. In general, we are currently unable to quantitatively predict molecular recognition and function from a nucleotide or protein sequence. Here, we will address the sequence dependence of dynamical recognition and protein activity by developing a method which lets us screen hundreds of thousands of purified protein sequence mutants in parallel. We will use this method to quantify the affinity between 100,000 transcription factor mutants to different DNA binding sites. With this, we will determine how the sequence of intrinsically disordered regions (IDRs) in transcription factors influence DNA binding, and explain how transcription factor paralogs and DNA binding sites have been co-optimized for high affinity binding during evolution. We will also develop a platform for high-throughput screening of protein-protein interactions and small peptide inhibitors (drugs). Furthermore, we will also detect and quantify many to all of the possible pairwise protein-protein interactions in the E. coli and human proteomes, thereby likely discovering and quantifying many novel protein-protein interactions. Finally, we will use our high-throughput protein screening platform to measure the reaction rate of hundreds of thousands enzyme sequence mutants, and optimize the activity of the enzyme using iterations of experiments and active learning.

Popular science description

Specifik igenkänning och bindning av DNA, RNA och protein av reglerande proteiner, styr cellulära processer i alla livsformer. Transkriptionsfaktorer är proteiner som styr genuttryck genom att binda specifika DNA sekvenser i genomet i en cell. Transkriptionsfaktorn måste hitta en nål, den korrekta DNA-sekvensen, i en gigantisk höstack av miljontals falska sekvenser där den inte ska binda. Och på något sätt lyckas transkriptionsfaktorer med detta, precis hela tiden, i varje cell i kroppen. När den här sökprocessen och igenkänningen går fel så kan det orsaka många sjukdomar, såsom cancer. Men generellt sett så kan vi för närvarande inte förutsäga molekylär igenkänning, var transkriptionsfaktorn ska binda, och när bindingen går fel, från en nukleotid- eller proteinsekvens. I det här projektet kommer vi att studera sekvensberoendet av molekylär igenkänning och proteinaktivitet genom att utveckla en metod som låter oss screena hundratusentals proteinsekvensmutanter samtidigt. Med denna data kommer vi sen bygga kvantitativa modeller som låter oss förutsäga bindning och funktion, direkt från en nukleotid- eller proteinsekvens. Detta kommer ge oss djup förståelse om vad det är som gör specifika nukleotid- och proteinsekvenser speciella, hur och när transkriptionsfaktorn lyckas hitta rätt. Detta är grundvetenskaplig förståelse som vi behöver, om vi någon gång ska lyckas bota sjukdomarna som orsakas av att bindningen går fel.