Basic Information

Insect: Trionymus perrisii
Gene Symbol: -
Assembly: GCA_900050545.1
Location: FIZV01049120.1:640-5076[-]

Transcription Factor Domain

TF Family: Homeobox
Domain: Homeobox
PFAM: PF00046
TF Group: Helix-turn-helix
Description: This entry represents the homeodomain (HD), a protein domain of approximately 60 residues that usually binds DNA. It is encoded by the homeobox sequence [7, 6, 8], which was first identified in a number of Drosophila homeotic and segmentation proteins, but is now known to be well-conserved in many other animals, including vertebrates [1, 2], as well as plants [4], fungi [5] and some species of lower eukaryotes. Many members of this group are transcriptional regulators, some of which operate differential genetic programs along the anterior-posterior axis of animal bodies [3]. This domain folds into a globular structure with three α-helices connected by two short loops that harbour a hydrophobic core. The second and third form a helix-turn-helix (HTH) motif, which make intimate contacts with the DNA: while the first helix of this motif helps to stabilise the structure, the second helix binds to DNA via a number of hydrogen bonds and hydrophobic interactions, which occur between specific side chains and the exposed bases and thymine methyl groups within the major groove of the DNA. One particularity of the HTH motif in some of these proteins arises from the stereo-chemical requirement for glycine in the turn which is needed to avoid steric interference of the β-carbon with the main chain: for cro and repressor proteins the glycine appears to be mandatory, while for many of the homeotic and other DNA-binding proteins the requirement is relaxed.
Hmmscan Out: # of c-Evalue i-Evalue score bias hmm coord from hmm coord to ali coord from ali coord to env coord from env coord to acc

1 16 6.2 2.2e+03 -0.8 0.0 23 48 10 35 7 40 0.83

2 16 0.25 89 3.6 0.1 24 47 80 103 75 110 0.85

3 16 8.4e-05 0.03 14.7 0.0 3 52 114 163 112 167 0.93

4 16 0.00039 0.14 12.6 0.1 8 55 215 263 208 264 0.91

5 16 1.4e-09 5.1e-07 30.0 0.1 8 53 280 325 277 329 0.95

6 16 4.6 1.6e+03 -0.4 0.0 31 54 399 422 397 423 0.86

7 16 0.015 5.3 7.5 0.0 24 47 450 473 439 474 0.91

8 16 2.7e-05 0.0095 16.3 0.0 11 50 547 586 540 587 0.93

9 16 1.7e-10 6e-08 33.0 0.1 7 52 608 653 606 656 0.94

10 16 0.00036 0.13 12.7 0.1 22 50 698 727 682 728 0.84

11 16 5.1e-06 0.0018 18.6 0.0 6 52 746 792 745 797 0.93

12 16 5.8e-07 0.00021 21.7 0.5 11 49 842 880 837 886 0.91

13 16 2.7e-14 9.5e-12 45.1 0.3 6 53 902 949 898 951 0.95

14 16 1.6e-06 0.00057 20.2 0.0 10 52 1099 1141 1094 1142 0.92

15 16 3.8e-11 1.3e-08 35.1 1.9 1 57 1360 1416 1360 1416 0.96

16 16 0.00012 0.041 14.3 0.3 13 55 1431 1472 1423 1474 0.86

#	of	c-Evalue	i-Evalue	score	bias	hmm coord from	hmm coord to	ali coord from	ali coord to	env coord from	env coord to	acc
1	16	6.2	2.2e+03	-0.8	0.0	23	48	10	35	7	40	0.83
2	16	0.25	89	3.6	0.1	24	47	80	103	75	110	0.85
3	16	8.4e-05	0.03	14.7	0.0	3	52	114	163	112	167	0.93
4	16	0.00039	0.14	12.6	0.1	8	55	215	263	208	264	0.91
5	16	1.4e-09	5.1e-07	30.0	0.1	8	53	280	325	277	329	0.95
6	16	4.6	1.6e+03	-0.4	0.0	31	54	399	422	397	423	0.86
7	16	0.015	5.3	7.5	0.0	24	47	450	473	439	474	0.91
8	16	2.7e-05	0.0095	16.3	0.0	11	50	547	586	540	587	0.93
9	16	1.7e-10	6e-08	33.0	0.1	7	52	608	653	606	656	0.94
10	16	0.00036	0.13	12.7	0.1	22	50	698	727	682	728	0.84
11	16	5.1e-06	0.0018	18.6	0.0	6	52	746	792	745	797	0.93
12	16	5.8e-07	0.00021	21.7	0.5	11	49	842	880	837	886	0.91
13	16	2.7e-14	9.5e-12	45.1	0.3	6	53	902	949	898	951	0.95
14	16	1.6e-06	0.00057	20.2	0.0	10	52	1099	1141	1094	1142	0.92
15	16	3.8e-11	1.3e-08	35.1	1.9	1	57	1360	1416	1360	1416	0.96
16	16	0.00012	0.041	14.3	0.3	13	55	1431	1472	1423	1474	0.86

Sequence Information

Coding Sequence: CTGTTACGCGAAAAACCAGCCGGCAAACGCAAGTTCACCGATATGGAAATCCGCAAAAATGCTTCCCGTTTGAAAATCCCCGGGGTCAAGATACGCTATTGGCTAAAACAACATAACGCTTTGGACGAAGGACCTTCACGCGCAATACGCGATGCAACCGAAAAACGTAGTAAGTTACTCAACGTGCTATCGTTCGACAAGAAGGTATTGCTGTTGAAGAAAACCATCTCTACGACCAAAGTTCGCACTACGCAAGCCCGACAATTATCGCGAGAGCTGCAAATAGACGAGAATCGAATTCTCAGCTGGCTAAAGCATAAGGTTCATCGTAACTTGcggatgaaaaaatctctgaccGCCGAGGAGATTGCGACTTTGAATACGAAATTCGCCGAATACGATTACTTGGACGACGACACCGCTCTTGTGTTGGCTGATCGTTTCAACGTTCCTATTGCGGTGATAAAGAAAGCTTTCCAGCAACGCAAACCGTCGTCGAAGATCGTCGCTAGGCCGGTTGTTCAAATCAAACGATTACCGGAAGTGGCTTTGTCGTCGGTAACGCCGCCGCCGCCCAAAGGCAGCAGAGCTTCTCCGAAGACGAAACCTGCCGCCAGCTCGAAGAAGAATCCGAGTTTTAAAACCGTTGATCAGATGAATTTATTATTCGAGGCGTTCCGCCAGTCTCCGACTTTGACGAAGAACGATACCGTGGCCGAGCTCGTGAACGCGACAGGACTGATGCCTAAGCAGATCTCAAAGTGGCTGAGCATGTTTCGTACCAAATGGGCCGAGAATAACGAAAGCGGATTGAAGAAAATGCTGTTGCGAGGATTGAACCAAAGTCAATTGGTAGAGCTGGAGAAAGCCTACAGAGGCGATCGATTCTTAAACAAGGCGCAGCTCGTCGAATTACCCAAGATGATCGGATTGCCCTTGAGAGCCTTACAGGCTTGGTTTTCTAATCGTCGCGTTTACGAGATCCGCTCCTGCGATAAAGATCTGGTGAATATCGGACCGAAAACCGCCGCTGCTAGGAAAGAATCCAGTCAGCCGTTACAGGCACAGCCTCAGCAGGCAATTATACAGCCGGTCGAACATGACAATAATGGTAACGCGGCTTTCTTCGAATCTTTGACCAAAGAACAACAGGCGCTTTTGAAATCCTCCTGCAAGTCTTATAATATTTCTTACGCCAGATTAGCTCAAACTCTCGGCGTATCGGCCGAAAAGATCAAACAATACATTCAAAGCTATCGCGTACGTCATTCCATCTTCAGAGTGACTAATCGTTCGATACCGGAACGTATTCACAAGGCGTTGCTAAATCACGTGCTAAAATACGGTAAAATCTCTTCTAAGACTGCCATTGCCCTAGctaaacgtttgaaaatacGCCCCGAGCAGGTTAGAAACTGGAGCCGAACTTACACCGATCGTATTCTCGAGCATAACAGACCAGTTCAGCAACCAGCCGTCACTTTGGCTCCTCAACCTTCGAAACTCGAAGCTGCACTCACCGCTCAGCAACCGGTTGCCGAACATAACGTAGACAGCGCACCAAAGGCGTCGGCAGTTCGGCCTAAATCGTCGTCGAAAAAAAGCTTATCAGGTTCGAAGTACAAAATGCCTTCTTATGCCAAAAACATTCTACTgcaagaatataaaaaatcgcCTCAAGCAGCGGCCACCAAAAGTAAACAACTCGCCAGCATGGTGGGATTGACTCCGGTACAGATACGCAAatggttttataattttggtaagCAACTCAGCGAACATACAAAATCCGGAGTGGTCGCTTGCCTCAATGATCCGACCATCAGCGACGAAATACGAGCTAAGCTAGAAGCCGAGTATAGAAATCGTCGTTATTTGGATGTTCCCGAAATGGAGGCGTTGGCAGCGGAATTCGGCTTGACCAGGAGGCAGTTGGAAAGTTGGTTCATTAATGCTCGTTTCTACGAAGTATTAACCGGTCAATTGCCCGGATCTGGCAATGACTCGAATGCTACGAAATCCGTCACGCCGTCTAAATCGTTTTACGAAAGGCTAGACTTGGCACAACGGACACGTTTGAACGATGAACTCAACTCGTACCCTTTCAGCGACGAAAGACTCGATGACTTGGCCAGCGAATTACAAGTATCTTCgaacgagttgaaaaattggttcgaGAACGCTTCTGGCGGTAATATTCAAAGTCGTATTTCGCCCAATCCCACGGTGCCTTTCAATTTCACCCGTAGAGCGTTGGACACGTTGATTAACGAATTCGAAGTCGATCCTATTTTGCCAGATGCTCGTGCTGGTGTTATAGCTAAACGCATCAAAGTCACCAAAGACCGAATCAAAGCTTGGTTCGCGAGTCGCCAAGAAGAAATGCAGAAATTCGAGCAAAACGAACTGGAAGACGAACGCAAGCTAGCCAGACATAAAGTACCTCCGATTAGAATCAGCATACCGAAATACATCACTAAGAACGTCGATACGGATTTCGACTCGTCCAAGAAAAGCTATTTTCAACAGAATAGACTATTCGAAGAGTTCAAGATCGATTCGACCCTGACGAACGAAAGATTGGCCAGAATAAGCCGAGAGACGAACCTAGACGGTAAACAGATTTCAGCCTGGTTCGATTGGATAAAAACGAAACTAGCTTCGATACCGAAAGATAGTCTTCTCGAAGAAAATCGTAATGCGAATTTAACGGCGAGACAAATCGTAACTCTAGAACAAGAATACTCCAAGAACAGATACGTCGACAGGTCGGTTCGCGAAGCCCTCTCTCGATCTTTGGGCGTAGCTAAGAGCGTGGTAAAAACCTGGTTCGCCAACAAACGTTATTCGGAAATTCTATGCCAGAATGGGTCCGCTGATAGTGACCCGCTTTCTTCTCAGGACGATGATTACGACGAAGAGGAAGACACGAGTCGGGCTGAAACCGCCATCGACTACGAATGGGACGAAGAAACAGCCTTCATCGACGACTCCGAATTAGACGTTAAATTGGACGTGAAACGCCAAGTTGAGCTCGATCCGTTGCTCGATTACAGTTTCCAAGAAGACGGGCAGGAAGACGTTAAAACAAATATGTCCTATAATTTTCAGCTTTCACCCAACAGCGCGTTCACCGATGATTTGACTAGTTTACCGTATCAACCTCGAAATCGTGTCTGTACTCGGCTCGACAAAGATTTAGAACCGTTGGACGAAGAAgtgggaaaattattttggtttGCGAGCAGTAAAccgaataaaataaacgagAAATTCGATCAAGATATAGACGAAGATAAGAATCGTGTTCTAGAAGgtgaatttggtaaaaatcctTGGCCCGAGTTAGAAAGAATATCGCAATTATCGGCTCAGCTATTGGTTTCGGAACCGAAAATATACTGGTGGTTTATCAAGAAACGCTGTTTCTTGACAAAAACCATACTCAATTTACCATCAACCAAACCCAAACCTAAACCTAAACCGAAGCCTCCCCCTAAAAACGTTTTAATCGATTTGACCGACGACGATATCGAATCTGAACCACCTAAATGCGGAGAATTTGAGTTCATTATGTTGGACGAGACGCCTCAAATTAAGGAAGAAGACGAACAGCTAACCGATGAAGATGATAACTTAGAGGATGGCGatccttttgaaaatgaccttATGGAAGTGCACTCGTCCGCTAACGAAGATTCCTTCCAAGATCCGATTATTACTAACACTATGAAAAAGCACTCTTTGATTAGCCAACCATCTCAAGATCCGATTGATACCATCTCCATGGAAGATCAGTCGTTGATTAACAAACCATCTAAAGATCCCATTGATACTTTCGCTATGGAAGAGCAATCGTCAATCAACGAAACATCTCAAGATCTCATTAATACGATCCCCATGGAAGTGCAATCGCCGATTAACGAACCATCTCAAGACTCGATTGATACCAACGCTGCGGTAGAGCAATCGTTGATTAATGAACCCGCTCAAGATCCGATTGTTAACGATGATATCGCTCCCAAATCGGCCACCGTCTCTCCTACTAGCAGCTCGGCCTCTgcgattaaaaagaaaaaaaccaagaAGGTTCCCTTGACTTCTCATCAACGTGCTCTTCTTGTACAAGAATTTAAACGCAACAAAATGATCCCGAATTCGCAAGCTCGTTTGTTAGCTCAAGATTTAGGTCTGAGCGTTAGTCGAATCGAAACTTGGTTTGAAAACATGAGAAAGAAACAGCAGAAGAAAACTTCTGCGTCTGTGAAAAACTTGAGCGCAGAAATTGAAACTGGTCTAGAAGAGGAATACTTGAAAAGCGCCAATTTGAGTAATAAAAGAGCTAAAATTATTGCCATTAAACTGAAcaccaaaaagaaaattgtccAGAAATGGTTCATCGAACGAGCTAAAAAAAAGGACGAACAACCATCGTAA
Protein Sequence: LLREKPAGKRKFTDMEIRKNASRLKIPGVKIRYWLKQHNALDEGPSRAIRDATEKRSKLLNVLSFDKKVLLLKKTISTTKVRTTQARQLSRELQIDENRILSWLKHKVHRNLRMKKSLTAEEIATLNTKFAEYDYLDDDTALVLADRFNVPIAVIKKAFQQRKPSSKIVARPVVQIKRLPEVALSSVTPPPPKGSRASPKTKPAASSKKNPSFKTVDQMNLLFEAFRQSPTLTKNDTVAELVNATGLMPKQISKWLSMFRTKWAENNESGLKKMLLRGLNQSQLVELEKAYRGDRFLNKAQLVELPKMIGLPLRALQAWFSNRRVYEIRSCDKDLVNIGPKTAAARKESSQPLQAQPQQAIIQPVEHDNNGNAAFFESLTKEQQALLKSSCKSYNISYARLAQTLGVSAEKIKQYIQSYRVRHSIFRVTNRSIPERIHKALLNHVLKYGKISSKTAIALAKRLKIRPEQVRNWSRTYTDRILEHNRPVQQPAVTLAPQPSKLEAALTAQQPVAEHNVDSAPKASAVRPKSSSKKSLSGSKYKMPSYAKNILLQEYKKSPQAAATKSKQLASMVGLTPVQIRKWFYNFGKQLSEHTKSGVVACLNDPTISDEIRAKLEAEYRNRRYLDVPEMEALAAEFGLTRRQLESWFINARFYEVLTGQLPGSGNDSNATKSVTPSKSFYERLDLAQRTRLNDELNSYPFSDERLDDLASELQVSSNELKNWFENASGGNIQSRISPNPTVPFNFTRRALDTLINEFEVDPILPDARAGVIAKRIKVTKDRIKAWFASRQEEMQKFEQNELEDERKLARHKVPPIRISIPKYITKNVDTDFDSSKKSYFQQNRLFEEFKIDSTLTNERLARISRETNLDGKQISAWFDWIKTKLASIPKDSLLEENRNANLTARQIVTLEQEYSKNRYVDRSVREALSRSLGVAKSVVKTWFANKRYSEILCQNGSADSDPLSSQDDDYDEEEDTSRAETAIDYEWDEETAFIDDSELDVKLDVKRQVELDPLLDYSFQEDGQEDVKTNMSYNFQLSPNSAFTDDLTSLPYQPRNRVCTRLDKDLEPLDEEVGKLFWFASSKPNKINEKFDQDIDEDKNRVLEGEFGKNPWPELERISQLSAQLLVSEPKIYWWFIKKRCFLTKTILNLPSTKPKPKPKPKPPPKNVLIDLTDDDIESEPPKCGEFEFIMLDETPQIKEEDEQLTDEDDNLEDGDPFENDLMEVHSSANEDSFQDPIITNTMKKHSLISQPSQDPIDTISMEDQSLINKPSKDPIDTFAMEEQSSINETSQDLINTIPMEVQSPINEPSQDSIDTNAAVEQSLINEPAQDPIVNDDIAPKSATVSPTSSSASAIKKKKTKKVPLTSHQRALLVQEFKRNKMIPNSQARLLAQDLGLSVSRIETWFENMRKKQQKKTSASVKNLSAEIETGLEEEYLKSANLSNKRAKIIAIKLNTKKKIVQKWFIERAKKKDEQPS

Similar Transcription Factors

Sequence clustering based on sequence similarity using MMseqs2

100% Identity: -
90% Identity: -
80% Identity: -