Basic Information

Insect: Halyomorpha halys
Gene Symbol: -
Assembly: GCA_000696795.2
Location: NW:266800-287321[-]

Transcription Factor Domain

TF Family: zf-C2H2
Domain: zf-C2H2 domain
PFAM: PF00096
TF Group: Zinc-Coordinating Group
Description: The C2H2 zinc finger is the classical zinc finger domain. The two conserved cysteines and histidines co-ordinate a zinc ion. The following pattern describes the zinc finger. #-X-C-X(1-5)-C-X3-#-X5-#-X2-H-X(3-6)-[H/C] Where X can be any amino acid, and numbers in brackets indicate the number of residues. The positions marked # are those that are important for the stable fold of the zinc finger. The final position can be either his or cys. The C2H2 zinc finger is composed of two short beta strands followed by an alpha helix. The amino terminal part of the helix binds the major groove in DNA binding zinc fingers. The accepted consensus binding sequence for Sp1 is usually defined by the asymmetric hexanucleotide core GGGCGG but this sequence does not include, among others, the GAG (=CTC) repeat that constitutes a high-affinity site for Sp1 binding to the wt1 promoter [1].
Hmmscan Out: # of c-Evalue i-Evalue score bias hmm coord from hmm coord to ali coord from ali coord to env coord from env coord to acc

1 20 0.00031 0.012 15.5 3.4 2 23 163 185 162 185 0.97

2 20 0.0045 0.18 11.8 1.8 1 23 191 214 191 214 0.97

3 20 0.015 0.6 10.2 4.3 1 23 220 243 220 243 0.97

4 20 0.001 0.041 13.9 3.7 2 23 250 272 249 272 0.93

5 20 0.0094 0.37 10.8 3.5 1 23 307 330 307 330 0.96

6 20 0.0024 0.094 12.7 0.9 1 23 336 359 336 359 0.96

7 20 0.026 1 9.4 10.0 1 23 365 388 365 388 0.94

8 20 0.039 1.6 8.9 12.4 1 23 394 416 394 417 0.95

9 20 0.0071 0.28 11.2 3.1 1 20 423 442 423 446 0.95

10 20 0.032 1.3 9.2 5.6 1 23 452 474 452 475 0.95

11 20 0.0041 0.16 12.0 4.3 1 23 481 503 481 504 0.95

12 20 0.017 0.66 10.0 5.2 1 23 510 533 510 533 0.95

13 20 0.008 0.32 11.0 1.6 1 23 539 562 539 562 0.97

14 20 0.026 1 9.5 4.4 1 23 568 590 568 591 0.95

15 20 0.008 0.32 11.0 0.2 2 23 598 620 597 620 0.94

16 20 0.0015 0.058 13.4 0.2 1 23 626 649 626 649 0.97

17 20 0.0097 0.39 10.8 3.1 1 23 655 678 655 678 0.96

18 20 1.9 76 3.6 2.1 1 23 684 707 684 708 0.88

19 20 0.00065 0.026 14.5 2.0 1 23 713 736 713 736 0.98

20 20 0.001 0.041 13.9 3.9 1 23 770 793 770 793 0.97

#	of	c-Evalue	i-Evalue	score	bias	hmm coord from	hmm coord to	ali coord from	ali coord to	env coord from	env coord to	acc
1	20	0.00031	0.012	15.5	3.4	2	23	163	185	162	185	0.97
2	20	0.0045	0.18	11.8	1.8	1	23	191	214	191	214	0.97
3	20	0.015	0.6	10.2	4.3	1	23	220	243	220	243	0.97
4	20	0.001	0.041	13.9	3.7	2	23	250	272	249	272	0.93
5	20	0.0094	0.37	10.8	3.5	1	23	307	330	307	330	0.96
6	20	0.0024	0.094	12.7	0.9	1	23	336	359	336	359	0.96
7	20	0.026	1	9.4	10.0	1	23	365	388	365	388	0.94
8	20	0.039	1.6	8.9	12.4	1	23	394	416	394	417	0.95
9	20	0.0071	0.28	11.2	3.1	1	20	423	442	423	446	0.95
10	20	0.032	1.3	9.2	5.6	1	23	452	474	452	475	0.95
11	20	0.0041	0.16	12.0	4.3	1	23	481	503	481	504	0.95
12	20	0.017	0.66	10.0	5.2	1	23	510	533	510	533	0.95
13	20	0.008	0.32	11.0	1.6	1	23	539	562	539	562	0.97
14	20	0.026	1	9.5	4.4	1	23	568	590	568	591	0.95
15	20	0.008	0.32	11.0	0.2	2	23	598	620	597	620	0.94
16	20	0.0015	0.058	13.4	0.2	1	23	626	649	626	649	0.97
17	20	0.0097	0.39	10.8	3.1	1	23	655	678	655	678	0.96
18	20	1.9	76	3.6	2.1	1	23	684	707	684	708	0.88
19	20	0.00065	0.026	14.5	2.0	1	23	713	736	713	736	0.98
20	20	0.001	0.041	13.9	3.9	1	23	770	793	770	793	0.97

Sequence Information

Coding Sequence: ATGGCTAAAAgtcTAAATTATCATGATGttacaataaaagaagaaatgactGATGGGCCTacaattaaagaagaaatgacTGATGAGCCtacaataaaagaagaaatgactGATGAACCtacaataaaagaagaaataactgATGAATCTGAGTCTTCTTGTAGTCTAATTAGTTGTGGTGttacaataaaagaagaaatcaaaGAGGAAACTGAGTCTAATTCTCTCACACTTGATATAAAAGAGGAGGacaatcaacaaatttactatgATGGGCTAGTTCATGTGAAGCAAGACGAAGATGTAATTGTTCCTGATGAAGCTGCCACAATCATTATCAAAGAAGAGGAAGGATCGCCTATTTATTTAGgTTCCGAAAATACTGTCAAGAACAAAGAAAAGGTCCAAAAGAATGGTATGAAACCTAAAATTTATGTTGATTCGAAGAAACTTGTTAAATCTTACCTTAAAGATGTTGAGCGTCTTCAGTGTCCTCACTGTGACTTTAAGACAACAAAGCTACGTAATTTAAAAAGTCACATAAACACCCGTCATATTCATAATAAGCCATACAGATGCCCTCATTGTGAACATAAAGCTGTTGCaagtaatcaattaaaaaaacatataatgtccattcatacaggtgagaagcctTTTAAATGCTTTCATTGTGACTATAAGTCCAcatataaaagtgtattaaaatatcatattatatccTCTCACATAGGCGTGAAGTCTTGtgaatgtcctcattgtgactataaaacaacaaaactctattatttaaaaaaacatataatggcaCTTCATAAAAGTCACAGGTTCCACCTATGTCCTCAATGTTGTTATGAAGGAGTAGACAAAAAATCTATGAAGGAACATATCGCAACCCGTCATCCACCTAAGAAGTTTCATCAATGCacttattgtgattataaaacAGGAACtactactaatttaaaatatcacacTATGATCAATCATACTGGTGAGAAACCTCATAAATGTACTCAGTGTGATTTTAAAGCAGCAGtagcttctaatttaaaaaatcacatcaTCTCCCGCCACACTGATGAGAAGCCTCataaatgtcctcattgtgaccATAGAGCATCTAGACCTCATCATTTAAAAAGTCATATCCTTGCATGTCATACAGCTGAGAAGCCTCATAAATGCCCTCATTGTgaccataaaacaaaaagagctTGCCATTTAAGGAATCACATAATGGCCCATCATACACATGAAAGACCTTATAAATGTTCtctttgtgaatataaatcaacaaCCGTCAGTAACTTGAAAAATCATATACTGTGCCGCCACAAAGACGAGAAACCTCATAAATGTTCTTATTGTGACTTCAAGACATCACTACTAAGTACATTAAAATACCACATTAAGGCCCATCATACAGACCAGAGGTCCCatcagtgtcctcattgtgactaCAAAGCAGTTACAAAAACTGGTTTAAATGTTCATGTACGGTTCCATCATAGgcgtgagaagcctcatcaatgcaCTCATTGTGACTTTAAGACTTCAAAAACtcgtgatttaaaaaatcacataatGGCTCGTCATACAGGTAAGAAGCCGTATCAATGCTTTCATTGTGACTATAAATCATCAGGGATTGAGAGtttaaaaagtcatataatGTATTGGCATACAGATGAAAAGCGTCATAAATGTCCACAGTGCAAATACAGCGCTGTTCAAATATCTTGTTTAAGAAATCATGTAATGGTCCATCATATAGGTGTGAAACCAATCAAATGCCCTCATTGTGATTTTAGTACAGTAGCAACTCCTTAtttaaaaagacatataatgGCCATTCATAAAGGTGAGAAGCCTTACAAATGCAATGATTGTGACTACAAATCAGCTGGAATGACAGCTTTGAAAAATCACATAATGGTTAGGCATACAGGTGATAGGCCTCATAAATGTCCTCATTGTAAATACCGAGCAACTCAACCAAGTTCTGTAAAATACCATGTAATGGTCCGTCATACAGGTGAAAAGCCTCATAAATGCCCTCACTGTGAGTACAGAGCAGTATTGAAGAGTTTCATaggaaaacatataataatagccCATCATACagataaaaaacatcaatgccCTGATTGTGATTTTAAAACTGCACATGCAAATTCTTTAAAAggacatataaatacatatcacACAAAGAATAAGTATGCTCGGGTTCCTCATCAAGATAAAACAGTAAgaaaagatgttttaaaaaaacataaaattgctTGTCGTCTAGGTGAGAAGTCTTTTCAATGTCATCATTGTGATTATAAGACAGTGACCTTTAGTGTATTGAAAAGACATATTATTGTGAATCATATATAG
Protein Sequence: MAKSLNYHDVTIKEEMTDGPTIKEEMTDEPTIKEEMTDEPTIKEEITDESESSCSLISCGVTIKEEIKEETESNSLTLDIKEEDNQQIYYDGLVHVKQDEDVIVPDEAATIIIKEEEGSPIYLGSENTVKNKEKVQKNGMKPKIYVDSKKLVKSYLKDVERLQCPHCDFKTTKLRNLKSHINTRHIHNKPYRCPHCEHKAVASNQLKKHIMSIHTGEKPFKCFHCDYKSTYKSVLKYHIISSHIGVKSCECPHCDYKTTKLYYLKKHIMALHKSHRFHLCPQCCYEGVDKKSMKEHIATRHPPKKFHQCTYCDYKTGTTTNLKYHTMINHTGEKPHKCTQCDFKAAVASNLKNHIISRHTDEKPHKCPHCDHRASRPHHLKSHILACHTAEKPHKCPHCDHKTKRACHLRNHIMAHHTHERPYKCSLCEYKSTTVSNLKNHILCRHKDEKPHKCSYCDFKTSLLSTLKYHIKAHHTDQRSHQCPHCDYKAVTKTGLNVHVRFHHRREKPHQCTHCDFKTSKTRDLKNHIMARHTGKKPYQCFHCDYKSSGIESLKSHIMYWHTDEKRHKCPQCKYSAVQISCLRNHVMVHHIGVKPIKCPHCDFSTVATPYLKRHIMAIHKGEKPYKCNDCDYKSAGMTALKNHIMVRHTGDRPHKCPHCKYRATQPSSVKYHVMVRHTGEKPHKCPHCEYRAVLKSFIGKHIIIAHHTDKKHQCPDCDFKTAHANSLKGHINTYHTKNKYARVPHQDKTVRKDVLKKHKIACRLGEKSFQCHHCDYKTVTFSVLKRHIIVNHI

Similar Transcription Factors

Sequence clustering based on sequence similarity using MMseqs2

100% Identity: -
90% Identity: -
80% Identity: -