我有一個包含蛋白質序列的fasta文件。我想選擇具有300多個氨基酸的序列,而半胱氨酸(C)氨基酸出現的次數超過4倍。我已經使用此命令來選擇具有超過300 aa的序列: cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例: >jgi|Triasp1|216614|CE216613_3477 MPSLYLTSALGLLSLLPAAQAGWNPNSKDNIVVYWGQDAGSIGQNRLSYYCENAPDVDVI NISFLVGITDLNLNLANVGNNCTAFAQDPNLLDCPQVAADIVECQQTYGKTIMMSLFGST YTESGFSSSSTAVSAAQEIWAMFGPVQSGNSTPRPFGNAVIDGFDFDLEDPIENNMEPFA AELRSLTSAATSKKFYLSAAPQCVYPDASDESFLQGEVAFDWLNIQFYNNGCGTSYYPSG YNYATWDNWAKTVSANPNTKLLVGTPASVHAVNFANYFPTNDQLAGAISSSKSYDSFAGV MLWDMAQLFGNPGYLDLIVADLGGASTPPPPASTTLSTVTRSSTASTGPTSPPPSGGSVP QWGQCGGQGYTGPTQCQSPYTCVVESQWWSSCQ*
在aaa大于300的fasta文件中選擇序列,并且“ C”出現至少4次
慕婉清6462132
2021-04-07 17:14:02