WebSat Setting

종오형님의 부탁으로 Websat 셋팅에 대해서 짧지만 긴 블로깅이 시작됩니다.

기본 디렉토리 구조
http://hostname/account/websat/ 로 접속 가능한 상태에서 설명 시작하겠습니다.
/home/account/public_html/websat -> HOME
/var/www/html/account (심볼릭 링크)

대부분 그냥 압축 파일 설정 풀면 다 되던데..;;
이녀석은 꽤나 까다롭습니다. 아직도 제대로 실행이 안되니깐요.

vi HOME/js/wesat.js
....
xmlHttp.open("POST", "/cgi-local/websat/sat.php", true);
>> xmlHttp.open("POST", "cgi-local/sat.php", true);
....
var textoLoading = "<br/><br/><div class=\"labels\" style=\"text
-align: center; font-weight: bold;\">Finding repeats... <br/><img src=\"/websat/imagens/loading.gif\" /></div>";
>> var textoLoading = "<br/><br/><div class=\"labels\" style=\"text-align: center; font-weight: bold;\">Finding repeats... <br/><img src=\"imagens/loading.gif\" /></div>";
....
xmlHttp.open("POST", "/cgi-local/websat/sat.php", true);
>> xmlHttp.open("POST", "cgi-local/sat.php", true);
....
xmlHttp.open("POST", "/cgi-local/websat/primer.php", true);
>> xmlHttp.open("POST", "cgi-local/primer.php", true);
....
window.open("/cgi-local/websat/export.php", "WEBSAT_EXPORT
_POPUP", "");
>> window.open("cgi-local/export.php", "WEBSAT_EXPORT_POPUP", "");
[END]


vi HOME/cgi-local/utils.php
#!/usr/local/bin/php >> 삭제
....
$DIRETORIO_CGI = "/DOC_ROOT/cgi-local/websat/";
>> $DIRETORIO_CGI = "HOME/cgi-local/";
$DIRETORIO_BASE = "/DOC_ROOT/websat/";
>> $DIRETORIO_CGI = "HOME/";
$DIRETORIO_TROLL = "/TROLL_DIRECTORY/troll";
>> $DIRETORIO_TROLL = "/home/account/public_html/troll-0.2-linux-ia32/";
$DIRETORIO_MOTIFS = "/TROLL_DIRECTORY/troll";
>> $DIRETORIO_MOTIFS = "/home/account/public_html/troll-0.2-linux-ia32/";
$DIRETORIO_SEQ_UPLOAD = "/DOC_ROOT/websat/tmp/";
>> $DIRETORIO_SEQ_UPLOAD = "HOME/tmp/";
....
[END]

 

vi HOME/cgi-local/sat.php
#!/usr/local/bin/php >> 삭제
....
$motifFileName  = "motifs" . $pMotifLen . ".dat";
>> $motifFileName  = "motifs.dat";
....
[END]

vi HOME/cgi-local/export.php
#!/usr/local/bin/php >> 삭제
....
[END]

vi HOME/cgi-local/primer.php
#!/usr/local/bin/php >> 삭제
....
[END]



메일에 적은 것과 같이 추가적인 프로그램이 필요합니다요

troll과 primer3
구글님께 검색해보시면 나오고요..
troll의 경우 제 경우에는 lib Error가 나서
libstdc++-libc6.2-2.so.3 설치해 주었습니다.
primer3는 make 해주시고 실행 파일을 troll 폴더로
옮기시면 별도의 파일 수정 없어도 됩니다.


크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/07/18 01:29 2009/07/18 01:29
, , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/172

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/172

Leave a comment

hmmer Manual

Blast와 함께 보편적으로 사용되는 Hmmer에 대한 설명서
hmmbuild/ hmmcalibrate/ hmmsearch에 대해서 설명
-물론 제가 사용하는 옵션에 대해서만 blast만큼 많지 않음. default로 사용해도 문제가 없으니깐~ 문제를 모르는것일 수도.. ㅎㅎ


hmmbuild: hmm matrix 만들어 줌
hmmbuild [-options] <hmmfile output> <alignment file>

-F 기존에 동일 이름의 hmm파일이 있으면 삭제하고 새로 만듬. 이 옵션 설정 안해주면 hmmbuild 아예 실행안됨.
ex) hmmbuild -F your_file.hmm your_file.aln


-f/ -g/ -s algorithm styles을 설정하는 옵션 이번에 사용하면서 이런 옵션을 처음 봤습니다. 왠지 hmm 멋져보이는 이유는.. ㅋ
ex) hmmbuild -f your_file.hmm your_file.aln


--amino/ --nucleic 강제로 alignment file이 어떤 서열인지 알려주는 것입니다.
ex) hmmbuild --amino your_file.hmm your_file.aln


-sequence weighting strategies
- model construction strategies
위의 무엇인가 고급스러운 것을 최대한 안건드리면 사용하는게
제 생활신조입니다. default인 이유는 그런 이유가 있을 것이다 라는.. ㅋ
개인적으로 잘 아시는 분만 선택해서 사용하시면 됩니다.
사용방법은 옵션을 그냥 적어주시면 됩니다.
ex) Alternative model construction strategies중 --fast 옵션 사용
      hmmbuild --fast your_file.hmm your_file.aln



hmmcalibrate: 만들어진 hmm matrix를 보정 시켜줌 
hmmcalibrate [-options] <hmmfile>
--cpu: 프로그램 수행에 사용할 cpu 갯수 설정, 멀티 코어의 경우 가능. 단, 컴파일 및 바이너리 파일을 받을때 cpu옵션이 on 되어 있는 것을 받아야 사용 가능

--seed: hmmcalibrate를 몇번 수행할것인지 설정 하는 옵션 인듯.

본인의 hmmcalibrate 사용 예

ex) hmmcalibrate your_file.hmm




hmmsearch: 만들어진 hmm 파일을 이용해서 유사한 서열을 찾음.
hmmsearch [-options] <hmmfile> <sequence file or database>

-A <n>: 상위 n개 까지만 출력
-E <x>: blast의 e-value cutoff와 같은 것
-T/ -Z옵션도 안좋은 값을 짤라내기 위한 옵션

--cpu : 프로그램 수행에 사용할 cpu 갯수 설정, 멀티 코어의 경우 가능. 단, 컴파일 및 바이너리 파일을 받을때 cpu옵션이 on 되어 있는 것을 받아야 사용 가능

 --domE <x> / --domT <x>
위의 -T/ -Z의 옵션과 같이 도메인에서 필터링 하는 옵션인듯. 사용 안해봤음. ^^
<sequence file or database>는 fasta format 파일이면 사용 가능함.

본인이 으레 쓰는 방법임. hmmsearch 결과는 '>'로 빼주면 됨.

ex) hmmsearch -E 0.001 your_file.hmm your_database.fasta > result.output


 

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/21 21:34 2009/05/21 21:34
, , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/144

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/144

Leave a comment

Formatdb Manual

NCBI에서 제공되는 formatdb에 대한 메뉴얼
blast-2.2.18을 기준으로 작성합니다. 현재 2.2.20이 나와있죠??
아마 옵션은 거의 동일할것입니다.
-제가 자주 쓰는 옵션 중심으로 설명합니다.

-t  데이터베이스에 Title걸어주는 옵션. 사용안해봐서 모르겠음. Maybe 일반적으로 input_filename에 대해서 결과 파일이 나오는데 결과파일의 이름을 바꿔주는 옵션일 수도.

-i 데이터베이스 만들려고 하는 파일
ex) -i database_file_name


-l formatdb시 생설될 로그 파일 이름 설정 옵션 설정 안해도 formatdb.log라는 파일 생성

-p input 파일 타입 설정. 기본적으로 protein 서열들이 들어올것으로 설정되어 있음.
ex) -p T (inputfile이 protein 서열)
      -p F (inputfile이 nucleotide 서열)


-o Parse 옵션. NCBI에서 받은 정형화된 서열 format이 아니라면 F가 상책
임의의 fasta 파일의 경우 -o T 해주면 formatdb 생성 안됨.
ex) -o {T/F}


input파일이 ASN.1 형식의 파일일 경우 사용되는 옵션
 -a  Input file is database in ASN.1 format (otherwise FASTA is expected)
 -b  ASN.1 database in binary mode
지금까지 한번도 사용안해봄. 대충 감은 오시죠???
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/21 20:55 2009/05/21 20:55
,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/143

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/143

Leave a comment

Blastpgp Manual

NCBI에서 제공되는 Blastpgp에 대한 메뉴얼
blast-2.2.18을 기준으로 작성합니다. 현재 2.2.20이 나와있죠??
아마 옵션은 거의 동일할것입니다.
제가 많이 사용하는 것을 중심으로 설명합니다.

-d blast를 돌리기 위한 데이터베이스 선택하는 옵션

ex) -d {nr|nt|your_database_file}
blast에서 데이터베이스로 사용하기 위해서는 fasta파일을 formatdb로 blast에 사용할 수 있는 데이터베이스로 변환시켜주어야 사용 가능. formatdb 수행후 붙는 확장자 명은 적어주지 않아도 됨. 파일이름 적음.


-i 검색해보고 싶은 서열(들) 입니다. Query 파일은 fasta format으로 되어있어야 함.

ex) -i your_query_file.seq 현재폴더에 있는 서열 파일
      -i /your/query/directory/query.fasta 다른 폴더에 있는 서열 파일


-e Expectation value를 정해줘서 설정된 값보다 크면 결과에 포함시키지 않는 옵션. 일반적으로 blastn의 경우 1e-06/1e-12, blastp의 경우 1e-03/1e-06으로 설정하고 상황마다 조정하면서 사용.

ex) -e 1e-06


-m 결과 파일을 저장할때의 format 결정 옵션. 일반적으로 로컬에서 blast를 돌리시려는 분들은 대량의 서열을 분석하기 위함이니, -m 8이 결과 파일을 분석하기 용이함,

ex) -m 8


-o Blast 결과 파일 설정하는 옵션

ex) -o your_output_file


-M blast를 실행시킬때 Matrix를 사용하게 하는 옵션. 서열과 서열을 비교하면서 weight를 주어서 peptide 서열을 검색할때 사용됨. 기본값은 BLOSUM62.
Matrix는 /your_blast_folder/data/ 밑에 있음.

ex) -M {BLOSUM62|PAM250|your_matrix}


-a CPU가 1개 이상일때 blast 수행시 하나 이상의 cpu를 사용하게 하는 옵션

ex) -a 2


-j Blastpgp의 반복 옵션. Blast를 한번만 수행하는 것이 아니라 검색한 결과를
기반으로 처음보다 더 좋은 결과를 이끌어 내게끔 검색 횟수를 반복시켜 주는것.

ex) -j {3|5|your_choice}
그냥 blast만 반복하는 것이 아니라 매 결과를 가지고 pssm을 만들어서 다음 blast에 matrix로 참조(아닌가?? ㅋ)



-p PHI-Blast를 위한 프로그램 옵션

ex) -p {patseedp|seedp}


-k blast 수행시 패턴을 이용해서 blast를 수행하게 한다.

ex) -k pattern_file


-file format은 prosite에서 제공되는 형식임.

보기


-B Alignment 파일 사용 옵션. PSI-Blast에서 PSSM 만들때 유저가 관여할 수 있게 해주는것 같음.

ex) -B alignment_file


Alignment file format (clustalw/clustalx의 aln 형식의 파일이면 사용 가능)

보기



참고 사이트 rcc.uga.edu



크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/21 20:37 2009/05/21 20:37
, , , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/142

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/142

Leave a comment

Blastall Manual


NCBI에서 제공되는 Blastall에 대한 메뉴얼
blast-2.2.18을 기준으로 작성합니다. 현재 2.2.20이 나와있죠??
아마 옵션은 거의 동일할것입니다.
제가 많이 사용하는 것을 중심으로 설명합니다.

-p 5개의 기본 blast 프로그램중 하나를 선택하는 옵션
ex) -p {blastn|blastp|blastx|tblastn|tblastx}

-d blast를 돌리기 위한 데이터베이스 선택하는 옵션
ex) -d {nr|nt|your_database_file}
blast에서 데이터베이스로 사용하기 위해서는 fasta파일을 formatdb로 blast에 사용할 수 있는 데이터베이스로 변환시켜주어야 사용 가능. formatdb 수행후 붙는 확장자 명은 적어주지 않아도 됨. 파일이름 적음.

-i 검색해보고 싶은 서열(들) 입니다. Query 파일은 fasta format으로 되어있어야 함.
ex) -i your_query_file.seq 현재폴더에 있는 서열 파일
      -i /your/home/path/query.fasta 다른 폴더에 있는 서열 파일

-e Expectation value를 정해줘서 설정된 값보다 크면 결과에 포함시키지 않는 옵션. 일반적으로 blastn의 경우 1e-06/1e-12, blastp의 경우 1e-03/1e-06으로 설정하고 상황마다 조정하면서 사용.
ex) -e 1e-06

-m 결과 파일을 저장할때의 format 결정 옵션. 일반적으로 로컬에서 blast를 돌리시려는 분들은 대량의 서열을 분석하기 위함이니, -m 8이 결과 파일을 분석하기 용이함,
ex) -m 8


-o Blast 결과 파일 설정하는 옵션
ex) -o your_output_file


-M blast를 실행시킬때 Matrix를 사용하게 하는 옵션. 서열과 서열을 비교하면서 weight를 주어서 peptide 서열을 검색할때 사용됨. 기본값은 BLOSUM62.
Matrix는 /your_blast_folder/data/ 밑에 있음.
ex) -M {BLOSUM62|PAM250|your_matrix}

-a CPU가 1개 이상일때 blast 수행시 하나 이상의 cpu를 사용하게 하는 옵션
ex) -a 2

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/21 20:12 2009/05/21 20:12
, , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/141

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/141

Leave a comment

Blast 종류

 본 방법은 수원대 박훤범 교수님방의 안박사님께서
 2003년도 쯔음에 알려주신 방법.. ㅋㅋ 철현이형 댕쓰~!! ^^ㅋ



요즘 생명공학을 공부하면서 Blast 툴을 모르는 사람은
아마도 거의 없을 것이다. (분명 몰라도 상관없는 분들 계시리라 믿는다. ^^)

blastn : search a nucleotide DB,          using a nucleotide query
blastp : search proein DB,                using a proein query

blastx : search protein DB,               using a translated nucleotide query
tblastx: search translated nucleotide DB, using a translated nucleotide query
tblastn: search translated nucleotide DB, using a protein query

blastn과 blastp의 경우 이름에 나와있다시피
크게 헷갈릴일이 없다. ^^
query와 db모두 같으니 말이다.

그러나 blastx/tblastn/tblastx의 경우 query와 db가 동일하지 않아서
많은 경우 헷갈리고 결국 구글님께 문의를 하게된다.

blast 앞에 t가 붙는 것은 search translated nucleotide DB
blast 뒤에 x가 붙는 것은 using a translated nucleotide query
로 외워주시면 다른 정보는 유추 가능하므로 헷갈리지 않겠지요.. ^^

사실.. 구글님께 때마다 여쭤보는게 사실 가장 편하고 빠르고 정확하긴 합니다. ㅋㅋ

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/11 21:40 2009/05/11 21:40
, , , , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/132

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/132

Leave a comment

Clustal 2.0.10 Command Line Parameters

사용예:
./clustalw2 -INFILE=input_file(경로를 포함해도 가능) -ALIGN -TREE -TYPE=PROTEIN -OUTFILE=output_file(경로를 포함해도 가능) 
-OUTPUT=output_format -MATRIX=GONNET -GAPOPEN=10.00 -GAPEXT=0.20
-MAXDIV=30 -GAPDIST=4

파라미터와 파라미터값 사이에 공백있으면 인식못함
-INFILE= input_file (X)
-INFILE=input_file  (O)

-TREE: 꼭필요없음, Tree를 그릴경우 옵션으로 기입.
-TREE는 항상 dnd 확장자로 저장된


CLUSTAL 2.0.10 Multiple Sequence Alignments


                DATA (sequences)

-INFILE=file.ext                             :input sequences.
-PROFILE1=file.ext  and  -PROFILE2=file.ext  :profiles (old alignment).


                VERBS (do things)

-OPTIONS            :list the command line parameters
-HELP  or -CHECK    :outline the command line params.
-FULLHELP           :output full help content.
-ALIGN              :do full multiple alignment.
-TREE               :calculate NJ tree.
-BOOTSTRAP(=n)      :bootstrap a NJ tree (n= number of bootstraps; def. = 1000).
-CONVERT            :output the input sequences in a different file format.


                PARAMETERS (set things)

***General settings:****
-INTERACTIVE :read command line, then enter normal interactive menus
-QUICKTREE   :use FAST algorithm for the alignment guide tree
-TYPE=       :PROTEIN or DNA sequences
-NEGATIVE    :protein alignment with negative values in matrix
-OUTFILE=    :sequence alignment file name
-OUTPUT=     :GCG, GDE, PHYLIP, PIR or NEXUS
-OUTORDER=   :INPUT or ALIGNED
-CASE        :LOWER or UPPER (for GDE output only)
-SEQNOS=     :OFF or ON (for Clustal output only)
-SEQNO_RANGE=:OFF or ON (NEW: for all output formats)
-RANGE=m,n   :sequence range to write starting m to m+n
-MAXSEQLEN=n :maximum allowed input sequence length
-QUIET       :Reduce console output to minimum
-STATS=      :Log some alignents statistics to file

***Fast Pairwise Alignments:***
-KTUPLE=n    :word size
-TOPDIAGS=n  :number of best diags.
-WINDOW=n    :window around best diags.
-PAIRGAP=n   :gap penalty
-SCORE       :PERCENT or ABSOLUTE


***Slow Pairwise Alignments:***
-PWMATRIX=    :Protein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-PWDNAMATRIX= :DNA weight matrix=IUB, CLUSTALW or filename
-PWGAPOPEN=f  :gap opening penalty       
-PWGAPEXT=f   :gap opening penalty


***Multiple Alignments:***
-NEWTREE=      :file for new guide tree
-USETREE=      :file for old guide tree
-MATRIX=       :Protein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-DNAMATRIX=    :DNA weight matrix=IUB, CLUSTALW or filename
-GAPOPEN=f     :gap opening penalty       
-GAPEXT=f      :gap extension penalty
-ENDGAPS       :no end gap separation pen.
-GAPDIST=n     :gap separation pen. range
-NOPGAP        :residue-specific gaps off 
-NOHGAP        :hydrophilic gaps off
-HGAPRESIDUES= :list hydrophilic res.   
-MAXDIV=n      :% ident. for delay
-TYPE=         :PROTEIN or DNA
-TRANSWEIGHT=f :transitions weighting
-ITERATION=    :NONE or TREE or ALIGNMENT
-NUMITER=n     :maximum number of iterations to perform
-NOWEIGHTS     :disable sequence weighting


***Profile Alignments:***
-PROFILE      :Merge two alignments by profile alignment
-NEWTREE1=    :file for new guide tree for profile1
-NEWTREE2=    :file for new guide tree for profile2
-USETREE1=    :file for old guide tree for profile1
-USETREE2=    :file for old guide tree for profile2


***Sequence to Profile Alignments:***
-SEQUENCES   :Sequentially add profile2 sequences to profile1 alignment
-NEWTREE=    :file for new guide tree
-USETREE=    :file for old guide tree


***Structure Alignments:***
-NOSECSTR1     :do not use secondary structure-gap penalty mask for profile 1
-NOSECSTR2     :do not use secondary structure-gap penalty mask for profile 2
-SECSTROUT=STRUCTURE or MASK or BOTH or NONE   :output in alignment file
-HELIXGAP=n    :gap penalty for helix core residues
-STRANDGAP=n   :gap penalty for strand core residues
-LOOPGAP=n     :gap penalty for loop regions
-TERMINALGAP=n :gap penalty for structure termini
-HELIXENDIN=n  :number of residues inside helix to be treated as terminal
-HELIXENDOUT=n :number of residues outside helix to be treated as terminal
-STRANDENDIN=n :number of residues inside strand to be treated as terminal
-STRANDENDOUT=n:number of residues outside strand to be treated as terminal


***Trees:***
-OUTPUTTREE=nj OR phylip OR dist OR nexus
-SEED=n        :seed number for bootstraps.
-KIMURA        :use Kimura's correction.  
-TOSSGAPS      :ignore positions with gaps.
-BOOTLABELS=node OR branch :position of bootstrap values in tree display
-CLUSTERING=   :NJ or UPGMA




 

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/01/09 17:34 2009/01/09 17:34
,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/62

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/62

Leave a comment

[EMBOSS] transeq

Transeq

Function: Translate nucleic acid sequence

Usage:
# transeq input_files output_files

그외에 옵션사용시
frame지정할 수 있음. Forward/Reverse 혹은 1,2,3/-1,-2,-3
6은  All six frame대하여 수행
# transeq input_files output_files -frame 6
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/01/07 13:59 2009/01/07 13:59
,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/61

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/61

Leave a comment

DNA Club 사용법


사용자 삽입 이미지
DNA club 실행 후 DNA (or Protein) 서열을 붙이 모습

사용자 삽입 이미지
일반적으로 서열 작업을 할 때 쓰는 기능 [Convert]

사용자 삽입 이미지
[Reverse] 버튼을 클릭하면 새로운 창에 원래 서열에 대해서 역순의 서열이 만들어 진다.

사용자 삽입 이미지
[Reverse+Complement] 버튼을 누르면 역순에 상보적인 서열이 새창에 만들어진다.

사용자 삽입 이미지
서열을 변환시키는 것을 숙지하였으면 다음에 Primer를 만드는 방법에 대해서 보자.
[PCRPrimers]라는 기능을 사용하여 제작할 수 있다.

사용자 삽입 이미지
[PCRPrimers]라는 기능 및에 Start Primer Selection 이라는 기능이 제공되고 있지만,
여기에서는 하나씩 만드는 방법을 다루도록 하겠다.

사용자 삽입 이미지
[PCRPrimer] 밑에 [Evaluate a Primer] 기능은 임의로 선택한 서열이
primer로 사용 가능한지 판단할 수 있는 몇몇 변수들을 보여준다.

사용자 삽입 이미지
18-21/24-27bp 정도를 선택하여 primer로 적합한지 확인 할것.
몇가지를 고려 해주어서 확인.
Dimer/Hairpin Formation 갯수는 적을수록
End Stability 는 High
GC content는 너무 눞지 않게
Tm값은 일정하게 (Forword가 55도이면 Reverse도 55도)
하는것이 좋다.

다음은 primer 제작에 고려되어야 할 사항들을 요약한 것이다.


크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2008/11/17 03:14 2008/11/17 03:14
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/60

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/60

Leave a comment

BlastClust

Using BLASTClust to Make Non-redundant Sequence Sets

BLASTClustis a program within the standalone BLAST package used to cluster eitherprotein or nucleotide sequences. The program begins with pairwisematches and places a sequence in a cluster if the sequence matches atleast one sequence already in the cluster. In the case of proteins, theblastp algorithm is used to compute the pairwise matches; in the caseof nucleotide sequences, the Megablast algorithm is used.

Inthe simplest case, BLASTClust takes as input a file containingcatenated FASTA-format sequences, each with a unique identifier at thestart of the definition line. BLASTClust formats the input sequence toproduce a temporary BLAST database, performs the clustering, andremoves the database at completion. Hence, there is no need to runformatdb in advance to use BLASTClust. The output of BLASTClustconsists of a file, one cluster to a line, of sequence identifiersseparated by spaces. The clusters are sorted from the largest clusterto the smallest.

BLASTClust accepts a number ofparameters that can be used to control the stringency of clusteringincluding thresholds for score density, percent identity, and alignmentlength. The BLASTClust program has a number of applications, thesimplest of which is to create a non-redundant set of sequences from asource database. As an example, one might have a library of a fewthousand short nucleotide sequence reads and wish to replace these witha non-redundant set. To produce the non-redundant set, one might use:

blastclust -i infile -o outfile -p F -L .9 -b T -S 95

Thesequences in "infile" will be clustered and the results will be writtento "outfile". The input sequences are identified as nucleotide (-p F);"-p T", or protein, is the default. To register a pairwise match twosequences will need to be 95% identical (-S 95) over an area covering90% of the length (-L .9) of each sequence (-b T) . Using "-b F"instead of "-b T" would enforce the alignment length threshold on onlyone member of a sequence pair. The parameter "S", used here to specifythe percent identity, can also be used to specify, instead, a "scoredensity." The latter is equivalent to the BLAST score divided by thealignment length. If "S" is given as a number between 0 and 3, it isinterpreted as a score density threshold; otherwise it is interpretedas a percent identity threshold.

To create a stringent non-redundant protein sequence set, use the following command line:

blastclust -i infile -o outfile -p T -L 1 -b T -S 100

Inthis case, only sequences which are identical will be clusteredtogether. The “blastclust.txt” file in the standalone BLAST packagedetails the full range of BLASTClust parameters.
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2008/08/25 02:29 2008/08/25 02:29
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/40

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/40

Leave a comment

블로그 이미지

gwLee's Study story

- gwlee



Site Stats

Total hits:
50005
Today:
12
Yesterday:
59