Formatdb Manual

NCBI에서 제공되는 formatdb에 대한 메뉴얼
blast-2.2.18을 기준으로 작성합니다. 현재 2.2.20이 나와있죠??
아마 옵션은 거의 동일할것입니다.
-제가 자주 쓰는 옵션 중심으로 설명합니다.

-t  데이터베이스에 Title걸어주는 옵션. 사용안해봐서 모르겠음. Maybe 일반적으로 input_filename에 대해서 결과 파일이 나오는데 결과파일의 이름을 바꿔주는 옵션일 수도.

-i 데이터베이스 만들려고 하는 파일
ex) -i database_file_name


-l formatdb시 생설될 로그 파일 이름 설정 옵션 설정 안해도 formatdb.log라는 파일 생성

-p input 파일 타입 설정. 기본적으로 protein 서열들이 들어올것으로 설정되어 있음.
ex) -p T (inputfile이 protein 서열)
      -p F (inputfile이 nucleotide 서열)


-o Parse 옵션. NCBI에서 받은 정형화된 서열 format이 아니라면 F가 상책
임의의 fasta 파일의 경우 -o T 해주면 formatdb 생성 안됨.
ex) -o {T/F}


input파일이 ASN.1 형식의 파일일 경우 사용되는 옵션
 -a  Input file is database in ASN.1 format (otherwise FASTA is expected)
 -b  ASN.1 database in binary mode
지금까지 한번도 사용안해봄. 대충 감은 오시죠???
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/21 20:55 2009/05/21 20:55
,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/143

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/143

Leave a comment

Blastpgp Manual

NCBI에서 제공되는 Blastpgp에 대한 메뉴얼
blast-2.2.18을 기준으로 작성합니다. 현재 2.2.20이 나와있죠??
아마 옵션은 거의 동일할것입니다.
제가 많이 사용하는 것을 중심으로 설명합니다.

-d blast를 돌리기 위한 데이터베이스 선택하는 옵션

ex) -d {nr|nt|your_database_file}
blast에서 데이터베이스로 사용하기 위해서는 fasta파일을 formatdb로 blast에 사용할 수 있는 데이터베이스로 변환시켜주어야 사용 가능. formatdb 수행후 붙는 확장자 명은 적어주지 않아도 됨. 파일이름 적음.


-i 검색해보고 싶은 서열(들) 입니다. Query 파일은 fasta format으로 되어있어야 함.

ex) -i your_query_file.seq 현재폴더에 있는 서열 파일
      -i /your/query/directory/query.fasta 다른 폴더에 있는 서열 파일


-e Expectation value를 정해줘서 설정된 값보다 크면 결과에 포함시키지 않는 옵션. 일반적으로 blastn의 경우 1e-06/1e-12, blastp의 경우 1e-03/1e-06으로 설정하고 상황마다 조정하면서 사용.

ex) -e 1e-06


-m 결과 파일을 저장할때의 format 결정 옵션. 일반적으로 로컬에서 blast를 돌리시려는 분들은 대량의 서열을 분석하기 위함이니, -m 8이 결과 파일을 분석하기 용이함,

ex) -m 8


-o Blast 결과 파일 설정하는 옵션

ex) -o your_output_file


-M blast를 실행시킬때 Matrix를 사용하게 하는 옵션. 서열과 서열을 비교하면서 weight를 주어서 peptide 서열을 검색할때 사용됨. 기본값은 BLOSUM62.
Matrix는 /your_blast_folder/data/ 밑에 있음.

ex) -M {BLOSUM62|PAM250|your_matrix}


-a CPU가 1개 이상일때 blast 수행시 하나 이상의 cpu를 사용하게 하는 옵션

ex) -a 2


-j Blastpgp의 반복 옵션. Blast를 한번만 수행하는 것이 아니라 검색한 결과를
기반으로 처음보다 더 좋은 결과를 이끌어 내게끔 검색 횟수를 반복시켜 주는것.

ex) -j {3|5|your_choice}
그냥 blast만 반복하는 것이 아니라 매 결과를 가지고 pssm을 만들어서 다음 blast에 matrix로 참조(아닌가?? ㅋ)



-p PHI-Blast를 위한 프로그램 옵션

ex) -p {patseedp|seedp}


-k blast 수행시 패턴을 이용해서 blast를 수행하게 한다.

ex) -k pattern_file


-file format은 prosite에서 제공되는 형식임.

보기


-B Alignment 파일 사용 옵션. PSI-Blast에서 PSSM 만들때 유저가 관여할 수 있게 해주는것 같음.

ex) -B alignment_file


Alignment file format (clustalw/clustalx의 aln 형식의 파일이면 사용 가능)

보기



참고 사이트 rcc.uga.edu



크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/21 20:37 2009/05/21 20:37
, , , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/142

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/142

Leave a comment

Blastall Manual


NCBI에서 제공되는 Blastall에 대한 메뉴얼
blast-2.2.18을 기준으로 작성합니다. 현재 2.2.20이 나와있죠??
아마 옵션은 거의 동일할것입니다.
제가 많이 사용하는 것을 중심으로 설명합니다.

-p 5개의 기본 blast 프로그램중 하나를 선택하는 옵션
ex) -p {blastn|blastp|blastx|tblastn|tblastx}

-d blast를 돌리기 위한 데이터베이스 선택하는 옵션
ex) -d {nr|nt|your_database_file}
blast에서 데이터베이스로 사용하기 위해서는 fasta파일을 formatdb로 blast에 사용할 수 있는 데이터베이스로 변환시켜주어야 사용 가능. formatdb 수행후 붙는 확장자 명은 적어주지 않아도 됨. 파일이름 적음.

-i 검색해보고 싶은 서열(들) 입니다. Query 파일은 fasta format으로 되어있어야 함.
ex) -i your_query_file.seq 현재폴더에 있는 서열 파일
      -i /your/home/path/query.fasta 다른 폴더에 있는 서열 파일

-e Expectation value를 정해줘서 설정된 값보다 크면 결과에 포함시키지 않는 옵션. 일반적으로 blastn의 경우 1e-06/1e-12, blastp의 경우 1e-03/1e-06으로 설정하고 상황마다 조정하면서 사용.
ex) -e 1e-06

-m 결과 파일을 저장할때의 format 결정 옵션. 일반적으로 로컬에서 blast를 돌리시려는 분들은 대량의 서열을 분석하기 위함이니, -m 8이 결과 파일을 분석하기 용이함,
ex) -m 8


-o Blast 결과 파일 설정하는 옵션
ex) -o your_output_file


-M blast를 실행시킬때 Matrix를 사용하게 하는 옵션. 서열과 서열을 비교하면서 weight를 주어서 peptide 서열을 검색할때 사용됨. 기본값은 BLOSUM62.
Matrix는 /your_blast_folder/data/ 밑에 있음.
ex) -M {BLOSUM62|PAM250|your_matrix}

-a CPU가 1개 이상일때 blast 수행시 하나 이상의 cpu를 사용하게 하는 옵션
ex) -a 2

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/05/21 20:12 2009/05/21 20:12
, , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/141

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/141

Leave a comment

NCBI Refseq


출처: NCBI's Resseq Site

Query Restriction Accession Prefix Retrieved Description
srcdb_refseq[prop] NC_, AC_, NG_, NT_, NW_, NZ_, NM_, NR_, XM_, XR_, NP_, AP_, XP_, ZP_ All NCBI RefSeq records
Try It: Nucleotide  Protein
srcdb_refseq_reviewed[prop] NC_, NT_, NW_, NG_, NM_, NR_, NP_, YP_ reviewed records (curated)
Try It: Nucleotide  Protein
srcdb_refseq_provisional[prop] AC_, NC_, NT_, NW_, NG_, NM_, NP_, AP_, XM_, XP_ provisional records (not curated)
Try It: Nucleotide  Protein
srcdb_refseq_predicted[prop] NG_, NM_, NR_, NP_, ZP_ predicted records (not curated)
Try It: Nucleotide  Protein
srcdb_refseq_validated[prop] NC_, NG_, NM_, NR_, NP_, YP_ validated records (curated)
Try It: Nucleotide  Protein
srcdb_refseq_inferred[prop] AC_, NG_, NM_, NP_ inferred records (not curated); annotation inferred based on alignments from other genes or organisms
Try It: Nucleotide  Protein
srcdb_refseq_known[prop] NC_, NT_, NW_, NG_, NM_, NP_, AP_, YP_, ZP_ reviewed, validated, provisional, predicted, inferred nucleotide or protein; excludes RefSeq records that are provided by the NCBI genome annotation pipeline (some NT_, NW_, and all XM_, XR_, XP_ accessions).
Try It: Nucleotide  Protein
srcdb_refseq_model[prop] NT_, NW_, XM_, XR_, XP_ RefSeq records generated by the NCBI genome annotation pipeline (not curated); model records
Try It: Nucleotide  Protein
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2009/04/21 21:49 2009/04/21 21:49
,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/145

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/145

Leave a comment

Local에서 Blast 작업 돌리기

BLAST는 최근 생명공학을 하는데 기본 도구중에
하나가 되었지만 그럼에도 많은 연구자들이 BLAST를
제대로 사용하지 못하고 있는 것이 현실이다.

BLAST를 수행하는데 Database가 NCBI나 다른 여타의 사이트에서
제공안되는 Database를 이용해야만 되는 경우가 발생하면 어떻게 할 것인가?

혹은 BLAST를 해야할 Query가 수십개가 아닌 수백, 수천개라면
어떻게 할 것인가?

이런경우 자신의 컴퓨터에서 BLAST를 수행하게 된다면 원하는 작업을
손쉽고 빠르게 할 수 있다.

BLAST 프로그램은 대부분 연구자들이 알고 있듯이
NCBI에서 다운로드 받을 수 있다.
ftp://ftp.ncbi.nih.gov/blast/executables/release
위의 ftp 주소에 들어가 자신의 플랫폼에 맞는 파일을 다운로드 받으면 일단 BLAST를
수행할 수 있는 준비가 된다.

다운로드 받은 압축 파일(실행파일(*.exe)로 압축되어있는)을 풀면
bin, data, doc 세개의 폴더가 나타난다.
BLAST를 직접 수행하는 실행파일은 bin 폴더안에 있다.

기본적으로 BLAST를 사용하기 위해서 두개의 파일이 필요하다.
blastall과 formatdb이다.
blastall은 일반적인 blast, 즉 blastn, blastp, blastx, tblastx,tblastn를 수행할 때 사용된다.
formatdb는 blast를 할 수 있는 database를 만들어 주는 파일이다.
blast에 사용되는 database는 항상 ncbi나 다른 웹사이트에서 제공해주는 것이 아니기
때문에 자신만의 database를 만들 수 있어야 한다.

formatdb -i INPUT_FILE -p T|F -o T|F

- i INPUT_FILE은 fasta form을 따르는 서열들이 모인 파일이면 문제없다.
- p INPUT_FILE이 DNA서열인지  Protein 서열인지 확인하는 옵션값 protein의 경우 T
- o INPUT_FILE를 paser하는 옵션 NCBI에서 수집한 서열의 경우 -o T를 하여도 문제 없지만, NCBI의 form을 완벽하게 따르지않았다면 F 값을 사용.

blastall -p SELET_PROGRAM -i INPUT_FILE -d DATABASE_FILE -o OUTPUT_FILE  -m  OUTPUT_FORMAT

- p 어떤 blast 프로그램을 사용할지 선택
- i Query가 될 서열, 하나의 서열 혹은 다수의 서열이 하나의 파일에 존재 할 수 있다.
- d blast할 database
-o blast를 수행한 후 결과를 저장할 파일 이름을 지정한다.
-m -m 옵션을 지정하지 않으면 NCBI에서 blast를 수행한 화면을 볼 수 있다. 만약 다른 정보들은 필요 없고, 어느 서열이 어떤 서열과 유사성이 있는지 환인 할 수 있는 정보만 필요하다면 -m의 옵션값을 조절하여 원하는 정보만 저장 할 수 있다. 본인의 경우 -m 8을 많이 애용


크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by gwlee

2008/08/25 02:09 2008/08/25 02:09
, , ,
Response
0 Trackbacks , 0 Comments
RSS :
http://thegreatgoodplace.com/tt/study/rss/response/26

Trackback URL : http://thegreatgoodplace.com/tt/study/trackback/26

Leave a comment

블로그 이미지

gwLee's Study story

- gwlee



Site Stats

Total hits:
50106
Today:
30
Yesterday:
83