質問:
一般的なバイオインフォマティックファイル形式のテンプレートのデータベースはありますか?
Chris_Rands
2017-06-02 19:08:50 UTC
view on stackexchange narkive permalink

スクリプトをテストし、コードで発生する可能性のあるバグを特定するために使用できる、さまざまなファイル形式のテンプレートが必要です。

たとえば、単純ですが悪用されることが多い形式であるヌクレオチドFASTAについて考えてみます。私がこれらすべてを見たように、テンプレートに規則的な形式と不規則な形式をキャプチャさせたい:

1)単一行シーケンス

  >1ATG  

2)複数行のシーケンス

  >1ATG  

3)大文字と小文字のシーケンス

  >1Atg  

4)NとX(および場合によっては他の文字)を順番に

  >1ANnxX  

5)異常なヘッダー(非ASCI文字の場合もありますが、エンコーディングを考慮する必要があります)

  >ATG>汉字ATG  

6)レコード間の空白

  >1ATG>2ATG  

7)重複したヘッダー

  >1ATG>1ATC  

8)空のヘッダーまたはシーケンス(有効なFASTA ?)

  >>  

9)最後の行に改行 '\ n' 文字がありません(ファイルを台無しにする可能性があります)連結)

  >1A#<ここに改行はありません 

10)OSに応じて異なる改行文字

  >1A#\ r \ n vs \ n  

など

ヌクレオチドとタンパク質のFASTAには別々のテンプレートが必要であり、整列したFASTAには別々のテンプレートが必要です。

理想的には、さまざまな圧縮形式( .gz .bzip2 など)やさまざまなファイル拡張子(など)など、他の側面も含まれます。 fa .fasta )。

これらをカバーするテンプレートを提供するリソースを見たことがありませんが、役立つと思います。もちろん、独自のテンプレートを作成することもできますが、特により複雑なファイル形式の場合は、フォーマットの考えられるすべてのバリエーションをキャプチャするのに時間がかかります。

注:私はFASTA形式に興味があるだけでなく、例でした。

また、多くの形式を処理する必要があるツール( BioPython など)についても知っています。まあ、しかし彼らはまたバグを持っているかもしれません。とにかく、実際には、外部パッケージのオーバーヘッドや依存関係が必要ないため、ファイルを自分で直接解析することになることがあります。

編集:この質問に答えないでください。そのようなリソースを知らない、私も知らないので、質問です。 bliの役立つ回答は、出発点として使用できるテストスイートが少なくとも1つあることを示しています。通常、特定のファイル形式の仕様を調べるのは簡単です。

実際、FASTA形式の定義は非常に単純です。制約は2つしかなく、2番目は無視されることがよくあります。i)ヘッダー行は `>`で始まる必要があり、 `\ n`以外は好きなものを含めることができます。 ii)シーケンス行は1行あたり60文字である必要があります。シーケンス行の数、ヘッダー内の文字、拡張子(通常はWindowsの世界以外では関係ありません)、シーケンスに含めることができる文字に制約はありません(したがって、違いはありません)。タンパク質およびヌクレオチドfasta仕様)。
確かに、仕様は単純ですが、実際には必ずしも従う必要はなく、ファイルを解析すると、これらすべてのバリエーションが関連するようになります。私は多くのツールが奇妙なFASTAヘッダーまたは配列につまずいてきましたが、明らかにツールがヌクレオチドとアミノ酸を区別することが重要です。たとえば、特定のサフィックスが1つしかないファイルを「グロブ」することができます。
ツールがそれに窒息する場合、それは標準を無視しているツールです。 FASTA規格は、実際に明確で理解しやすい数少ない規格の1つです。それは単に非常に自由なフォーマットです。もちろん、拡張機能をグロブすることもできます。たとえば、私はプロテインファイルに `.pep`とnt`.fa`という名前を付ける傾向がありますが、これに対する標準はありません。ツールが行う必要があるのは、i) `>`の後の行全体をシーケンス名として取得し、ii)その他すべてをシーケンスとして取得することです。それがすべてであり、fastaであるために必要なのはそれだけです。
確かに、ツールは標準を無視する可能性があります。そのため、ツールをテストするためにさまざまなテンプレートを用意しておくとよいと思います。そして、それは必ずしも単純ではありません。 FASTAヘッダーを使用して後続のファイルに名前を付ける場合、特殊文字が煩わしい場合があります。とにかく、私がFASTAは単なる例であると言ったように、ロジックは他のより複雑なフォーマットに拡張されます
「私はFASTA形式に興味があるだけでなく、それは一例でした」とおっしゃっていますが、質問はできるだけ具体的にするのが最善であることに留意してください。
6 答え:
#1
+7
bli
2017-06-02 21:18:49 UTC
view on stackexchange narkive permalink

テストが含まれているBiopythonについて言及しました: https://github.com/biopython/biopython/tree/master/Tests

テストの一部は読み取りで構成されています上記のリンクにリストされているフォルダーに存在するファイル。これらのファイルは、テストファイルのデータベースの開始点になる可能性があります。これらのファイルでカバーされていないテストケースに出くわしたときはいつでも、新しいテストファイルを作成して、テストとともにBiopythonに提供するか、少なくとも問題を報告することができます: https://github.com/biopython / biopython / issues

これは、テストファイルのデータベースを構成しながらBiopythonに貢献する方法です。

おかげで、私はこのアイデアが好きです。 BioPerlや他のプロジェクトにも、使用できる同様のテストスイートが含まれているのだろうか。
ここでの「私も」:BioPythonの例またはテストデータを他のプログラムのテストデータとして使用することがあります。あなたは少なくともそれが有効であるという保証を持っています。 Galaxyツールで同様の有用なデータが見つかるかもしれません。
#2
+5
olga
2017-06-03 00:44:01 UTC
view on stackexchange narkive permalink

私が知っているわけではありません。コーディングするときは、フォーマットの仕様に従うのが最善です。

また、ファイルの変換と処理を実行するさまざまなツールに付属しているサンプルファイルを確認することもできます。例えば。

#3
+2
woemler
2017-06-02 22:08:55 UTC
view on stackexchange narkive permalink

私の知る限り、バイオインフォマティクスで使用される一般的なデータ形式をすべて収集する単一のリポジトリはありません。通常、各フォーマットの仕様を見つけるには、ソースにアクセスする必要があります。ただし、ファイル形式の説明を収集する場所はいくつかあります。

  • IGVファイル形式は、BroadInstituteのIntegrativeGenomics Viewerソフトウェアで使用できるすべての形式を網羅しています(
  • NCIファイル形式、主にTGCAで使用される形式(MAFとVCFを含む)。
  • UCSCゲノミクスは、BED、MAF、およびその他のいくつかをカバーしています。
  • GenePatternは、マイクロアレイデータに関連する多くのファイル形式をカバーしています。
  • GSEA、Broad Gene Set EnrichmentAnalysisドキュメント。
#4
+2
jgreener
2020-03-31 16:26:12 UTC
view on stackexchange narkive permalink

BioJuliaは BioFmtSpecimensを維持しています。 READMEから:

バイオインフォマティクスには、フォーマットとそれらのフォーマットのパーサーがたくさんあります。これらのパーサーは、これらの形式の定義に常に同意しているわけではありません。多くの場合、正式な標準がないためです。

このリポジトリは、形式の標本のコレクションを統合して、統合されたデータセットを作成することを目的としています。に対してソフトウェアをテストします。同じケースに対してテストすることは、フォーマットの詳細とエッジケースについて合意するための最初のステップです。

#5
+1
terdon
2017-06-02 19:24:56 UTC
view on stackexchange narkive permalink

いいえ。少なくとも私が聞いたことはなく、これからもそうなるとは思えません。フォーマットの中央リポジトリはなく、各ツール、コミュニティ、フィールドなどには独自のリポジトリがあります。

できる最善のことは、各形式の公式標準を調べて、例が含まれていることを期待することです。 VCFのような恐ろしい del>複雑なフォーマットでは、考えられるすべてのバリエーションの真に包括的なコレクションを持つことは基本的に不可能です。任意の内容のユーザー定義の INFO フィールドを許可するという単純な事実を考えてみてください。

したがって、できる最善のことは、スクリプトが標準に準拠していることを確認し、入力も準拠していることを期待することです。

最も一般的な形式のテンプレートを備えた中央リポジトリが存在する可能性があります。なぜだかわかりませんか?もちろん、完全に包括的であることはできません。私にはこれは良い考えのように思えます...
原則として、@Chris_Randsは、生物学において一元化された*何か*が非常に少ないのが残念です。これは、この分野の一般的な問題です。そうは言っても、私はこれの使用法を実際には見ていません。必要なのは標準です。さまざまな方法で適用されている標準の複数の例は、私にはそれほど役に立たないようです。少なくとも、標準が明確に定義されている場合はそうではありません(常にそうであるとは限りません)。考えてみると、生物学だけでなく、一般的にそのようなフォーマット例のリポジトリは考えられません。
おかげで、私は標準化/中央集権化の欠如について同意します。私の主な用途は、テストケース/単体テストです。仕様を知ることは1つのことですが、すべてのエッジケースを見つけることは、テストせずに難しい場合があります
@Chris_Rands s / tricky / impossible :)私は今、学界で10年半を過ごした後、産業界で働いていますが、「vcfファイル」として送信されたがらくたを*信じられない*でしょう。すべてのエッジケースをカバーする方法はありません。一部の人々は、拡張子が.vcfのExcelファイルを提供し、それが機能することを期待します:(
各フォーマットのエッジケースの例を含むgithubリポジトリは素晴らしいアイデアだと思います-誰かがフォーマットで何かをした新しい方法に出くわすたびに、リポジトリでPRを発行できます。
#6
  0
tweirick
2017-06-02 19:24:46 UTC
view on stackexchange narkive permalink

これらはあなたが探しているものと正確に一致しないかもしれませんが、例を含む幅広いフォーマットが含まれています。さらに必要な場合は、他のタイプをホストしている他の主要なデータベースを検索してみてください。 Uniprot、PDB、NCBI。

https://genome.ucsc.edu/FAQ/FAQformat.html

http://www.ensembl.org/info /website/upload/bed.html

おかげで、私はUCSCとEnsemblとそれらのフォーマットの説明に精通していますが、それは私がテンプレートによって意味したことではありません


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...