質問:
構造バリアントVCFの読み方は?
SmallChess
2017-05-29 11:25:31 UTC
view on stackexchange narkive permalink

IGSRには、VCF4.0形式で構造バリアントをエンコードするためのサンプルがあります。

サイトの例(最初のレコード):

  #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA0000112827693。 CCGTGGATGCGGGGACCCGCATCCCCTCTCCCTTCACAGCTGAGTGACCCACATCCCCTCTCCCCTCGCAC。 PASS SVTYPE = DEL; END = 2827680; BKPTID = Pindel_LCS_D1099159; HOMLEN = 1; HOMSEQ = C; SVLEN = -66 GT:GQ 1/1:13.9  

読み方は?私が見ることができるものから:

  • これは削除です( SVTYPE = DEL
  • バリアントの終了位置は開始位置の前にあります(逆ストランド?)
  • 参照は 2827693 から 2827680 (逆ストランドに13ベース)で始まります
  • 違い参照と代替の間にあるのは 66 ベース( SVLEN = -66

これは私には正しく聞こえません。たとえば、削除がどこから始まるのか正確にはわかりません。 SVLEN フィールドには、 66 ベースが削除されたと表示されますが、どこにありますか? 2827693 から 2827680 の間に13塩基しかありません。

Q:この構造VCFレコードから削除を正しく読み取る方法?不足している66-13 = 53塩基はどこにありますか?

その例では、 `END`値が単に間違っていると確信しています。たぶん、info @メールアドレスにこれに関するメモを送って、彼らがそれを修正できるようにしてください。
私はこれについて1000人ゲノムプロジェクトに自由に尋ねました。受け取ったときにまだ関連性がある場合は、返信を投稿します。
この行はいくつかの面で間違っています。 VCF4.0は5年前のものであり、長い間非推奨になっています。その仕様もgithubに移動されました。代わりに、[最新の仕様](https://samtools.github.io/hts-specs/VCFv4.3.pdf)をお読みください。そこにあるSVの例は正しいです。
これは、として報告されたときに、2015年に維持されていたVCF仕様で修正されました。
二 答え:
#1
+8
Devon Ryan
2017-06-06 02:05:51 UTC
view on stackexchange narkive permalink

これに関して1000人ゲノムから返信がありました。以下にその全体を投稿します。

あなたが言及した例を見ると、記載された目的が正しいように見える情報の解釈を思い付くのは難しいと思います。

v4.0が作成されてから、新しいバージョンのVCFが導入され、仕様が改善および修正されました。現在のバージョンはv4.3( http://samtools.github.io/hts-specs/)です。 11ページに示されている最初のレコードは、このタイプの削除の正確な例を示していると思います。

この情報を含めるようにWebページを更新します。

これは、例が間違っていると疑って私たち全員が正しかったという公式の確認と見なすことができます。

それは素晴らしいフォローアップでした! :)
#2
+4
terdon
2017-05-30 03:34:37 UTC
view on stackexchange narkive permalink

それで、最初に、他の人が指摘しているように、私はその例がちょうど間違っていると確信しています。少なくとも、あなたが指摘したように、数字は一致しません。

とはいえ、VCFファイルのヘッダーも表示せずに確認することは不可能です。 INFOフィールド(VCFファイルの5番目のフィールド)は非常に可変であり、ヘッダー行に完全に依存します。 VCFを実装する各プログラム(または人間)は、INFOフィールドに好きなものを自由に選択できます。ただし、各 IDENTIFIER = には、ファイルの先頭に関連するINFO行が必要です。

したがって、 SVTYPE SVLEN HOMLEN などがコメントされます(#で始まります) code>)これらの値が何であるかを説明するファイルの先頭の行。ですから、それらをチェックしてください。それらは比較的標準的ですが、あなたは決して知りません。あなたが使用した明らかな読みは、それがとても合理的であるように見えても間違っているかもしれません。

現在の VCF仕様から取得したSVのVCFラインの新しい例を次に示します。

  ## fileformat = VCFv4.1# #fileDate = 20100501 ## reference = 1000GenomesPilot-NCBI36 ## assembly = ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/release/sv/breakpoint_assemblies.fasta ## INFO = <ID = BKPTID、Number = 。、Type = String、Description = "アセンブリファイル内のアセンブルされた代替対立遺伝子のID" > ## INFO = <ID = CIEND、Number = 2、Type = Integer、Description = "不正確なバリアントのEND周辺の信頼区間" ># #INFO = <ID = CIPOS、Number = 2、Type = Integer、Description = "不正確なバリアントのPOS周辺の信頼区間" > ## INFO = <ID = END、Number = 1、Type = Integer、Description = "の終了位置このレコードで説明されているバリアント "> ## INFO = <ID = HOMLEN、Number =。、Type = Integer、Description ="イベントブレークポイントでのベースペアの同一のマイクロホモロジーの長さ ">
## INFO = <ID = HOMSEQ、Number =。、Type = String、Description = "イベントブレークポイントでのベースペアの同一のマイクロホモロジーのシーケンス" > ## INFO = <ID = SVLEN、Number =。、Type = Integer、Description = "REFアレルとALTアレルの長さの違い" > ## INFO = <ID = SVTYPE、Number = 1、Type = String、Description = "構造バリアントのタイプ" > ## ALT = <ID = DEL、Description = "Deletion" > ## ALT = <ID = DEL:ME:ALU、Description = "ALU要素の削除" > ## ALT = <ID = DEL:ME:L1、Description = "L1要素の削除" > ## ALT = <ID = DUP、 Description = "Duplication" > ## ALT = <ID = DUP:TANDEM、Description = "Tandem Duplication" > ## ALT = <ID = INS、Description = "新しいシーケンスの挿入" > ## ALT = <ID = INS:ME: ALU、Description = "ALU要素の挿入" > ## ALT = <ID = INS:ME:L1、Description = "L1要素の挿入" > ## ALT = <ID = INV、Descripti on = "Inversion" > ## ALT = <ID = CNV、Description = "コピー番号可変領域" > ## FORMAT = <ID = GT、Number = 1、Type = String、Description = "Genotype" > ## FORMAT = <ID = GQ、Number = 1、Type = Float、Description = "遺伝子型の品質" > ## FORMAT = <ID = CN、Number = 1、Type = Integer、Description = "不正確なイベントのコピー番号の遺伝子型" > ## FORMAT = <ID = CNQ、Number = 1、Type = Float、Description = "不正確なイベントのコピー番号の遺伝子型の品質" >#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA000011 2827694 rs2376870CGTGGATGCGGGGACC。 PASS SVTYPE = DEL; END = 2827708; HOMLEN = 1; HOMSEQ = G; SVLEN = -14 GT:GQ 1/1:13.9  

数値がどのように一致するか、またどのように一致するかに注意してくださいINFOフィールドの各サブフィールドは、 ## INFO 行で説明されています。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...