質問:
ヒトゲノムのVCFが与えられた場合、既知のSNVに対して品質を評価するにはどうすればよいですか?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

私が持っているヒトゲノムのVCFの品質をチェックするためのツールを探しています。他のヒトゲノム全体で公に知られている変異体に対してVCFをチェックしたいと思います。挿入/削除が既知の位置にあるかどうか、挿入/削除の長さの分布、他のSNV / SVなど、すでに公開データベースにあるSNPの数はいくつですか。以前のプロジェクトから、人間の亜集団による既知のSNPとInDelsをチェックするためのリソースがあると思います。

これにはどのようなリソースがあり、どうすればよいですか?

三 答え:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

(少なくともいくつかの)目標を達成するには、 Variant Effect Predictor(VEP)をお勧めします。これは、入力.vcfファイルにいくつかのタイプの注釈を提供する柔軟なツールです。 ExACがコーディング領域におけるヒトの遺伝的変異の事実上のゴールドスタンダードカタログであることに同意します。グローバルサブポピュレーションによるバリアントの頻度分布を確認するには、1000人のゲノムに加えて「ExAC対立遺伝子頻度」がチェックされていることを確認してください。 VEP ExAC

Webブラウザでの出力: VEP_ExAC_res

注釈付きの.vcfをダウンロードした場合、頻度 INFO フィールドに表示されます:

  ## INFO = <ID = CSQ、Number =。、Type = String、Description = "EnsemblVEPからの結果アノテーション。形式:Allele | Consequence | IMPACT | SYMBOL | Gene | Feature_type | Feature | BIOTYPE | EXON | INTRON | HGVSc | HGVSp | cDNA_position | CDS_position | Protein_position | Amino_acids | Codons | Existing_variation | DISTANCE | STRAND | FLAGS | SYMBOL_SOURCE | HGNC_ID | TS | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_NFE_AF | POS_FIN_AF | ExAC_NFE_AF | EXAC_FIN_AF | ExAC_NFE_AF | ExAC_OTH_AF  

前述のAnnovarは、 ExACアレル頻度で注釈を付けることもできます。最後に、最新の全ゲノムリソースである gnomADについて言及する必要があります。

非常に良い提案。私の理解では、ExACは約123KのエクソームとgnomADには現在約15Kのゲノムがあります
これらはすべて素晴らしい答えですが、これはコミュニティのお気に入りのようですので、「答え」としてマークします。しかし、将来の読者:他の人を見てください!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

最大のタンパク質コーディングバリアントカタログは、間違いなく ExAC(> 65k人)です。彼らはまた、紙に図を再現する方法を説明するブログ投稿を公開しました(データセットに精通するための良いスタートです)。

全体について-ゲノムバリアント 1000人ゲノムプロジェクトによって作成されたデータを調べます(最新のリリースには3000人以上の個人がいます)。統合されたバリアントコールセットは、ポータルおよびSVのカタログがここにあります。

これでダウンロードできます。論文(1000人ゲノムプロジェクト)は、SV発信者によるSVの不正確な配置について語っています。あなたのゲノムを既知の変異体と比較するために、これを覚えておきます。

助けてくれてありがとう。必要なperlスクリプトを説明している `guide`のハイパーリンクに少し混乱しています。このスクリプトを使用すると、集約された約2.5Kの個人からVCFが作成されますか?
スクリプトは[VCFtools](http://vcftools.github.io/)の一部であり、ソースコードではなくパッケージのマニュアルにリンクされています。スクリプトをダウンロードするだけでなく、パッケージをインストールする必要があります。また、ウェルページでポータルを開始したことがわかったので、回答を編集しました。
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

最善の策は、VCFに存在するバリアントの完全な注釈を提供するプログラムを使用することです。 2つの例は、 snpEff Annovarです。これらのプログラムは、既知のバリアントで動作し、さまざまなソースと見なされ、ファイル内の各アイテムに関する情報を提供します。この情報をフィルタリングして、各バリアントの影響を理解することができます。

ANNOVARでgnomADにアクセスできるようになりました。これはかなりクールです。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...