質問:
単一のVCFファイルで祖先/混合テストを実行するにはどうすればよいですか?
gringer
2017-06-06 17:44:58 UTC
view on stackexchange narkive permalink

これはredditの / u / beneficii9からの質問です。元の投稿はここにあります。

Personal Genome Projectを通じて、Veritasによって全ゲノムの配列が決定され、ゲノム全体の単一のVCFファイルと各染色体の1つのBASファイルの形式。 VCFファイルに関連付けられているリファレンスゲノムはhg19です。健康データに役立ちました。たとえば、私は機能しないバリアントCYP-2D6遺伝子( rs3892097)についてホモ接合であることがわかりました。これは、いくつかの一般的な薬を役に立たなくする可能性があり、一部の薬が実際に機能しなかった理由を説明するのに役立ちます私。私の医者はこの情報が非常に役立つと感じました。

残念ながら、私は混合物や祖先を見る方法を見つけることができません。 VCFTools、Plink1.9、およびADMIXTUREを組み合わせてすべてをセットアップしようとしましたが、機能しません。 ADMIXTUREの場合、ゲノムを比較するために地理的な起源でソートされた多数のゲノムが必要だと思いますが、それを行う方法がわかりません。また、オンラインの内容がはっきりしていません。

ファイルを23andme形式に変換してみました(この / u / psychosomaticismは非常に役に立ちました)。私はそれをしました(VCFファイルの設定方法が原因で問題があったようですが)。しかし、データを取得するWebサイトでは、23andmeアカウントを指すように求められており、ファイルしかない場合は実際には機能しません。 23andmeは、全ゲノム配列が決定された人々には提供していません。彼らはあなたに他のみんなと同じように唾液のサンプルを与えて欲しいのです。

それで、私は何ができますか?

五 答え:
#1
+5
Kevin
2017-12-21 18:56:44 UTC
view on stackexchange narkive permalink

Vivekの回答の修正された実装。

peddyは、入力 .vcf を約25000のサイトでサンプリングし、に投影するPythonパッケージです。 2504千のゲノムサンプルに基づいて構築された主成分空間。著者は、ツールの機能に関する広範なドキュメントとプレプリントへのリンクを持っています。

NA12878サンプルの .vcf .vcf.tbi をGenomein aBottleの ftp hereからダウンロードしました。次に、次の内容のカスタム .ped ファイル NA12878.ped を作成しました。

NA12878HG001 0 0 2 0

コマンドライン:

$ peddy --plot --prefix myvcf HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer vcf.gz NA12878.ped

出力ファイルにはすべてプレフィックス myvcf。が付いています。これが myvcf.pca_check.png です。 myvcf.pca_check.png

追加する価値があると思います。`peddy`には `coloredlogs`と` cyvcf2`が必要です。後者では、gcc&g ++と `libbz2`、` liblzma`のヘッダー(ubuntuの `-dev`バージョンなど)が必要になります。と `curl`。この知識は私の人生の貴重な15の貴重な瞬間を救ったでしょう:)
また、インストールされたので、次のエラーが発生するようです。私の理解では、「2」を「0」にしたり、性別に基づいて設定するようにユーザーに任せたりするべきではありませんか?)
#2
+4
Vivek
2017-06-06 18:03:11 UTC
view on stackexchange narkive permalink

UK Biobank QCメソッドホワイトペーパーからの提案:

  1. VCFに共通のSNPのセットと1000人ゲノムフェーズ3コールセットを作成します。
  2. 実行します。 eigenstratsmartpcaを使用した1000人ゲノムサンプルのPCA。バイナリplink形式に変換する必要がある場合があります。
  3. 遺伝子型をこの事前計算されたPCA空間に投影し、ggplotを使用して視覚化して、どのクラスターに分類されるかを確認します。
  4. ol>
#3
+3
gringer
2017-06-06 18:16:06 UTC
view on stackexchange narkive permalink

祖先のテストは難しい問題です。私は私の博士号プロジェクトのかなりの部分をこれに似た質問に費やしましたが、モデル化されていない祖先を検出する方法についての良い答えは実際には見つかりませんでした。

方法の一般的な考え方私は祖先の決定にアプローチしようとしましたが、既知の特定の祖先の背景を持つ明確に定義された個人のグループを含むモデルセットを作成することでした。次に、クエリを実行する個人(または複数の個人)をこのグループに追加し、祖先推定プログラム(具体的には構造)を実行して、未知の個人のどの割合が既知の各グループに起因するかを調べました。 。ほとんどの遺伝的祖先テストはこれと同様のアプローチに従うと思いますが、モデルの母集団グループの定義については少し注意が必要です。

個人が特定のグループに誤って割り当てられると問題が発生します。 、他のほとんどのグループよりも多くの割合の個人を表すグループがモデルセットに存在する場合、グループが他のグループと密接に関連している場合、およびどのテスト個人にも一致しない祖先の履歴が存在する場合モデルグループ。そして、祖先の決定に使用されるマーカーセットが完全であることを前提としています。特定のグループに対する偏見や、体系的なジェノタイピングエラーはありません。

これは、祖先のテストが機能しないことを意味するわけではありませんが、大粒の塩で結果を出すのは良い考えです。ニュージーランドのメディアパーソナリティの良い例は、ヨーロッパの祖先の1人を示す彼女自身の家族歴についての十分な知識があるにもかかわらず、100%マオリである可能性が非常に高いと言われました。彼女の家族の両側に数世代戻った。

#4
+2
Kevin
2019-01-16 08:14:16 UTC
view on stackexchange narkive permalink

さらに複雑でありながら、柔軟性を提供し、最小限の手順を実行し、視覚化を提供する別の回答を追加します。
ダッシュアプ​​リリポジトリを作成しました。公開された祖先の有益なSNPと1000人ゲノムプロジェクトデータを使用して、このタイプの分析を調査します。

  1. 公開されている祖先の有益なSNP(AISNP)を特定します。
  2. 1000人ゲノムプロジェクトの遺伝子型 bcfデータをダウンロードします。
  3. 遺伝子型データを(2)からAISNPに制限します。 (1)の遺伝子座。
  4. 遺伝子型をワンホットエンコードします。
  5. 次元削減(PCA、t-SNE、またはUMAP)を実行します。
  6. コンポーネントをプロットします。
  7. ol>

    元の投稿は、参照サンプルに対してゲノムを投影したいと考えていたようです。 tgviz リポジトリの plot_walkthrough.ipynbは、これを実現する方法を示しています。
    自分のデータでノートブックから出力:

    enter image description here

#5
+1
Christopher Chang
2019-01-18 23:39:59 UTC
view on stackexchange narkive permalink

関連: bamまたはvcfファイルからの民族性チェック

パズルの欠けている部分は、祖先ラベルの付いた参照データセットです。 1000人ゲノムフェーズ3は通常、ここでは十分に機能し、GRCh37とGRCh38の両方にバリアントコールセットがあります。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...