質問:
bamファイル内の各参照に合わせた合計読み取り
CM3
2018-10-30 19:35:56 UTC
view on stackexchange narkive permalink

ナノポアミニオンを使用して多重化およびシーケンスされた2つのPCRアンプリコンがあります。

minimap2を使用してfastq読み取りを、両方のアンプリコンシーケンスを含む参照ファイルと整列させ、 IGVを使用して表示。

簡単な要約統計量を生成する方法を探しています。

特に、各アンプリコンに合わせてfastq読み取りの総数を抽出する方法はありますか。 bamファイルからの参照?

三 答え:
Ian Sudbery
2018-10-30 23:00:03 UTC
view on stackexchange narkive permalink

各リファレンスのアライメント数を取得する簡単な方法は、

  samtools idxstats my_bam.bam  

各リファレンスの読み取り数は列です。 3.指摘されているように、これにより、読み取りの総数ではなく、参照ごとのアラインメントの総数が得られます(各読み取りで複数のアラインメントが発生する場合があります)。とはいえ、私は一般的に正確な数値ではなく大まかな概算を求めているので、これを行う傾向があります。

理論的には、読み取りごとに1つのアライメントのみをプライマリとしてマークする必要があるため、次の方法で、必要なものをすばやく低メモリ使用量で提供できます。

  samtools view -bF 2304 my_bam.bam > primary_only.bamsamtools index primary_only.bamsamtools idxstats primary_only.bam  
conchoecia
2018-10-30 20:08:17 UTC
view on stackexchange narkive permalink

以下のこのワンライナーは、 samtools flagstat よりも長い読み取りに適しています。これは、各読み取りのプライマリアライメントのみをカウントし、 samtools flagstat はカウントしないようです。長い読み取りのいくつかの統計を計算します。 samtools flagstat の出力統計を参照ごとに見たことがありませんが、興味があります!

この回答は、読み取りの2次および補足の配置を除外します( -F 2304 )は、両方のアンプリコン参照にある程度一致し、最良のものを保持します。これにより、ライブラリ内の各アンプリコンの読み取り数をより正確に把握できる可能性があります。

  samtools view -F 2304 myfile.bam | awk -F  $ '\ t' '{a [$ 1、$ 3] ++} END {for(i in a){split(i、sep、SUBSEP);印刷sep [1]、sep [2]、a [i]}} '| uniq | awk '{print($  span> 2)}' | uniq -c | sort -k1 -nr  

これから適応。

Ammar Sabir Cheema
2018-10-30 19:57:16 UTC
view on stackexchange narkive permalink

これは、

  samtools flagstat your_bam_file  
を使用して実行できます。
flagstatはbamファイル内のアラインメントの数をカウントすると思います。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 4.0ライセンスに感謝します。
Loading...