ナノポアミニオンを使用して多重化およびシーケンスされた2つのPCRアンプリコンがあります。
minimap2を使用してfastq読み取りを、両方のアンプリコンシーケンスを含む参照ファイルと整列させ、 IGVを使用して表示。
簡単な要約統計量を生成する方法を探しています。
特に、各アンプリコンに合わせてfastq読み取りの総数を抽出する方法はありますか。 bamファイルからの参照?
ナノポアミニオンを使用して多重化およびシーケンスされた2つのPCRアンプリコンがあります。
minimap2を使用してfastq読み取りを、両方のアンプリコンシーケンスを含む参照ファイルと整列させ、 IGVを使用して表示。
簡単な要約統計量を生成する方法を探しています。
特に、各アンプリコンに合わせてfastq読み取りの総数を抽出する方法はありますか。 bamファイルからの参照?
各リファレンスのアライメント数を取得する簡単な方法は、
samtools idxstats my_bam.bam
各リファレンスの読み取り数は列です。 3.指摘されているように、これにより、読み取りの総数ではなく、参照ごとのアラインメントの総数が得られます(各読み取りで複数のアラインメントが発生する場合があります)。とはいえ、私は一般的に正確な数値ではなく大まかな概算を求めているので、これを行う傾向があります。
理論的には、読み取りごとに1つのアライメントのみをプライマリとしてマークする必要があるため、次の方法で、必要なものをすばやく低メモリ使用量で提供できます。
samtools view -bF 2304 my_bam.bam > primary_only.bamsamtools index primary_only.bamsamtools idxstats primary_only.bam
以下のこのワンライナーは、 samtools flagstat
よりも長い読み取りに適しています。これは、各読み取りのプライマリアライメントのみをカウントし、 samtools flagstat
はカウントしないようです。長い読み取りのいくつかの統計を計算します。 samtools flagstat
の出力統計を参照ごとに見たことがありませんが、興味があります!
この回答は、読み取りの2次および補足の配置を除外します( -F 2304
)は、両方のアンプリコン参照にある程度一致し、最良のものを保持します。これにより、ライブラリ内の各アンプリコンの読み取り数をより正確に把握できる可能性があります。
samtools view -F 2304 myfile.bam | awk -F $ '\ t' '{a [$ 1、$ 3] ++} END {for(i in a){split(i、sep、SUBSEP);印刷sep [1]、sep [2]、a [i]}} '| uniq | awk '{print($ span> 2)}' | uniq -c | sort -k1 -nr