質問:
リファレンスゲノムの大文字と小文字
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

NCBIからダウンロードしたmm10マウスのリファレンスゲノムを使用していますが、ゲノムのほぼ等しい部分を構成する小文字と大文字の違いを詳しく理解したいと思います。 Nは「ハードマスキング」(ゲノム内で組み立てられなかった領域)に使用され、繰り返し領域の「ソフトマスキング」には小文字が使用されることを理解しています。

  1. このソフトマスキングは実際には何をしているのですか平均?
  2. これらの領域のシーケンスについてどの程度自信がありますか?
  3. 小文字のnは何を表しますか?
  4. ol>
三 答え:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

このソフトマスキングは実際にはどういう意味ですか?

ゲノム内のシーケンスの多くは反復的です。たとえば、ヒトゲノムには(少なくとも)3分の2の反復要素があります。[1]。

これらの反復要素は、大文字を小文字に変換することでソフトマスクされます。これらのソフトマスクされた塩基の重要な使用例は、相同性検索にあります。 atatatatatat は、ヒトとマウスの両方のゲノムに現れる傾向がありますが、非相同性である可能性があります。

これらの領域のシーケンスについてどの程度自信がありますか?

ソフトマスクベースではない位置にいる可能性があります。ソフトマスキングは、反復する可能性が高いゲノム内の部分を決定した後に行われます。特定の塩基が「A」であるか「G」であるかは不確実ではありません。繰り返しの一部であるため、「a」として表す必要があります。

小文字とはnは表しますか?

UCSCは Tandom Repeat Finder RepeatMaskerを使用して潜在的な繰り返しをソフトマスキングします。 NCBIはおそらく TANTANを使用しています。 「N」は、その塩基に利用できる配列情報がないことを表します。 'n'に置き換えられているのは、リピートマスキングソフトウェアのアーティファクトである可能性が高く、ゲノムの一部もリピートである可能性が高いことを示すために、 'N'を 'n'でソフトマスクします。

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

有益な答えですが、ヒトゲノムが「(少なくとも)3分の2の反復要素」であると言うのは物議を醸していると思います。あなたが引用するP-cloudsメソッドは非常に寛容であり、半分はより一般的に受け入れられている数値です。また、ソフトマスキングでは、通常、すべてのリピートをマスキングする必要はありません。散在するリピートと複雑さの低いシーケンスだけをマスキングします。また、mm10はもちろん最高のアセンブリの1つですが、ベースの呼び出しとアセンブリの構築、および反復シーケンスの場合は常に不確実性があります...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

ゲノム配列での小文字/大文字と N / n 文字の使用は完全に標準化されていないため、使用しているリソースの仕様を常に確認する必要があります。 。

小文字は、「ソフトマスクされたシーケンス」を表すために最も一般的に使用されます。これは、 RepeatMaskerによって普及した規則で、散在する繰り返し(トランスポゾン、レトロトランスポゾン、および処理された疑似遺伝子を対象とします)複雑度の低いシーケンスは小文字でマークされます。大規模なタンデムリピート、セグメント重複、遺伝子全体の重複など、より大きなリピートは通常マスクされないことに注意してください。

ただし、小文字/大文字には他の用途もあります。たとえば、 Ensembl大文字/小文字を使用してそれぞれエキソン配列とイントロン配列を表します。

N および n ヌクレオチドは「ハードマスクされた配列」を表す場合があります」、散在する繰り返しと複雑さの低いシーケンスが N に置き換えられます。ただし、 N / n は、あいまいなヌクレオチドを表す場合もあります。実際、これは IUPACの仕様です。

場合によっては注意してください(幸いなことにまれですが) X / x は、あいまいなヌクレオチドまたは「ハードマスクされたシーケンス」を表すためにも使用されます。

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. 小文字のヌクレオチドは通常、ソフトのマスクされたシーケンスを示します。 NCBIのFAQで、ゲノムがどの程度正確にマスクされているかを確認できます。
  2. ol>

    真核生物のゲノムの反復配列はマスクされていますか?

    WindowMaskerで識別される、真核生物のゲノムアセンブリシーケンスファイル内の反復配列は、小文字にマスクされています。

    見つかった反復の場所とID RepeatMaskerによるものも別のファイルで提供されます。これらのスパンは、必要に応じてゲノム配列をマスクするために使用できます。ただし、あまり研究されていない生物の多くは、RepeatMaskerで使用できる優れたリピートライブラリを持っていないことに注意してください。

  3. IMHO、低複雑度領域は複雑度の高いシーケンスよりも、常に誤って組み立てられる可能性が高くなります。ただし、これは非モデル生物にとっては問題になります。マウスゲノムのソフトマスクされた領域の信頼性は非常に高いと思います。

  4. わかりません、アーティファクトのように見えます。

  5. ol >

    ソフトマスクの使用例

    参照へのシーケンスのマッピングは、通常、マッピングされたリードと参照シーケンスのシード(部分文字列)の完全な一致から始まります。ソフトマスクされた(複雑度の低い)領域はシードの一致には使用されませんが、隣接する領域にシードがあった場合のアライメントの拡張にのみ使用されます。ロングリードアセンブリの問題に適用されるソフトマスキングのこのアプリケーションは、このブログで説明されています。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...