kmerカウンターは、どのkmerが「正規」であるかをどのように判断しますか？

質問:

kmerカウンターは、どのkmerが「正規」であるかをどのように判断しますか？

conchoecia

2018-02-04 22:24:36 UTC

view on stackexchange narkive permalink

正規のkmer、つまりシーケンスの順方向と逆方向の両方の補数が同一として扱われるkmerをカウントする場合、kmerカウントプログラムはどのkmerを正規シーケンスとして使用するかをどのように決定しますか？それらはすべて同じように機能しますか？

調査するために、16個の可能な2merすべてを含む GAGTGCGGAATACCACTCTT で文字列を作成しました。次に、 kmcを使用して、どのkmerが使用されているかをどのように決定するかを理解しました。以下の filtered 列のkmersのみが表示されました。したがって、KMCの「正規の」kmerはアルファベット順に最初に発生するもののように見えます。

 ╔================╦=== ==╦====================╦==========╗║可能なKmers║RCs║RCはより早く発生しますか？ ║フィルタリングされた║╠================╬=====╬====================╬== ========╣║TT║AA║YES║TA║║TG║CA║YES║GC║║TC║GA║YES║GA║║TA║TA║ ║CC║║GG║CC║YES║CA║║GC║GC║║AT║║GA║TC║║AG║║CT║AG║CG║ ║║║CA║TG║║║║AT║AT║║║║AG║CT║║║║AC║GT║║║= = A║GT║║║= = A ====╩=====╩============ ========╩==========╝

すべてのkmerカウントプログラムで同じ正規のkmerを使用していますか？使用している場合は、説明するドキュメントがありますかこの？ クラゲまたは kmc の論文で何も見つかりませんでした。

1 回答:

user172818

2018-02-05 10:49:05 UTC

view on stackexchange narkive permalink

k-merがその逆補集合と同一である場合、両方とも正規です。正規のk-merはシーケンスであり、入力文字列内の位置とは無関係であることに注意してください。より正確には、文字列$ s $を指定すると、その正規文字列は$$ {\ rm正規}（s | h）= \ left \ {\ begin {array} {ll} s & \ mbox {if $ h（s）<h（\ overline {s}）$} \\\ overline {s} & \ mbox {otherwise} \\\ end {array} \ right。$$ where $ \ overline {s} $は$ s $のWatson-Crick逆補数であり、$ h $は任意の文字列ハッシュ関数です。実際には、ほとんどの場合、2ビットエンコーディングを$ h $として使用します。このようなハッシュ関数での順序は、辞書式順序と同等です。

別の言い方をすれば、各プログラムは、同じ入力が与えられた場合、異なる正規のk-merを持つことができます。

コメントありがとうございます。私の専門用語ではない翻訳は次のとおりです。「Kmerカウントプログラムは、文字列ではなくハッシュを使用してkmerを格納します。ハッシュ関数は、kmerとそのWatson-Crick逆補数に対して同じ値を生成します。kmerカウントプログラムがカウントを人間で出力する場合読み取り可能な形式で、kmerのハッシュ値を文字列に変換します。kmerの1つの文字列表現またはその逆補数が報告されるかどうかは、プログラムで定義された「アルファベット順」によって異なります。KMCの場合、その「アルファベット順」は{ACGT}。これは、上記で観察されたkmersが報告された理由を説明しています。

ⓘ

このQ＆Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。

about - legalese

Loading...