質問:
Sparkはバイオインフォマティクスで広く使用されていますか?
medbe
2017-06-04 04:10:33 UTC
view on stackexchange narkive permalink

GATK4が並列化に Sparkを使用していることを知りました。私はグーグルで検索しましたが、sparkが実際にどのように機能し、実際にどのように使用するかはまだよくわかりません。 GATK 4以外に、Sparkを使用する他のバイオインフォマティクスツールはありますか?一般的に、Sparkは広く使用されていますか?学ぶのに必要なスキルですか?よろしくお願いします。

三 答え:
#1
+8
winni2k
2017-06-04 06:33:50 UTC
view on stackexchange narkive permalink

私が知っているGATK4以外の、sparkを使用する唯一のバイオインフォマティクスツールは、 Hail(PlinkのSparkベースの代替品)です。雹はブロードの研究者によってもサポートされています。

私が働いたほとんどの場所はSparkに切り替えていません。そのため、一般的にはあまり使われていないと思います。したがって、現時点では、Sparkを知ることは、バイオインフォマティクスを学ぶために必要なスキルとは言えないと思います。

ただし、Sparkは、バイオインフォマティクスが日常的に扱う大量のデータを処理するための優れたパラダイムだと思います。 、そして私たちはすぐにフィールドがそれをもっと使う方向に動くのを見ると思います。どんな生物情報学者も、Sparkに精通し、Hailで遊んでみるとよいでしょう。

それをもう少し読んでみると、HailをPlinkのSparkベースの代替品と呼んでいるようです。それはほとんど真実ですが、車を馬のホイールベースの代替品と呼ぶのと少し似ています。バリアントストレージの効率とワークロードを分散する機能は、バリアント分析、フィルタリング、およびQCが現在行われている方法にかなり破壊的な変化をもたらしているように思われます。
仰るとおりです。一方で、車を馬のホイールベースの代替品として考えることには価値があると思いますO、o
これも私の印象です。まだSparkを使用しているツールはほとんどありませんが、並行性のイディオムとしてSparkに多くの関心が寄せられています。それは他の多くの選択肢よりも生物学的問題に適しており、それほど複雑ではありません。ですから、将来的にはもっと多くの用途が見られるでしょう。
#2
+6
leekaiinthesky
2017-06-05 01:22:23 UTC
view on stackexchange narkive permalink

ADAM avocadoは、コラボレーション( http://bdgenomics.org)によって活発に開発されているSparkベースのアライメントおよびバリアント呼び出しツールです。 )これにはBroadも含まれますが、広く採用されているとは思いません。

#3
+6
Samuel Lampa
2017-06-07 01:53:30 UTC
view on stackexchange narkive permalink

他の人があなたの質問にすでに良い答えを提供していると思います。 Sparkを使用して、既存のコマンドラインバイオインフォマティクスソフトウェアを再利用する計算を分散できるツールについて言及することが適切かもしれないと思ったので、Sparkがサポートする言語で実証済みのアルゴリズムを再実装する必要がなくなりました。 EasyMapReduce

アルゴリズムを再実装する必要性が認識されていることは、私の理解では、バイオインフォマティクスコミュニティでSparkを広く採用するための最大の障害の1つです。

EasyMapReduceは今年SparkSummitEastで発表されました(リポジトリのホームページに表示されているビデオリンクこちら)。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...