WGSベースのNIPT⑤:リード密度の期待値
リード密度の期待値
次は、リード密度の期待値についてお話ししましょう
μexpを計算する方法はたくさんあります.
たとえば,サンプル特異的に.
たとえば部位特異的に.
そして,サンプルと部位の特異性を両方活用して.
のころの初期WGSベースのNlPTでは,
例えばGC含量などの似た特徴を有する
いわゆる参照染色体が各染色体に割り当てられ,
基準染色体がダイソミーと仮定すると,
そのときの予想される読み取り密度は次のようになる.
サンプルjのなかの関心領域 i μexp.i.j
は
参照染色体κ の基準染色体密度 μobs.k.j
に等しいと仮定することができます.
しかし,この方法だと
ひとつのデータがだめならかごの中のすべてが
だめだと壊してしまう,という短所を持っています.
原理的には,μexp.i.jを計算する最もしっかりした方法は,
全てのサンプルにおける全ての関心領域を利用することです.
そのようなアプローチは,領域特異的な計算(例えば,
関心サンプル中のchr21を推論するためにバックグラウンドサンプル中の
chr21読み取り密度を使用する)の長所を利用する一方で,
サンプル特異的な効果(例えば,関心サンプルがバックグラウンドコホートから
逸脱する場合)も考慮します.
機械学習モデル(例えば,線形回帰)は,
この二重の目的を果たすことができます.
回帰モデルは参照染色体法の拡張と考えることができます.
後者は,参照染色体に対して1.0の重みを有効に使用したが,
前者は,chr1に対して0.12,chr2に対して-0.05,chr3に対して0.2の重みを使用し,
以下同様です.
ここで,重みは,サンプルを横切る対象の染色体に対して
最良の予測をもたらすように導かれる.
モデルがこの最適な重み付けを学習すると,
サンプルj内の他の領域に基づいて重み付け和を計算することによって,
関心サンプルj内の領域iに対する予測読み取り密度を予測することができるのです.
参考文献
[1] Sehnert AJ, Rhees B, Comstock D, de Feo E, Heilek G, Burke J, et al. Optimal detection of fetal chromosomal
abnormalities by massively parallel DNA sequencing of cell-free fetal DNA from maternal blood. Clin Chem
2011;57:1042-9.