「意識」が高いと「実務能力」は下になる、の法則。
posted at 23:11:36
ツイートの記録を停止しています
このアカウントはTwitter APIの仕様変更の影響でツイートの記録を停止しています。
記録を再開するには、Twilogにログインしてください。
Stats | Twitter歴 4,465日(2011/03/15より) |
ツイート数 205,789(46.0件/日) |
表示するツイート :
「意識」が高いと「実務能力」は下になる、の法則。
posted at 23:11:36
まあ、いずれにしてもこういう解析を行うこともできる、という例であって、これを以て何か確定的な結論を導こうとか、そういうものではない。それに、データの解析のプライオリティはあくまで名古屋市、名古屋市大にある。
(この話、ここまで)
posted at 22:41:05
結果はこんな感じ。年齢を共変量としたときの結果と大体同じ、という感じ。なお、本当は正確確率を求めるアルゴリズムでやるべきなのだけど、それやると天国的時間の長さになるので、Efronの近似アルゴリズムを採用。 https://pic.twitter.com/pPly4SZOTT
posted at 22:40:33
年齢を共変量としても、層別化してもサンプルサイズの偏りは解消できないので、こういう場合は条件付きロジスティック回帰を行うのが方法としては最も妥当と思われる(勿論、層別化条件によってデータに変な偏りがない、という前提ではあるけど)。
posted at 22:40:11
それに、接種が勧奨されていることによる偏りとして接種しないのは特段の健康的事情がある人に限られていたという仮定と同時に、逆に接種勧奨が中止された後だって、今度は接種した群がその後の健康異常に注意深くなってより「症状あり」としやすくなるという可能性も排除できない。
posted at 22:39:48
ただ、気を付けなければいけないのは、このように層別化した場合に、層別でのサンプルサイズが違う、ということ。これは信頼区間の幅に影響するので、これを同列に見るのは統計的に妥当とは言えない。サイズの違うデータのp値を比較することがナンセンスなのと同じこと。
posted at 22:39:25
確かにこれで見ると接種が勧奨されていた時に受けた群ではこれらの症状が増加している「様にも」見える。 https://pic.twitter.com/WzyXV4444F
posted at 22:39:01
ということで、接種群と非接種群の比率が逆転する16歳以下か17歳以上かでまずは層別に見てみることにした。すると、症状17~24で結構層別化することによってオッズ比に違いがあるっぽいということが。
posted at 22:38:41
ただ、牧野さんのこの指摘は全くの的外れということはないとは考えられる。勿論、ここに書かれているような方法で対応するのはあり得ないと思われるけど。接種の積極的勧奨が中止されたことによるバイアスだって排除できないわけで。
https://twitter.com/jun_makino/status/749269838829268992…
posted at 22:37:58
で、コレスポンデンス分析を各「症状あり」に対してやってみてプロットするとこんな感じ。明らかに各症状の発生は独立ではない。従って、データがこのような挙動を示すのはそれぞれの症状が強い共起関係にあるということでかなり説明可能と思われ。 https://pic.twitter.com/a2h3xP2E6l
posted at 22:37:31
まず、大量にオッズ比が>1から<1になるようなものが発生する原因について、これは「偶然そうなったのか」どうかは検証しておく必要があって、それぞれの症状が独立ならこんなに<1側に傾くことは確率的にはまれそうではあるけど、そもそもこの症状、独立とは思えない性質のものが多い。
posted at 22:36:45
ちなみに、分割表を層別解析すると全く逆の結果になってしまうことがある、というのは「シンプソンのパラドックス」という極めて有名な話で,統計屋にとっては常識の部類に入るもので、それ自体は「謎な結果」でも何でもない。
http://jtsutsui.hatenablog.com/entry/20100125/1264353773…
posted at 22:36:18
まあ、それだけではこういった人の結果に文句だけつけるような人がいるので、もうちょい解析をしてみる。まあ、自称研究者なら自分で解析しろ、の一言でもよいような気もするけど。
https://twitter.com/jun_makino/status/749269815626346497…
https://twitter.com/jun_makino/status/749269822731489280…
posted at 22:35:42
まずは症状1~24に関して、HPVVの接種有無を説明変数として症状ありかなしかについてロジスティック回帰、次に年齢を共変量としてロジスティック回帰を行った。傾向としては消された元の結果と大体同じである様に見える。 https://pic.twitter.com/nGK9ayOJ5P
posted at 22:35:12
ということで、こんな感じでまずデータを読み込んで、解析対象の変数を抽出、加工した。ちなみにクソコードなのであまり良い子は真似をしないように。解析はRを使用。 https://pic.twitter.com/EUZN9cDdDW
posted at 22:33:44
ただ、この資料のp22に記載されている条件を加えたけどそれでも一致しなかったので、とりあえずは判断保留。いずれにしてもきちんとしたデータのQCが必要だし、これはPDFでデータが出ている限りは我々には難しいかと思われ。
posted at 22:32:22
ちなみに、先生が匿名の方からいただいたというデータと先生が作ったデータでも整合性は確認した(ここには示さないけど)。ただ、名古屋市の発表しているデータと少し数字がずれている。どっちが正しいのかはわからない。
http://www.city.nagoya.jp/kenkofukushi/cmsfiles/contents/0000073/73419/sikyuukeigantyousahoukokusho.pdf…
posted at 22:31:56
で、素直にread.csv関数を使った。この程度のサイズなら読み込みには時間はかからなかった。症状20のクロス集計表はこんな感じになり、数値は一致。
[1] "symptom 20"
1 2
1 9107 20571
2 58 198
posted at 22:31:35
理由は、ファイルの読み込みに時間がかかることが予想されたので、data.tableパッケージのfread関数を使ったこと。これ使うと途中で列がずれたりしておかしな結果になり、数値が先生が提示したものと合わなくなる、という現象が発生。
http://oku.edu.mie-u.ac.jp/~okumura/stat/160702.html…
posted at 22:30:32
名古屋のHPVVの調査結果のデータ、奥村@h_okumura 先生が作成したcsvファイルを用いてざっと解析を行った。ここに記載されている2つのファイルで結果を比較することからやろうとしたが、
http://oku.edu.mie-u.ac.jp/~okumura/stat/160629.html…
のっけからドツボにはまった。
posted at 22:30:03