2017年5月14日日曜日

プレプリントは読みやすい形式でお願いします

 最近出版されたNature論文(リンク)に関して、出版過程をメモします。投稿前に形式やプレプリント公開の仕方などについて調べていたのですが、参考になるものがあまりなかったので。雑誌の公式ルールはバラバラに書かれていて相当わかりにくく、噂レベルでは「Natureは公式にはプレプリント公開OKと言ってるけど実際はハネられるよ」「そもそもwordしか受けつけないんでしょ」みたいな話もあり、やはりちゃんとした実例報告はあったほうが良いかなと。

 投稿形式なんてまあどうでもよいのですが、せっかく生物系でもbioRxivなどへプレプリントを上げることが流行り始めているのに、雑誌投稿と同じ形式のものを上げている人が多く、それが古い投稿形式であるword1段組み行間空きまくりfigureとlegendバラバラなやつでは読みにくくて残念すぎるので、ぜひ変わってほしいということはあります。

[言うまでもないことですが、近年生物系を含めてほとんどの雑誌が投稿時のプレプリントサーバーへの原稿アップロードを公式にOKとしています(例外が気になる方はこちらを)。NIHは申請書でプレプリントを参照して良いとしましたし、ザッカーバーグさんもbioRxivを支援するそうです。ラボ周辺で生物系の方々にプレプリントアップロードを推しまくったところ、発生系の学生さんが投稿論文をbioRxivに投稿してみてくれたそうで、マジ最高悪いところが見つからないといっていました(本当)。]

 物理の理論系では特に、雑誌は見ずにarXivしかチェックしないという人もたくさんいます。その理由として、arXivの方が早いからということの他に、そもそもarXivに上がっているバージョンの形式が雑誌掲載バージョンとほぼ同じで読みやすいから、ということもあるように思います。バイオ系でも、雑誌掲載バージョンのように読みやすいフォーマットでbioRxivなどに上げるのが慣習化すれば、掲載前に皆がプレプリントを読む確率が上がるのではないでしょうか。

 読みやすいフォーマットとは何か、議論の余地があるところかと思いますが、少なくとも図のキャプションは図の近くにほしいですし、図の位置そのものも該当テキストの近くがいいです。印刷して一行一行添削する人以外にとっては、スペースを2行開けて書かれるのも、ページ送るストレスの元でしかないです。

 そうはいっても投稿先雑誌がそのように指定しているのだから仕方ないだろう、投稿後にプレプリント用に形式を変えたものを用意するなんてめんどすぎて死ぬ、と思われるかもしれません。スペースを縮めて図を再配置するだけなら30分くらいでできそうなものですが、その手間も惜しいからプレプリントなんて公開したくない、という方にはもはや何も言えません。

 とりあえず、公開する気はなくはないぞ、という方に言えることがあるとすれば、雑誌の投稿形式指定が今でもその超読みにくいやつに本当に縛られているのか、チェックしたほうがいいということです。少なくともnature系とscienceはそこまでstrictなことをもはや言っていませんし、下に示すように、最低限のことを守っていればかなりなんでも良さそうです。(規定を読む限りではC誌系は結構うるさいようですが、守らず投稿すると本当に怒られるのかどうかはわかりません。)

 LaTeXで組版が自由にでき、Wordでだって余白や図の配置が自由にできる世界に住んでいるのに、大切な原稿をあのスーパー読みにくい形式で用意し、そのままプレプリントとしてネットに垂れ流さなければいけない理由は、実はほとんどないのではないでしょうか。読みやすい感じにテキストや図を配置してそのまま投稿し、bioRxivやarXivにも同じものを上げていきましょう。さすればレフェリーもプレプリントウォッチャーも皆幸せです。

2016年5月20日 投稿
 LaTeXの2段組み(PRL形式、REVTeX使用)で図もSupplementary textもSupplementary figuresもすべて一つにしたPDFで投稿。行番号は入れろと指定があるので入れました。図はIllustratorで作りepsに出力してLaTeXで読み込む、という普通の方法。字数は大雑把に数えてもLetterの制限まで余裕があるようにしました(LaTeXで書いた原稿のword数を正確に数えるのは結構大変です。みなさんこれどうしているのでしょうか)。
 同バージョンを(行番号は抜いて)arXivに投稿(それがこれ)。あとでメールで確認したところ、最初に投稿したバージョンはarXivに上げて良いけれどレフェリーレポートの内容を反映させた後のものは上げないで、とのことでした。
 カバーレターは公式には必須じゃないと書いてありますが、僕が知る範囲では雑誌によらずみんな何かしらは用意しています。この論文ではA4で2ページ。1ページ目は論文の内容説明、2ページ目は100-word summaryを科学者向けと一般向けで二種類、その後にレフェリー候補者リストと署名。大学のマークとかは入れず、プレーンなwordファイル(カバーレターには式とか入れちゃいけないとゴーストがささやく)。
 他にはSupplementary videosを5本。avi形式で用意していたものをmovに変換(指定)して添付。

同6月7日 原稿がレフェリーへ送られたと連絡
 この間3週間弱、何が起きていたのかはよくわかりません。Manuscript tracking systemにCheck Statusというのはありますが、APS系と違って情報量が少ないです。”Manuscript under consideration"まではおそらく皆行き(Editor rejectの場合はそこから1週間以内を目安にお祈りメール)、レフェリーに回すまで(おそらくこの間に専門家の意見を聞いてる)その後特に連絡はありません。

同8月10日 レポート返却 
 待つこと二か月、レビューアーは最初から5人。査読者を増やしていたら時間がかかったよとのこと。えー。
 レポートは、2人からメジャーなコメント(可否は特に言及なし)、3人はポジティブ(わりと絶賛)+マイナーコメント。論文出版そのものに否定的なコメントは1つもありませんでしたが、エディターのメール文面ではメジャーコメントの一つ(biological relevance)が特筆されていて、それに答えられないなら…という雰囲気が醸し出されていました。レフェリーが誰も反対していなくてもrejectされうるとは怖い世界ですが、そういうものなのでしょう。
 フォーマートに関する言及はなし。初稿のサプリ関係の名称や立ち位置はかなり好き勝手やっていましたが、結局最終投稿まで何も言われませんでした。

同12月1日 再投稿 
 レンチウィルスを使ったノックダウンの条件検討や、細い領域に細胞を閉じ込めてイメージングする実験を実現するのにかなり時間がかかりました。元の実験をしていた日本のラボからアメリカに移っていたので、ライブイメージングのセットアップ違いなどでも一か月くらいロス。原稿も理論の説明の仕方を中心に大幅改造。すべてくっつけたPDF(初稿と同様)にして返送。
 カバーレターはまた2ページ。足した実験の説明と、最初の投稿以降に出た他のグループの関連論文についてコメント。
 レフェリーコメントへの返事は14ページ。クソコメントもちらほらあって夜中に思い出してイライラしたりしましたが、基本的にはすべてに反論orフォロー。

2017年1月11日レポート返却 
 第一弾でメジャーコメントをしてくれたレビューアー2人がポジティブ+マイナーコメント、他2人からはOK、最後1人は文面なしたぶんOK。

同2月13日 再々投稿
 実験を二つ足しました。細胞が元気なくやや時間ロス。神経幹細胞は特に集団挙動が断然美しいのですが、すぐ機嫌を損ねるので面倒見ているほうはやきもきします。
 カバーレター1ページ、レフェリーへの返事1ページ。レフェリーの一人が提案していた実験は難しくてできなかったので、代わりのデータを載せて納得してもらう方針。

同3月20日 ほぼアクセプト
 残っていたレビューアー2人からOKのレポートタイトル変更の提案、アブスト書き換えの提案。フォーマートの合わせ方についての細かい注意事項リスト。

同3月22日 最終投稿
 タイトルはエディター提案のものに変更。アブストはエディターの書き換えがひどすぎたので直し。Main textとmain figuresは出版社側でフォーマットしてくれるので、LaTeXのソースコードとEPSのまま提出。Supplementary Textは独立したPDFにしてそのまま提出(フォーマットはPRL形式のまま)。鬼門はExtended Data Figuresでした。
 Extended Data Figures(以下EDF)は出版社の直しが入らないにも関わらずオンライン版ではMain textにくっついて公開される(後述)ので、フォントや線幅などをNature formatに合わせないといけません。EDFが10枚あったのでそれの直しにかなりの時間をとられました。はじめから知っていたらこの時間はゼロだったので失敗。
 Natureは(2017年5月現在)Supplementary Informationとしてtextとfigureをくっつけたものを出すのを許していません。サプリで文や数式を足したいならtext+equationsだけのPDFにするかMethodsセクションに入れるか。サプリの図を足したいならExtended Data Figuresしかないです。これらのうち、MethodsとExtended Data FiguresがMain text+Main figuresの後ろにくっついたものがオンライン版では生成されます(つまりSupplementary TextのPDF以外)。サプリはサプリとして完結している方が美しいし読みやすいと思うのですが、図が中心的な役割を担うNatureのような一般向け雑誌としては、figureだけでもフォーマットそろえて本文につけときたいということでしょうか。また、Methodsにsupplementary text的な内容を書いている論文が多いのですが、字が小さすぎてあまり読む気がしない(そもそもMethodsは実験条件などの細かい情報を提供するセクションで、一から理論を説明すべき場所ではないのでは?)ということで、われわれの場合は式などはすべてSupplementary Textとして別ファイルにしました。
 他にも指定されたいろいろな書類を提出。

同4月3日 アクセプト 

同4月7日 公開スケジュールの連絡
 12日にweb公開するからよろしく、といきなりメール。校正とかはないよ、とのこと。Accelerated Article Previewで出したいが良いか、という連絡には3/22にOKと返事をしていましたが、アクセプトから掲載までがあまり速いので驚きました。投稿・再投稿時に数か月スケールで待たされている間はすることがありませんが、アクセプト後はプレスリリースなどを準備したいのでむしろ待ってほしい感じです(結局ほぼ1日で急いで書く感じになりましたが、東大理のスタッフの方々の迅速な対応のおかげで会見などもできました)。

同4月12日 Web公開(Accelerated Article Preview)
 同じ号に掲載された論文で、別のグループが僕たちの研究に関連する現象を別の系で見つけたと報告していました。同じ号になるように計らってくれていたのですね。あちらの仕事の存在は噂には聞いていたのですが、投稿日が異様に近かったり、アクセプトまでの時間が大体いっしょだったのは偶然だと思われるので、スクープされなくてラッキーでした。
 とりあえずプレプリント公開からここまで、11か月弱かかっています。全327日のうち僕らがもっていたのは147日で、残りの180日は向こうが持っていました。ほむ。

同4月27日 First proof
 論文の紙面掲載は5月なので、校正はここからです。10箇所ほど直しがありました。

同5月3日 Second proof

同5月18日 (予定) 掲載

2013年9月22日日曜日

えまーじぇんすってなんだっけ?

かっこ良い、耳触りの良いキーワードを使って人の目を引いてやろうという話があります。テレビ雑誌の広告や政治家の宣伝ではもちろんのことですが、サイエンスの世界でも、論文を通したい、予算を取りたいということになれば、なりふり構っていられないのです(cf. ジンクピリチオン効果)。

複雑系・非線形科学や生物物理学の一部で言われる「創発(emergence)」ということばもその一種かもしれません。他のキャッチコピーと同様に、具体的に何を指すのかはあいまいですが、パターンがひとりでに湧いてくる、ですとか、無生物な成分が寄り集まって生き物らしく振舞う、みたいなことをふんわりと指しているのだと思います。某先生によると、「自己組織化」の次に流行って、今はもう廃れつつあるそうで、次のキーワードを考えないとなあ、とかとか。

ところで「創発」は、字から大体の意味がほぼ明らかではありますが、哲学用語なのだそうです。フランスの若手科学哲学者マラテール(『生命起源論の科学哲学』)によると、言いだしっぺはJ.S.ミル、語の導入はルーウィスで、その流れを汲んで明確にemergence概念を言語化したのはブロード(1925)だそうです。

ブロードの記述はなかなかクリアで、要素から演繹できない性質が、集合になると備わることがあるよ、という話です。図式に直接当てはまるかどうかはともかく、いわゆる還元主義vsそうじゃないヤツとして、こういう議論は科学に限らずいろんなところで出てきます。 ステレオタイプな生物学者の言説としては、こんなのも紹介されています。
われわれが生物学で研究しているのは生命であり、物理学や化学の因果概念で表現できるような現象ではない (Haldane, 1931)
「創発」論への当然の批判として、要素とか還元の定義ってなんだ? ということにはなります。生命とはなんだ→分子を見てもわからない→じゃあ創発だ、というのはいかにも説明になっていません。遺伝子やたんぱく質に対する理解が深まったからと言って生命についてわからない、と言うのであれば、じゃあこいつらの関係性を真面目に考慮にいれることにして、関係性の構成単位(モジュール)を使って説明すれば良いんじゃ?(cf. network motif)。

要素還元的なアプローチには不信感がある、分子生物学は嫌だ、とか思っていても、還元可能かどうかなんて単にデータが不足している・思考の枠組みがまだ足りないとかいう、相対的なものでしょ、と言われたら、反論できないですね。今ある物理学が還元的で、生命現象の理解に足りていないからと言って、ずっと先の物理学もそれ対応できないと言い切る理由は、全然ないわけです。

マラテールはこの「相対主義的な創発論」の立場にあるので、ぶっちゃけ生命現象もいずれ還元されるわ、と結論していますが、彼のいう還元的説明はかなり広いものを指しているようで、そのあたりの感覚は普通の科学者とちょっと違うかもしれません。

例えばシステム生物学なんかは、この15年くらいの大手生物系科学雑誌にむちゃくちゃなインパクトをもたらしていますが、相対的にみれば分子生物学を一階層上でやっているだけと言われそうです。チューリングパターンなんかはいかにも創発っぽいですが、どういう系ならそれが出てくるかが今や完全にわかりきっているという意味では、還元的説明のついた現象です。他にも、more is differentと言いながら作る多体系の物理ですとか、熱力学や流体力学といった下の階層の詳細によらない現象論的な理解(『非線形な世界』)も、マラテールに言わせれば還元的な説明になってしまうので、素粒子物理なんてクソくらえ、とか思って読んでも溜飲は下がらない気がします(そもそも生命起源論の本です)。

興味深いのは、20世紀の頭くらいには哲学界で流行り始めていた「創発ってなに?」議論が、量子力学の成功によってしぼんでしまった、という分析です。ミルも出していたらしい、水素も酸素も気体なのにH20が液体なのは不思議! という創発論に都合の良い例も、水素原子の結合エネルギーは量子論から計算できましたよ、と言われてしまった日にはグラグラです(実際には液体問題は今でも不思議であり続けていますが)。創発論の最重要例である生物に関しても、DNAとかが見つかって、セントラルドグマ的な細胞の機械らしい性質が明らかになるにつれ、還元不可能と叫びづらくなっていったであろうことは容易に想像できます。

そういう意味では、仮に相対的な問題であったとしても、創発がうんたらと最近言い出されることにはそれなりに必然性があるような気もします。加速器がバンバン新しい粒子を見つけてきたり、病気の原因遺伝子が片っ端から明らかになっていったころには、いわば「この還元主義がすごい!」という気風があったわけで、それに比べると今はこれをやっときゃ良かろうという軸が薄いのはたぶん事実だからです。

もちろん、サイエンスの立場からすれば、多体系や複雑系の理論やシステム生物学が実を結んだのは、哲学的概念が先んじていたかどうかに関わらず、具体的な実践によるものです。深い思想や背景がなくても、実践によって気風ががらっと変わっちゃうみたいなことが日々起きてしまうので、概念drivenな科学者はあまりおらず、それゆえ外から見て概念史を記述するのは簡単ではなさそうです。統計・生物物理の分野はそれでも、比較的コンセプチュアルなことを論文や著作で語る人が多いので、それ系の話題を(たまに)取り上げていきたいと思います。