paper-reading issue の文字数をカウントした


TL;DR

  • ○○○字の記事、というのを目にする機会が多くなっている気がする
  • 自分はどれくらい書くのかと paper-reading issue の文字数をカウントしてみた
  • 平均は 5,296 文字、最長は 11,499 文字、最短は 1,269 文字、だった

最近のウェブの記事とかで「○○○字の記事です」みたいなのを目にすることが増えている気がする。

情報が多いので読む前にどれくらい時間が掛かるのかを知る情報に使われていたり、note とかだと書いてる時に文字数が出るらしいので何文字書いたぜと言いたくなったりするのかもしれない。

自分は自分で書いたものを結構読み返したりする方だが、文字数はあまり気にしたことがなかったのでいっちょカウントしてみようかと思い立った。
先に言っておくと、今回の記事は GitHub API で issue の情報を取得してちょっと前処理して Python str の len を調べただけという、なんの面白みもない記事である。 もうちょっとブログを書いていきたいなと思っているので、ちょこっと調べたものとかでも書いておくかという感じである。

分析

colab notebook が分析で使った notebook で、内容は読めばすぐに分かるし特筆すべき点はない。 自分の issue を分析する用で、画像を貼る部分の html タグだけ除くようにしてある。

GitHub REST API v3 Issues を使うと、issue の情報を json で取得することができる。 https://api.github.com/repos/{owner}/{repo}/issues?page=1 で owner の repo の issue の一覧(1 ページ目)を取得することができる。 このレスポンスの中に body という issue description のフィールドと comments_url というそれを叩くとコメント一覧が得られるフィールドがある。 今使いたいのはこれくらいである。

ということで全 issue のコメント一覧を取得して、画像を貼るのに使っている html タグの部分だけ取り除いて issue 毎にコメントをまとめて一つの str にしたものを作り、単純にこれの len を調べた。

自分はこれまで 40 個の issue を作っており、統計量として以下が得られた。

  • 平均文字数: 5,296
  • 標準偏差: 2,355
  • 最大文字数の issue: 11,499
  • 最小文字数の issue: 1,269

ヒストグラムは以下(横軸は文字数で縦軸は頻度)。

まあこんなもんかなと思う範疇ではあるが、その範疇内において結構書いてる方寄りだな、という印象。

栄えある最大文字数の issue は Maximum Entropy Markov Model (MEMM) の論文の issue だった。 あまり前提知識がなかったということもあり、理解にはまあまあ時間が掛かった論文だ。 そのため、その時自分が脳内で考えた内容に自分自身あまり馴染みがないので、あまりスキップせずに書き出していって結果として長くなっているという感じかな。

逆に最小文字数の issue はヒルベルト空間の埋め込みや計量の論文で、あまり理解できなかったのと数学的な記述を大量に issue に残していくのが大変ということで、途中でリタイアしたものだ。 これは 2 つ目の issue だったが、現状唯一の途中で諦めたものになっていて、ここでの反省を活かして以降では数式中心でそれを具に追っていかないといけない論文とかは読んでも issue には登録しないようにしている。

まだ 40 なので単純な文字数カウントしかしていないが、3 桁とかになったらもう少し色々分析をして自分の好みとか文章の癖とかを調べてみるのは面白そう。

ということで、ちょいネタだったがこれで分析は終了。

まとめ

paper-reading issue の文字数をカウントしてみた。まあまあ書いていた。

一番長いのは MEMM の論文で、すぐに理解できなかった論文は長くなりがちな傾向にありそう。 もうちょっと issue の数が増えていったらもう少し分析っぽいことをして遊んでいこうかな。