2012年1月1日日曜日

2011年振り返りと2012年こんにちは

昨年度もあっという間でした,ということは特になくて色々変化の多い一年でした.

転職しました


今年一番大きかったのはこれでした.まぁ,そうですね.実際には去年の年末にほとんど決まっていて,年初から引き継ぎとか,それまでの仕事の整理(特許と論文とソースコードとか)などでだいぶ時間を取られました.
環境は人を変えるとはよく言いますが,それを痛感した1年でした.とにかく周りの人が超人みたいな人だらけなので,盗むべきところは盗みつつ,常にディスカッションして考えを熟成させ,自分が周りにできることは何か,常に色々考えました.大変でしたが実りのあった一年だったと思いたいです.

Jubatusをリリースしました


転職後すぐにアサインされたのがJubatusでした.OSSにはあまり明るくないし,ソフトウェアのリリースも初めての経験でしたが,転職後半年でこういう機会に出会えたのは良かったと思います.リリース前後はやっぱり慌ただしくて,NTT研の人たちといろいろやりとりしたり,リリース後はいろんなセミナーで発表したりしました.

発表とかセミナーとか


今年は論文は控えめでした.会社の状態だとか,論文を書くコストを考えると,なかなかそこには注力できません.ただ前職でやっていたテーマを,前職の先輩がたくさん発表してくれたのは良かったです.
代わりにJubatus関係でたくさんセミナーで話しました.今まではどちらかと言えば研究者との対話が多かったですが,もっとエンジニアやお客さんに近い所で話して,作ったソフトウェアやそれに関する技術を世の中にちゃんと広めないとという気持ちもありました.また,会社のゴールを考えてもこれはやってよかったなと思います.

C++とか


3年間書き続けたJavaを捨てて,久しぶりのC++に戻って来ました.社内ライブラリが充実していたので,想像してたより苦労は無いです.みんな私よりも良いコードを書くので,いつも勉強させられます.テストをたくさん書いたり,モジュールの粒度を考えたり,プログラミングスタイルもずいぶん改められました.

その他


  • 少ないと思っていましたが,写真はなんだかんだで6000枚くらい撮ってました
  • 引っ越してジムを辞めてから運動量が激減したので,皇居ランをしました
  • 新しい自転車を買いました! 9年ぶりの新車

さて,今年は転職2年目です.昨年蒔いた種がいろんな形で花開くといいな.蒔いた種からちゃんと収穫できるといいな,と思います.その他にもたくさん変化のある年になりそうです.

2011年12月31日土曜日

今年読んだ本5選

読書記録をMediaMakerというところにつけているのですが,今年は30冊くらい読んだみたいです.実際は,ここに書いてないのもあるので,もう少しあるかな.今年読んだ本のベスト5を紹介します.

アジャイルサムライ−達人開発者への道−アジャイルサムライ−達人開発者への道−
Jonathan Rasmusson 西村 直人

オーム社 2011-07-16
売り上げランキング : 1557

Amazonで詳しく見る
by G-Tools

アジャイル開発に関するエッセンスをとてもよく凝縮し,それでいて実例や対話を交えて極めて明快に書かれています.訳本なのに非常に日本語も読みやすく,すんなり読めます.「小さなチーム」だとか「職能横断型チーム」だとか,普段自分が重要視していることも書かれていました.リソース(お金や時間)と顧客と不確定要素の関わる仕事に従事する人全員にお勧めします.例えば,締め切りがあって,査読者や審査員や指導教官がいて,実験が上手くいかないかもしれない,というような問題を抱えている人種の人達のことです!
事実を誤魔化さない,上手くいかないことは上手くいかない,それをどうマネージして最善を尽くせるか.

IBM 奇跡の“ワトソン”プロジェクト: 人工知能はクイズ王の夢をみるIBM 奇跡の“ワトソン”プロジェクト: 人工知能はクイズ王の夢をみる
スティーヴン・ベイカー 金山博・武田浩一(日本IBM東京基礎研究所)

早川書房 2011-08-25
売り上げランキング : 20676

Amazonで詳しく見る
by G-Tools

IBMのグランドチャレンジでクイズ王にコンピュータで勝利した,プロジェクト・ワトソンの裏側のノンフィクション.クイズに答えるというタスクがいかに難しいかを人に説明しようとすると,なかなかこれが難しい.この本を読めばそれが非常に明快にわかります.自然言語処理に従事する身からすれば,無謀とも言えるチャレンジ,これがいかに始まったか,どうしてGOが出たのか,どういう覚悟でこのプロジェクトに挑んだのか.
そして何よりも,この本の書きぶりが素晴らしい.まるで小説でも読んでいるかのような書きぶりです.純粋に読み物としても面白いです.

デザイン思考の道具箱―イノベーションを生む会社のつくり方デザイン思考の道具箱―イノベーションを生む会社のつくり方
奥出 直人

早川書房 2007-02
売り上げランキング : 12237

Amazonで詳しく見る
by G-Tools

製品開発をどのようにしてすすめるべきかについて書かれた本.まずプロトタイプを作り,ちゃんと作りこむ前にしっかり吟味することがすすめられています.プロト作りには何でも活用して,簡単なモックでもよい.こうした話は,今読んでいる「アントレプレナーの教科書」にある顧客開発モデルや,「アジャイルサムライ」のようなアジャイル開発手法の全てに共通して現れることがわかります.何ができるか吟味する,小さな開発サイクルを効率よく回す,顧客と対話する確認する,作り直しを恐れない.大きな失敗をいかに回避できるか,ということがいずれでも主要なテーマとなっています.
また,「技術のコモディティー化」というキーワードもとても興味を引きました.高等教育が進んで,インドや中国も高い技術を持つようになってきて,単に技術レベルだけで勝負できる時代ではないということです.試行錯誤できるかがこれからの製品開発の鍵になるのではないでしょうか.

競争と公平感―市場経済の本当のメリット (中公新書)競争と公平感―市場経済の本当のメリット (中公新書)
大竹 文雄

中央公論新社 2010-03
売り上げランキング : 4457

Amazonで詳しく見る
by G-Tools

日本人は,先進国の中でも突出して競争を嫌う傾向にある.公平と競争をキーワードに,様々な調査結果やデータを提示しながら,特に日本人がこれらのキーワードをどう捉えているかが非常に明快に書かれています.他の新書にはなかなか見られないくらい,とても良く既存文献を参考にし,データを的確に引用し,非常に明快な論理を展開していて,それでいて平易に書かれています.派遣切りや,格差社会,医療,教育といった現代社会でとかく争点になるテーマに関しても論理的な切り口で言及されていて,こうした問題を自分がどう捉えるかに関してよい指針になりました.

考えることの科学―推論の認知心理学への招待 (中公新書)考えることの科学―推論の認知心理学への招待 (中公新書)
市川 伸一

中央公論社 1997-02
売り上げランキング : 17460

Amazonで詳しく見る
by G-Tools

「人間の推論」をテーマとして,推論に関わる様々な科学,すなわち記号論理や統計,認知心理学といった様々な視点から議論されています.そして,いずれの学問を持ってしても,人間の「推論」をモデル化するには不十分であることが,様々な実験データからうかがい知ることができます.「言葉」という「推論」とも密接に関わる現象を扱う立場としては,こうした人間の思考に関わる現象にももちろん興味はあります.個人的な立場としては,人間の「模倣」を必ずしもよしとは思いませんが,それをよく観察することは重要だと思っています.

2011年11月25日金曜日

re2のxxxNの使い方

re2はGoogleが公開しているC++用の正規表現ライブラリです。速度も速い(らしい)し、ちゃんと日本語一文字も"."でマッチしてくれるので、社内でも好んで使われています。

たくさん機能があるようなんですが、Web上であまり情報がなかったり、詳細はheaderファイル見てね!みたいなことが書かれていて、なかなかマスターするのが難しいライブラリです。特に、マッチ箇所(いわゆるgroup)が複数あるときにどうすればいいのかすぐにわかりません。私も以前ここではまって、色々調べてどうにか動いたことがありました。ちょうど@chezouさんが困っていたようなので、メモのつもりで晒してみましょう。

2011年10月29日土曜日

pficommonをちょっとだけ紹介

報道機関の発表の通り、10/27日に分散オンライン機械学習基盤Jubatusを発表しました。これに関しても書きたいことは山ほどあるのですが、来週Jubatus Workshopがあるので、それまでは秘密です(ウソです、聞かれたら答えます)。

さて、同時に公開されたのがpficommonです。これは、弊社内で使われていた便利ライブラリで、あまりの便利さにこれがないと開発できないため、Jubatusでも使われています(もちろんSedueでも)。そして、Jubatus公開に伴い公開となりました。pficommonは明日からでも使うべきなライブラリなので、先にこちらを紹介します。


2011年10月22日土曜日

社内セミナーで形態素解析について話しました

持ち回りの社内セミナーが自分の番になったので、形態素解析についてまとめてみて、発表しました。係り受け解析入門に引き続き、自然言語処理チュートリアルシリーズ第2弾になります。結構ボリュームがあって、力作になってます。


今回の狙いは3つくらいありました。
ひとつは自分自身昔の文献などを読んだことがなかったので読んでみたこと。見ると、昔は多くの論文を企業の人が書いていて驚きます。初期の文献で引用したものはほとんどが企業系研究者の方の論文です。日本語入力の文脈で研究されていたからなのかな、という気がします。
もうひとつは現在の問題点と問題意識をまとめる。書いたとおり、アプリケーションに対して最適なことをすべき、という思いがあります。それは単にアプリケーションごとに形態素解析器を作るべき、ということではないです。そもそも形態素解析というソリューションは適切ですか?という問いかけです。実際に弊社では、普通の人が形態素解析するところで形態素解析しないで処理している所も幾つかあります。
最後は、研究者とエンジニアのマッチングです。以前より研究者は企業の問題意識を共有していない、企業は最新の研究に興味がない、という悲しい状態にあると思ってました。自分自身は研究者とのコネクションもあり、またPFIとしては様々なエンジニアの方とコネクションがあるので、ここで発表したらお互いに意識や知識を共有できるかな、と思うところもありました。結果的には、反応を見るかぎり様々な業種の方に聞いていただけたのかなと思っています。

当日、視聴していただいた皆様は、どうもありがとうございました。

2011年10月4日火曜日

NLP若手の会で発表しました

会社のブログにも書いたのですが、9/21, 22にNAISTで開催されたNLP若手の会シンポジウムで発表してきました。私は幸運にも最優秀奨励賞をいただきました。投票してくださった皆様どうもありがとうございます。発表資料はこちら。


さて、ちょっと裏話でも書きます。もともと発表する気(も時間も)はなかったのですが、プログラム委員ということでどちらにしろ奈良に行くのと(これは後に案外みんな来てないことがわかった)、最近開発&案件続きでちょっと研究もやりたいねということで、急遽発表ネタを捻出することになりました。特に検索クオリティを上げるような面白いネタはないだろうか。以前から確率的単語分割で検索品質を上げるという話があったのですが、これを確率的構文解析に適用したら・・・。単語境界情報のみだと、スキップのある部分文字列検索に自然な適応ができません。係り受け関係というのは、ある意味こうしたスキップのある構造に対する答えの気がしてきます。長い複合語などの検索がやりやすくなるのでは。そういう風な議論から話が始まりました。

発表は、私がネタを振って、みなさんの考えを色々引き出す感じで行いました。発表する中で気になったのは、文の「構造」をどういう風に捉えているのかということでした。文が、「構造」を持っている、つまりシーケンス以上の情報を持っているということはおそらく同意が取れると思うのですが、その「情報」がなんなのか、どう表現できるのかについては十人十色の考えを持っているようです。係り受けのような表現(全域木)もあれば、句構造にように中間のノードを付与する表現方法もあります。でも、実はこれらの幾つかが同じ情報の別表現(一対一対応がとれる)だったりもするし、グラフ構造のように視覚的に表現しやすい必要もないのかもしれない・・・。こうした構造のもつ情報、また表現方法などを探ると、文に対してもう少し別の見方が見つかるんじゃないのか、というのが今回思ったことでした。また、発表の途中で松本先生がいらっしゃって、文字単位の係り受け表現についていろいろ教えていただけたことも収穫でした。たまたま、こうした研究を以前やっていらっしゃったらしく、取り扱いの面倒な現象をたくさん教えていただけました。その他にも、今回は知り合いの研究者の方がたくさんいらっしゃって、論文やらアイデアやらをたくさん教えていただき、感謝です。