Kaggleの勉強会を開催しました

修士1年の齊藤主催のもと、研究室の勉強会を開催しました。
今回はデータ分析の入門をテーマにKaggleの問題に取り組みました。

データ分析に必要な前処理や特徴量エンジニアリングといった工程を、用意したプログラムを動かすことで学習しました。
実際に機械学習で学習器を作成し、全員がKaggleの問題に回答を提出することができました。

今回はgithubやKaggleのkernel機能を用いて、プログラムの共有を行いました。kernel機能は、自身のPCに環境構築をすることなくデータ分析のプログラミング・結果の提出を行うことができます。
下記のリンクからアクセスが可能です。

https://github.com/FumiakiSaito38/Lab_study_Kaggle
https://www.kaggle.com/saito38/lab-study

また、今回の勉強会資料作成のために下記リンクの記事・プログラムを参考・引用・改変しております。
Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ – Qiita

ジャーナルクラブ「ダイジェスト映像自動生成のための観点の入れ替わりに基づいた特徴的シーン抽出」

ジャーナルクラブで発表したスライドです.以下は論文の140字要約です.

ニコニコ動画に投稿されている野球動画についたコメント内容を分析し「肯定的」「否定的」に分類.同時に同じようなコメントをするユーザをクラスタリング.クラスタごとのコメントをスコア付けしてこのスコアをつかって特徴的なシーンを抽出する方法を提案する.

コメント投稿者でクラスタリングをして傾向を掴み,コメントの極性で観点を抽出する手法が面白いと思いました.


2019年度忘年会&OG訪問

今日は研究室OGで山本研1期生の藤堂さんが企業紹介で研究会に参加してくれました!社会人として活躍する姿をみて、大いに刺激をもらいました!

また、2019年もあと少しなので研究室の忘年会を実施しました。若月くんが良いお店を選んでくれたので楽しい時間を過ごすことができました!

来年もまた頑張りましょう!

忘年会の様子。藤堂さんも参加してくれました。

iiWAS2019参加レポート(中野)

ミュンヘンの旧市庁舎。下の広場ではクリスマスマーケットが催されていました。

12/2~12/4にかけてミュンヘンで開催されました国際会議iiwas2019に、研究室同期の梅田と共に参加してきました。初めての国際学会参加であることや英語でプレゼンを行わないといけないことなど個人的に初めての経験ばかりで、ミュンヘンに滞在した6日間だけでかなりの人生経験ができたような気がします。

英語なんて大学受験以降ちゃんと勉強していない私にとって、発表はかなりの困難であり、ギリギリまで発表練習を続けていました。先生や他大学の先輩方に付き合っていただき前日の夜遅くまで文章やスライドを修正していました。

発表自体はなんとか乗り切りましたが、質疑応答では相手の質問の意図がなかなか汲み取れず、かなり苦労しました。外国から参加した方達は平均的に日本人以上に英語を話す能力があるのですが、出身地域によってかなりイントネーションに差があり、日本人英語ばかりで耳をならした私にとってはかなり聞き取り辛いものでした。それでも大きな問題なく?なんとか回答して乗り切ったので、自分の番が終わった瞬間にはかなり安堵したことを覚えています。

個人的にこの学会での一番の思い出は、他国の参加者の方と一緒に昼食をとったことです。質疑応答でうまく回答できなかった方に対してセッション終了後に声をかけたところ、昼食に誘ってもらい、その後1時間くらい会話しました。せっかく国際学会に参加したのだから異文化交流がしたいと思っていたので、たどたどしい会話でしたがコミュニケーションがとれたことはよかったと思います。

会場には軽食コーナーが設置されていて、お菓子やコーヒーがセッションの休憩中に食べれました。

学会発表論文レポート:セッション“classification techniques and application”

以下では学会で参加したセッションで発表されていたいくつかの論文についてまとめます。このセッションにおいては名前の通り、何らかの領域を対象に分類問題に取り組むという研究が報告されていました。英語力の問題で内容を完全に理解できていないかもしれませんが、理解できた範囲での率直な感想です。

Tourism application with CNN-Based Classification specialized for cultural information

旅行者のための注意喚起文を従来よりもユーザフレンドリーに表示しようという取り組みです。アプローチとして、注意喚起を行いたいスポットやランドマークをユーザが撮影することで、テキストが表示されるというアプリケーションを作成していました。手法としては対象となるランドマークなどをあらかじめ設定し、またそれに対応するテキストも用意したものを表示するというものであり、設定した各要素についてその文書の適切さを評価していました。

 個人的には対象となる要素の選定基準にやや疑問が残るように感じました。研究背景として外国人旅行者を設定するのであれば対象となるものは観光で訪れる場所あるいはそこに存在し、かつ着目してしかるべきものである必要があるはずで、その観点からすれば、富士山や原爆など、有名なランドマークでこそあれ、そこに背景となる前提を踏まえたときの妥当性はないように感じました。また、今回の研究で設定された要素は訪れる地域によってそれが利用可能な情報かどうかが依存し、一箇所における有用性はあまりないように思えたので、広範に利用可能な拡張ができれば面白いと感じました。

Fake News Classification Based on Subjective Language

フェイクニュースを主観的な言語を抽出することによって検出しようという研究です。この研究においてはユーザの興味を引くことを重視してその情報の信憑性があまり考慮されていない文書をフェイクニュースとして問題視し、それを自動的に取得することに着目しています。アプローチのベースラインは上述した主観的な言語に着目するということにつきます。主観的な用語のデータセットを用意し、それを含むニュースデータをフェイクニュース、そうでないものを適切なニュースであると評価するような分類器を作成し、その性能を評価していました。アプローチとして機械学習法を3パターンと、p@kでの評価を見ることで最適な方法の検討を行っていました。

 研究として、内容ではなく語句に着目したことで、内容評価における分類器の解釈の恣意性をさほど懸念する必要がないという点では良いアプローチではあるのかと思います。しかしながら、主観的な語句というものが文書自体にもたらす影響については決め打ちであるような印象を受けたので、そこをより検討するべきであるように思いました。

Building Classifier Models for on-off Javanese Character Recognition

ジャワ語の手書き文字を機械で自動認識させるためのアプローチに関する検討です。インドネシアなどの地域では公用語でないものの多くの話者のいるジャワ語ですが、その記法は一つの文字を3行に分割可能な記号の組み合わせで表現するものであり、またそれら自体も一見するとかなり類似しているように見えるため、機械での自動認識は困難であるそうです。そのため、本研究では手書き文字データをいかに自動認識させるかというタスクを、文字特性に合わせた画像分割を行なった上で、いくつかの機械学習法を用いて性能評価していました。結果として特別最適な手法が明らかになったわけではありませんでしたが、SVMを用いた場合に精度が著しく落ちるなど、手法による差異を発見できたことを収穫としていました。

 ジャワ語について私はあまり詳しくはありませんが、データセットとしてかなり年代を跨いだ文書を用いるなど、正解データの一貫性については疑問の残るアプローチをとっていました。昔の書籍などのデジタル化などが最終的な目標であることは理解できますが、あえてそうした文書を用いたことについてもう少し説明があっても良かったような気がします。

Movie Genres Classification using Collaborative Filtering

タイトルの通り、協調フィルタリングを用いて映画のジャンル分類を行おうという研究です。この研究ではある映画レビューサイトのレイティングスコアのみを利用し、各ユーザ毎のそれらに対する評価特性の差からジャンルを導きだそうというものです。基本的なアプローチとしてはスコアをベクトル化してk近傍法などを用いてその類似性を評価するものであり、スコアのみを利用したにも関わらずその分類性能において比較的高いF値を得られていたように思います。

 個人的には私の研究とアプローチは違えど同じ目的を持っているため、セッションの中では一番興味のある研究でした。レイティングスコアのみで映画ジャンルという多値の分類が行えることには関心しましたが、特別に独自のアプローチを用いたというようには感じられませんでした。

謝辞

学会参加にあたり、山本先生はもちろん、本当に多くの方にお世話になりました。すべての方にお礼を申し上げたいところですが、ここでは特に発表練習に夜遅くまで付き合ってくださった兵庫県立大学の高橋さんと村本さん、そして滞在3日目から体調を崩した私を気遣ってくれた同期の梅田くんに対して感謝を述べたいと思います。ありがとうございました。

iiWAS2019参加レポート(梅田)

12月2日~12月4日にドイツのミュンヘンで開催されたiiWAS2019に参加してきました。iiWASはInformation Integration and Web-based Applications & Servicesの略称で、多くの分野に渡る研究発表がなされていました。初めての海外・初めての英語での発表など、沢山の懸念事項がありましたが無事に終えることができました。この記事では私が発表したセッションやiiWAS2019全体で体験したことについて記述します。

私が参加したセッションはHCI and Crowdfundingで4つの研究が発表されました。どのような研究だったかを以下に簡単にまとめます。

Gamifying Human Behavior in Urban Crowdsourcing for a Sustainable Smart City
クラウドソーシングのような集団で協力しながら物事を成し遂げることが人間に及ぼす影響についての研究。また、そのようなタスクの設計方法について研究されていた。この研究ではタスクをゲーム感覚のよう扱うことによって人を集めやすく、集団での行動・管理をすることを狙いとしていた。

Query Recommendation to Draw a Laugh from Web Searcher
私が発表した研究。ウェブ検索を行う際のクエリ入力時に笑いを誘発する語を表示することによって、ユーザーの笑いを誘う研究。語と語の関係性の意外性と意味的な対立性に着目することでクエリに対して笑いを誘う語を組み合わせることができると考えた。結果として複数のクエリに対して確かに笑いを誘う語を表示させることができた。

What Independent Game Developers Expect from Recommender Systems
インディーズゲーム製作者にとってのゲームの電子推奨システムについての研究。研究の背景には、近年のゲーム業界が技術的にも経済的にも成長を遂げていることがあげられていた。電子推奨システムはゲームを販売する側にとってはプロモーションやマーケティングへのコストを減らし、購入する側にとってはゲームが自動推薦されるので検索時間を減らすことができる。結果としては、多くの販売者は電子推奨システムを肯定的に捉えていることが判明した。

The Impact of Updates in Social Crowd Projects: Insights from a German Equity Crowdfunding Platform
株式クラウドファンディングプロジェクトにおける資金調達プロセスの経時的変化を分析クした結果が報告されていた。更新することで投資の数が増えるだけでなく、投資額も増えることがわかった。

同じセッションでも研究していることは様々で、こんなことでも研究になるのかというのが素直な感想でした(私の研究も同様に思われているはず)。当然ですが発表は英語で行います。私の研究の場合、笑える言葉の組み合わせを紹介して会場の人を笑わせる必要があります。日本語ですら難しいことなのに英語でそれを行うなんてと考えていましたが、会場の方は優しく笑顔で私を迎え入れてくれました(アンパンマンとアソパソマソって似ているから笑えるよねという説明で笑ってくれる優しい方々でした)。発表以外にも、質疑応答も英語で行わなければなりません。拙い発表にも質問をくれる方々にありがたさを感じる一方で、十分な受け答えができない申し訳なさも感じました。実際、質問内容を勘違いしており、途中まで見当違いなことを答えてしまう場面もありました。英語能力の重要性を痛感しました。多少の失敗はありましたが、良い経験になりました。

研究発表以外の時間にウェルカムパーティーやバンケットなどのイベントが行われていました。ドイツの伝統的な料理に舌鼓を打ちつつグローバルなコミュニケーションを取れる素敵な時間でした。外国の料理は美味しくないと耳にすることがありますが全然そのようなことはなく、ほとんどのものを美味しくいただけることができました。ドイツのビールは最高です。ただ、この場でも問題として浮上してくるものが英語能力で、隣の席の外国の方とお話をするのですがなかなか言いたいことが伝わりません。なんとかコミュニケーションは取れましたが、相手の優しさに救われた形でした。どんな時でも英語能力の低さに後悔する形になりました。イベント自体は非常に楽しかったです。

研究発表もイベントも良い経験になりました。多くの研究発表を聞くことで自分に刺激を与え、研究へのモチベーションを上げることができました。また、イベントへ参加することで(不純な動機ですが)また参加しようと思うことができました。その一方で多くの課題も見つかりました。自分の良い点も悪い点も、このような機会に明確に現れると思います。iiWAS2019に参加できてとても良かったと思います。



ジャーナルクラブ「Speak Little and Well: Recommending Conversations in Online Social Streams」

概要
各ユーザの好みに対応した、興味の持てる会話をツイッターから見つけるアルゴリズムを考案した。
種類の違うアルゴリズムの効果をランダムと比較したところ、内容の関連性と繋がりの強さを用いたものが一番効果があった。
さらにツイッターを交流目的で使うユーザには、情報収集目的より効果が発揮された。

この論文では様々な質の情報であふれているSNSから,自分が興味がある情報を見つけるためのアルゴリズムを考案し,実験によって効果を比較しました.

研究において参考になったところは,ツイッターユーザーの目的は2種類あることを実験の回答から導きだしているところです.(スライド11)
実験では「どのくらいツイッターを情報収集目的で使用しているか・交流目的で使用しているか」についていくつかの質問をしていました.

情報収集目的で「かなり使用する」に対し,交流目的は「場合による」という人が多いという結果になりました.そこからツイッターユーザーは情報収集目的のみの人と,情報収集目的と交流目的両方の人に分かれるという考察をしました.

また考案したアルゴリズムの比較をするだけでなく,ユーザーの目的の違いで比較する点も参考になりました.

ジャーナルクラブ「爆笑カメラ」

ジャーナルクラブで発表したスライドです。

今回私が紹介したものは、「爆笑カメラ:笑い声により自然な笑顔を撮影するカメラシステム」です。この論文では、”写真撮影時に顔がこわばる”という問題を解決するために、笑い声を再生して、つられ笑いを促すカメラシステムを構築し、効果を検証しています。

現在、スマートフォンの普及とそのカメラの高機能化によって、写真を撮る機会は、ごく日常的なものになりました。Instagramなどの写真を投稿するSNSの存在もまた、写真撮影の機会を増進させています。写真館で写真のプロが撮るのならば良い表情を撮影できても、一般的な人ではなかなかできません。それを助けるというところに、このシステムの意義があるのではないかと考えました。

また、爆笑カメラは写真を撮ること自体に新しい体験を付加しているような気がします。写真撮影が単に思い出を切り取るものではなく、それ自体が何か新しいエンターテインメントになるような、そんなものが作れたらいいなと思いました。