【使えるデータって?】AI活用されるビッグデータ例〜(機械)学習編〜
みなさんこんにちは!
名古屋の「知能業務自動化企業」TRYETING(トライエッティング)のながえです!
今日はAIプロジェクトの勘どころ第2弾ということで、AIプロジェクトで利用されるデータに関してご説明しようと思います!AI技術の花形、機械学習(マシンラーニングとか、聞いたことある人多いのでは...?)は文字通り、機械に学習をさせる技術のこと。目的に沿ったデータを「学習」させることで、例えば商品の受注量や売上などを「予測(推論)」させたりします。そんなAIプロジェクトを開始する上でよく質問があるのが「どんな種類のデータ」を「どれぐらいの量」集めればいいのかという質問。
いわゆるビッグデータ(Big data)といわれるものですが、実は取り組むプロジェクトによっても、適用する手法によってもいろんな状況で解釈が変わってしまうものです。今日はそんなデータにまつわる疑問を、わかりやすく解説していくコーナーです👌お付き合いください🙇♂️
そもそも「学習」って?
次のデータをご覧ください👇
これをじっくりみて、次のデータをご覧ください:
空白に入るデータはいくつだと思いますか?頭の中によくいくコーヒー屋さんの風景が浮かんで、なんとなく数字が出てきたんじゃないでしょうか?
...これが、学習です。みなさんは(たった5行の!)答えデータをみて、なんとなく予測(AI屋さん的には「推論」っていったりします)ができたと思います。人間の脳みそってすごいですね!今回の学習に必要だったデータはたったの5日分のデータだったわけですが、お店は1年中やってるわけなので、別の季節や条件の日のコーヒーの売上を予測したければ、その時期のデータを学習させてあげる必要があります。ここから「データの量(行)」が決まるんですね。よりお店のことやお客さんの属性などを詳細に想像して予測したい時は、まだデータに含まれてない「立地」とか「お客さんの年齢」などを入れてあげる必要があります。これで「データの情報(列)」を決めていくわけです。よくわからない、はっきりとしない列を増やしていっても販売数は予測しにくいですね。データが増えると学習する時間も増えるわけなので、データを選別していく(特徴量選択する)必要があります。こんなふうにして必要データを決めていき、学習を行っていきます。
需要予測に使われるデータって?
そんなにたくさんの条件揃えられない、どうやったら特徴量増やせるんだろう...!と悩んでいる方に、1つ事例を!例えば需要予測の時にこんなふうなデータから始まると思います。
POSなどで多くの企業が普通に持っているデータですね(モノを販売している企業は最低限必ず持っているはず)。問題はここからどうやって需要予測していくかです。下の例で説明していきましょう。
このようにして、日にちごとに「その日がどんな日だったのか」を表現するデータの作り方をしていくと、自ずと予測したい日を「こんな日だったら、いくつ売れる?」と問題設定することができるようになります。しかしやってることは簡単なのですが、こんなにデータを膨らませるの、Excelではしんどいですよね?祝日とか過去に遡っても年によって違うし......😭 実はデータサイエンティストにとっても、しっかりめんどくさい作業なんですよ...笑
弊社では3列のデータを入れるだけでこのめんどくさい作業を全部自動でやってしまって、自動で需要予測の結果まで出力してくれるエンジンが搭載されてます。
スプレッドシートと連携するだけで、需要予測結果が自動でスプシに出力されてしまいます...!ノーコードで作れるAI、クールじゃないですか?👌
ただいま採用強化中です〜!🎉🎉🎉
TRYETINGでは、ただいま絶賛採用強化中です!リモートでも働ける、柔軟な体制です!😉 気になる方は是非下のリンクのWantedlyのページから!
次回は、どんなデータがあればAIプロジェクトがうまくいくのか、お話しします!お楽しみに!👍