Dividing and Conquering Cross-Modal Recipe Retrieval: from Nearest Neighbours Baselines to SoTA
Mikhail Fain, Andrey Ponikar, Ryan Fox and Danushka Bollegala
arXiv preprint arXiv:1911.12763
私達は料理の作り方を見て、真似ることで効率よく学習します。また、料理の見た目は美味しさにも影響を与えます。 このように、視覚情報は料理において重要です。
クックパッドでは Deep Convolutional Neural Networks で材料や手順、料理の写真を分類したり、美味しそうに見える写真をユーザーに提供しています。 また、Image Embeddings で料理の写真とレシピを紐付けたり、動作認識で料理動画中のユーザーの動作を認識したりしています。 材料は調理の仕方で見た目が複雑に変化し、料理も盛り付け方で見た目が全く違うので、これらの特徴を捉えるために GPU をいつもフル稼働させています!