P-003
【業務内容】
データ収集のパイプラインや基盤の構築をメインで担当する役割になり、インターネット上にある非構造化のデータを収集、クレンジング、モデリングしプロダクト利用可能な状態にする等の活動をしています。データ収集システムもすべてフレームワーク化しており都度都度0から作るのではなく、入力と出力を合わせるだけでデータのクレンジングやモデリングが自動で走る仕組み等を構築しております。
最近ではデータのサイズも大きくなり、データプラットフォームの構築や分散システムを導入して分析等も実際にデータエンジニアリングチームで行っているので、希望すればデータアナリティクスやサイエンスの領域にも関われる環境です。特にLLMの活用に力を入れており、如何にLLMを使い難しい非構造化データを処理できるかを検証するプロジェクト等もあったりします。
【テックスタック】
[フロントエンド]
- 言語:TypeScript, React
- ライブラリ:Storybook, jest
- ホスティング:Amplify
[サーバーサイド]
- インフラ:AWS, ElasticBeanstalk
- DB:Aurora, ElasticSearch
- 言語:Node.js, Python
- フレームワーク:Express
- 監視:DataDog
- その他:AWS Lambda, AWS Batch, AWS API GateWay, AWS Glue
[データ分析]
- OpenAI
- Amazon Bedrock
- OpenSearch
- SageMaker
- Athena
- Glue