HuBERT: 教師なし学習+ファインチューニングで動作する音声認識モデル
HuBERTは下記の論文で紹介されている手法です。 下記の論文 HuBERT: Self-Supervised Speech RepresentationLearning by Masked Prediction of Hidden Units : https://arxiv.org/pdf/2106.07447.pdf 教師なし学習の手法は下記の図で示されます。 音声データからMFCCで特徴量抽 […]
HuBERTは下記の論文で紹介されている手法です。 下記の論文 HuBERT: Self-Supervised Speech RepresentationLearning by Masked Prediction of Hidden Units : https://arxiv.org/pdf/2106.07447.pdf 教師なし学習の手法は下記の図で示されます。 音声データからMFCCで特徴量抽 […]
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/LayoutLMv2/RVL-CDIP/Fine_tuning_LayoutLMv2ForSequenceClassification_on_RVL_CDIP.ipynb 動作確認はGoogle Colabで行います。下記に動作方法を記述しています。 必要なライブラリを […]
DeepStreamは動画データに対して前処理からDeep Learningによる動画解析までを高速に行えるアプリケーションです。 DeepStreamで扱えるのはTensorRTエンジンに変換可能もしくは変換済みのモデルになります。変換できないケースは対応できません。 Triton inference Serverの機能が加わったのでTensorRTエンジンに変換できないモデルでも扱うことができ […]
本記事は下記エラーが出た際の対応方法を記述します。 `docker: Error response from daemon: could not select device driver “” with capabilities: [[gpu]].` 下記のコマンドを実行します。 ドライバーのアップデートの際にnvidia-dockerに関するソフトウェアも削除されているの […]
量子化を考慮した学習については前回記事を書いたので、こちらをご覧ください。 前回の記事はCPUでしか動作確認していませんでしたが、GPUで動作確認できたので、その内容について記述します。 動作環境 Google Colabを使用しました。設定方法は下記記事をご覧ください。 動作確認 必要なライブラリの導入 下記のコードで必要なライブラリをインストールします。 必要なライブラリをインポートします。 […]
下記リンクに物体検出にTransformerを適用したコードの紹介されています。 https://github.com/NielsRogge/Transformers-Tutorials/blob/master/DETR/DETR_minimal_example_(with_DetrFeatureExtractor).ipynb DETRについて 画像をCNNに入力して、特徴量にしたあとで、Tra […]
ConvBertとは 上図の(a)がSelf Attentionで全体の情報を各トークンで考慮しています。(b)のDynamic convolutionは一つの入力のみを考慮しています。(c)のSpan-based dynamic convolutionは窓幅を設定して、その窓幅分の局所的な情報を取得しています。図の例では窓幅3になっています。 実際のそれぞれのレイヤー構成は上図のようになっていま […]
TorchScriptはPyTorchのコードをモデルを最適化して、C++のコードでも動作可能にする機能です。 https://pytorch.org/docs/stable/jit.html 動作環境 Google Colabで動作確認しました。 日本語のBERTモデルをTorchScriptで変換 MASK部分を予測する日本語のBERTモデルを使用して動作確認をします。 モデルを取得する際にt […]
TRTorchについて 以降は下記のリンクを元に記述しています。 https://www.nvidia.com/en-us/on-demand/session/gtcfall20-a21864/ PyTorchはpython依存しているがTorchScriptを使用するとC++からも使用可能になります。モデル静的な構造に変換します。 PyTorchのモデルをTorch Script形式に変換してC […]
rinna社が日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化したので、試してみる記事になります。 https://prtimes.jp/main/html/rd/p/000000009.000070041.html 下記が以前、言語モデルを作成した記事になります。 下記の記事も参考にTwitterからのデータを取得して、言語モデルをファインチューニングしてみます。 Twitt […]