2023-12-11

シェルスクリプトでFOR文でバックグラウンドで起動したの並列処理を待機する方法

その他

# ジョブ ID を格納する配列
job_ids=()

array=(2 5 4 7 2 1)
for i in ${array[@]}; do
    
    # ジョブをバックグラウンドで実行し、ジョブ ID を取得
    (sleep $i && echo $i) &
    
    # 直前にバックグラウンドで起動したプロセスの ID を取得
    job_ids+=($!)
done

# すべてのジョブが終了するまで待機
for job_id in "${job_ids[@]}"; do
    wait "${job_id}" || exit 1
done

# 後続処理を記述
echo "Finish!"

結果

 » sh sample.sh
1
2
2
4
5
7
Finish!

■例
あるフォルダのすべてのファイルに対して並列で時間のかかる処理を実行し、並列処理が完了したら後続処理をしたいという場合

input_dir=$1

# ジョブ ID を格納する配列
job_ids=()

for file in "${input_dir}/*"; do
    
    # first.sh(時間がかかる処理)をバックグラウンドで実行し、ジョブ ID を取得
    (sh first.sh "${file}") &
    
    # 直前にバックグラウンドで起動したプロセスの ID を取得
    job_ids+=($!)
done

# すべてのジョブが終了するまで待機
for job_id in "${job_ids[@]}"; do
    wait "${job_id}" || exit 1
done

# 後続処理を記述
sh second.sh

補足

job_ids=()

この書き方ではbash特有の記法になる。
POSIX準拠の記法は以下のようになる。

# POSIXシェルでは配列を使わず、代わりに一時ファイルを使用
job_ids_file=$(mktemp)

for file in "${input_dir}/*"; do
    # first.sh(時間がかかる処理)をバックグラウンドで実行し、ジョブ ID を一時ファイルに書き込む
    (sh first.sh "${file}") &
    echo $! >> "$job_ids_file"
done

# 生成したジョブIDの一覧を読み込み、それぞれのジョブが終了するのを待つ
while IFS= read -r job_id; do
    wait "${job_id}" || exit 1
done < "$job_ids_file"

# 一時ファイルを削除
rm "$job_ids_file"

# 後続処理を記述
sh second.sh

2023-10-27

【DRF】カスタムユーザーを使ってuserをregisterする時、パスワードを入れているのに「この項目は必須です。」と言われる

Django Rest Frameworkを使ってカスタムユーザーを使ってユーザー登録しようとした時、password1とpassword2を同じにして登録しているはずなのにパスワードが必須だと言われる。

{
    "password1": [
        "This field is required."
    ],
    "password2": [
        "This field is required."
    ]
}

（日本語版）

{
    "password1": [
        "この項目は必須です。"
    ],
    "password2": [
        "この項目は必須です。"
    ]
}

ネットでいくら探しても有力な解決法はなかったけれど、自分なりの解決法が見つかったのでブログに記すことにする。
qiita.com
一応Qiitaでも同様の現象が報告されているが解決策が力技すぎた。
当記事の原因とは違うなどどうしても解決できない場合は参考にしてみてほしい。

前提

認証には dj-rest-auth を使用。
今回作成したカスタムユーザーは以下の通り。

[accounts/models.py]

...
class User(AbstractBaseUser, PermissionsMixin, TimeStampedModel):
    name = models.CharField(max_length=128, verbose_name=_('Name'), null=False, blank=True)
    email = models.EmailField(unique=True, verbose_name=_('Email'))
    icon = models.ImageField(verbose_name=_('Profile picture'), null=True, blank=True)
    birthday = models.DateField(verbose_name=_('Birthday'), null=True, blank=True)
    bio = models.TextField(verbose_name=_('Biography'), null=True, blank=True)

    is_active = models.BooleanField(verbose_name=_('Is active'), default=True)
    is_staff = models.BooleanField(verbose_name=_('Is staff'), default=False)
    is_superuser = models.BooleanField(verbose_name=_('Is superuser'), default=False)

    objects = CustomUserManager()

    USERNAME_FIELD = 'email'

[accounts/serializers.py]

....
class UserRegisterSerializer(RegisterSerializer):
    email = serializers.EmailField()
    name = serializers.CharField(max_length=128)
    birthday = serializers.DateField()
    bio = serializers.CharField(required=False)

    def get_cleaned_data(self):
        return {
            'username': self.validated_data.get('username', ''),
            'password1': self.validated_data.get('password1', ''),
            'email': self.validated_data.get('email', ''),
            'name': self.validated_data.get('name', ''),
            'birthday': self.validated_data.get('birthday', None),
            'bio': self.validated_data.get('bio', None),
        }

    def custom_signup(self, request, user):
        data = self.cleaned_data
        user.name = data.get('name', '')
        user.birthday = data.get('birthday', '')
        user.bio = data.get('bio', '')
        user.save()

modelsとserializersはこのように定義し、settingsでこのserializerをregisterに使うように設定した。

[project_name/settings.py]

...
REST_AUTH = {
    "REGISTER_SERIALIZER": "accounts.serializers.UserRegisterSerializer",
}
...

ここまでの流れはだいたいこの記事の通りにした
Custom users using Django REST framework | Kraken Systems Ltd.

原因

原因は自分の場合、JSONの出力と入力をcamelCaseに対応させるため djangorestframework_camel_case を入れていたことが問題だった。
どうやら "password1" が "password_1" と解釈されるよう。
"password1"って書き方正式にはsnake_caseじゃないんですね。知らなかった…
この原因を突き止めるまで相当苦労した…

解決

暫定対応１

とりあえずcamelCaseを辞めるのを暫定対応とした。
つまり `settings.py` を書き換える。

REST_FRAMEWORK = {
    'DEFAULT_RENDERER_CLASSES': (
        'djangorestframework_camel_case.render.CamelCaseJSONRenderer',
        'djangorestframework_camel_case.render.CamelCaseBrowsableAPIRenderer',
        'rest_framework.renderers.JSONRenderer',
    ),
    'DEFAULT_PARSER_CLASSES': (
        'djangorestframework_camel_case.parser.CamelCaseFormParser',
        'djangorestframework_camel_case.parser.CamelCaseMultiPartParser',
        'djangorestframework_camel_case.parser.CamelCaseJSONParser',
        'rest_framework.parsers.JSONParser',
    ),

こう書いていたのを

REST_FRAMEWORK = {
    'DEFAULT_RENDERER_CLASSES': (
        'rest_framework.renderers.JSONRenderer',
    ),
    'DEFAULT_PARSER_CLASSES': (
        'rest_framework.parsers.JSONParser',
    ),

こうする。

暫定対応２

とはいえフロントとの疎通の仕様上いまさらcamelCaseをsnake_caseに書き換えるのは無謀な話ということだった。
なのでどうにかならないかと思い悩んだ結果Serializerを書き換えることでなんとか対応できた。
具体的にはpassword1とされるところを徹底的にpassword_1に置き換えるという作業をした。

継承元のserializers.Serializerでfieldの変数名を解釈している箇所"fields"
RegisterSerializerで"password1", "password2"という変数名を取って来て比較している箇所"validate"
RegisterSerializerで"password1"というフィールドを取得する箇所"get_cleaned_data"

を書き換える必要があった。

from django.utils.functional import cached_property

class UserRegisterSerializer(RegisterSerializer):
    email = serializers.EmailField()
    name = serializers.CharField(max_length=128)
    birthday = serializers.DateField()
    bio = serializers.CharField(required=False)

    @cached_property
    def fields(self):
        from rest_framework.utils.serializer_helpers import BindingDict
        fields = BindingDict(self)
        for key, value in self.get_fields().items():
            if key == "password1":
                key = "password_1"
            if key == "password2":
                key = "password_2"
            fields[key] = value
        return fields

    def validate(self, data):
        if data['password_1'] != data['password_2']:
            raise serializers.ValidationError(_("The two password fields didn't match."))
        return data

    def get_cleaned_data(self):
        return {
            'username': self.validated_data.get('username', ''),
            'password1': self.validated_data.get('password_1', ''),
            'email': self.validated_data.get('email', ''),
            'name': self.validated_data.get('name', ''),
            'birthday': self.validated_data.get('birthday', None),
            'bio': self.validated_data.get('bio', None),
        }

    def custom_signup(self, request, user):
        data = self.cleaned_data
        user.name = data.get('name', '')
        user.birthday = data.get('birthday', '')
        user.bio = data.get('bio', '')
        user.save()

継承元のserializers.Serializer の関数をオーバーライドするという魔改造なのでDjangoの仕様が変わるとそれに対応できなくなるという怖さがある。

追記

恒久対応

ついに恒久対応を見つけてしまった。
djangorestframework_camel_caseの仕様で特定の文字をparse対象から省くことができる機能がある。
GitHub - vbabiy/djangorestframework-camel-case: Camel case JSON support for Django REST framework.

[project_name/settings.py]

REST_FRAMEWORK = {
    # ...
    "JSON_UNDERSCOREIZE": {
        "ignore_keys": ("password1", "password2"),
    },
    # ...
}

とするだけ。
※ accounts/serializers.pyは元に戻す

2023-08-31

動画・画像にSaliency Mapを重ねて出力する（Python, OpenCV)

pythonのOpenCVを使って顕著性マップ(saliency map)を元の画像に重ねて表示する。
重ねて表示することで動画や画像を目視しながら分析することができる。

顕著性マップ(saliency map)とは

サリエンシーマップとは、人々の視線が最初に向かう領域を表現するヒートマップのこと。視覚的な重要度をピクセル単位で示すためのもので、画像の自動編集やマーケティングの分析などに活用されている。
アルゴリズムとしては古典的なアルゴリズムベースのものに加え、近年では深層学習を使ってサリエンシーマップを推定する技術の研究も盛んである。
OpenCVなどで実装されているものは古典的なアルゴリズムで、計算量はO(N)(Nはピクセル数)。

実装

1. 必要なライブラリをインストール

pip3 install opencv-python
pip3 install opencv-contrib-python

2. 実装

import cv2

def __saliency(src):
    saliency = cv2.saliency.StaticSaliencySpectralResidual_create()
    (success, saliemcy_map) = saliency.computeSaliency(src)
    if success is False:
        return (False, None)
    saliemcy_map = (saliemcy_map * 255).astype("uint8")
    heatmap = cv2.applyColorMap(saliemcy_map, cv2.COLORMAP_JET)
    # src1の重み0.7 src2の重み0.5 ガンマ1.0
    weight = cv2.addWeighted(src,0.7, heatmap ,0.5 ,1.0)
    return (success, weight)


def movie_saliency(src_file = "sample_video.mp4", dst_file = "sample_output.mp4"):
    input_video = cv2.VideoCapture(src_file)
    fps = input_video.get(cv2.CAP_PROP_FPS)
    frame_width = int(input_video.get(cv2.CAP_PROP_FRAME_WIDTH))
    frame_height = int(input_video.get(cv2.CAP_PROP_FRAME_HEIGHT))
    output_video = cv2.VideoWriter(dst_file, cv2.VideoWriter_fourcc(*'mp4v'), fps, (frame_width, frame_height))
    while True:
        ret, frame = input_video.read()
        if ret is not True:
            break
        (success, saliemcy_map) = __saliency(frame)
        if success is True:
            output_video.write(saliemcy_map)
    input_video.release()
    output_video.release()


def img_saliency(src_file = "sample.jpg", dst_file = "sample_output.jpg"):
    image = cv2.imread(src_file)
    saliency = cv2.saliency.StaticSaliencySpectralResidual_create()
    (success, saliemcy_map) = __saliency(image)
    if success is True:
        cv2.imwrite(dst_file, saliemcy_map)


if __name__=="__main__":
    movie_saliency()
    img_saliency()

3. 実行結果
元画像

実行結果

元動画