add gradient checkpointing for transformer token embedders #4544

ArneBinder · 2020-08-07T11:14:22Z

Gradient checkpointing has been released with huggingface/transformers v3.0.0. Gradient checkpointing reduces memory by 5x which makes it possible to process longer sequences on smaller GPUs. This PR allows to fine-tune transformer token embedders on a more regular GPU with high(er) max_length values.

Sorry for not providing any tests, I have no clue how to create a simple test case and no resources at the moment to figure that out. But I tried it succesfully with Longformer (max_length: 4096) and SciBert (max_length: 512) on a single RTX 2080 Ti.

dirkgr · 2020-08-10T12:56:35Z

Awesome. I just noticed that the support for checkpointing in Huggingface came originally from AI2's own @ibeltagy. Thanks for driving that!

add gradient checkpointing for transformer token embedders

a16e416

AkshitaB requested a review from dirkgr August 7, 2020 16:20

Merge branch 'master' into transformer_embedder_gradient_checkpointing

20a5839

Adds test for gradient checkpointing

ccb1b20

dirkgr approved these changes Aug 10, 2020

View reviewed changes

dirkgr merged commit b32608e into allenai:master Aug 10, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add gradient checkpointing for transformer token embedders #4544

add gradient checkpointing for transformer token embedders #4544

ArneBinder commented Aug 7, 2020 •

edited

Loading

dirkgr commented Aug 10, 2020

add gradient checkpointing for transformer token embedders #4544

add gradient checkpointing for transformer token embedders #4544

Conversation

ArneBinder commented Aug 7, 2020 • edited Loading

dirkgr commented Aug 10, 2020

ArneBinder commented Aug 7, 2020 •

edited

Loading