IIT-Madras' AI4Bharat Lab Introduces IndicVoices Dataset Encompassing 22 Languages

1. IIT-Madras Unveils IndicVoices Dataset:

[{"selector":"#anim-1db275a0-fa61-49e1-a92f-1a70f89acb32 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-53.21061649631993%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-cc917847-fee6-4ee1-82cf-40dc2fa2c5a8","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-7523164c-38bd-4651-86f3-8dbe263aeae3","keyframes":{"transform":["translate3d(0px, -940.03563%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-d678d211-16d6-4190-a49e-83a213f288a9","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5eccc451-a5ea-4a69-8b76-1cdd467c5757","keyframes":{"transform":["translate3d(116.29393%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-63d65aa8-56a7-4014-bc41-500c1c82a2f9","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-f1918df0-3bc9-4c12-8bb2-8d9a49fe5c19","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] AI4Bharat's open-source dataset covers 22 Indian languages for future language technology developments.

2. Mission to Capture Spontaneous Speech:

[{"selector":"#anim-40ecce5a-a863-44b7-8137-ed323da9a007 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-57.23026324908369%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-b57a0f1c-7c14-4867-838a-337abc28b881","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-b87f099e-a6c1-4002-a548-66b99818fed8","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-9d6bf8cf-78c1-4d84-b74f-657b53b868c7","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-0b234305-fe2b-4296-9c25-9fbfb08c3219","keyframes":{"transform":["translate3d(0px, -940.03563%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2388daf6-df16-4d9e-b421-cb749900211c","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-031bd8fd-abf2-4d09-929f-7d2904b25892","keyframes":{"transform":["translate3d(116.29393%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] IndicVoices collects 7,348 hours of audio to develop IndicASR, supporting all languages in India's constitution.

3. Funding and Support:

[{"selector":"#anim-cebd7801-5036-405b-880c-745833021fb1 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-63.044819220328066%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-abfdda5b-96a4-4d91-95b5-200cd5cf28d6","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-5c1a69e9-3795-4d88-87e2-ec181de34aab","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-cee7e208-d7a7-43b1-ace7-683e5c4a1862","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-8bd13476-4529-43a3-afce-8226b0e5ee36","keyframes":{"transform":["translate3d(0px, -1984.07373%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-7a97faab-d1ef-4c90-b84b-8d0c795e2545","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6f3e9fa5-2495-420e-8a08-6c693fc6a32d","keyframes":{"transform":["translate3d(116.29393%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] AI4Bharat's open-source dataset covers 22 Indian languages for future language technology developments.

4. Innovative Open-Source Blueprint:

[{"selector":"#anim-0ade4c2d-82b6-4cbb-98fc-e51421353897 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-37.64905420884973%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-6f349fea-bc11-468f-aba2-932f9384b252","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-9be44b37-3aa3-478a-998f-c58ead9cc13d","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-c67f388f-4d07-4df3-b8a3-ff25f37a98b5","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-8d37e82d-eb9c-432f-bd37-c1c939f41d4a","keyframes":{"transform":["translate3d(0px, -924.16263%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-45560e0c-f415-4f65-81a5-a0940bd47150","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5efff317-d88c-4d73-ade5-e5593784a89a","keyframes":{"transform":["translate3d(116.29393%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] AI4Bharat shares a blueprint, facilitating data collection for multilingual regions globally, aiding future projects.

5. Progress and Transcription:

[{"selector":"#anim-563370a5-b46b-418c-817b-288c65c9e088 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-17.249177407718797%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-0273db29-66b3-4ea7-a855-2bb71b2a66d1","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-823d88e2-04f2-4f30-a57b-cab6fb3b2ff6","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-363beed5-10b0-498b-8ee3-7e1ecbc18152","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-0cae64d4-3827-41c6-944b-1602c6a2d288","keyframes":{"transform":["translate3d(0px, -940.03563%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f9f2244b-5b06-498a-9bd4-e68c00a9eeb4","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-1df0fb1c-27c4-43fb-85f5-3228a7cb111a","keyframes":{"transform":["translate3d(116.29393%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] 1,639 hours of the dataset already transcribed, providing a foundation for building 22 language models.

6. Bhashini's National Digital Platform:

[{"selector":"#anim-95790987-7f93-48fb-8362-9317fd8dde31 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-41.95106904685971%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-6c48358c-c65f-421b-99ab-cee83a22a5bd","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-84c4373c-3f82-40ca-bc16-3c7807d92a52","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-11dfb6f1-04a7-479a-bfb7-f3d36a789b06","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-779e14ca-92f1-463e-a1c5-ac669beec0dd","keyframes":{"transform":["translate3d(0px, -940.03563%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-982d13e4-d724-47d8-b4a4-614d2679bd7f","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-4e5f9945-c75d-46ca-b62f-29ae076af32e","keyframes":{"transform":["translate3d(116.29393%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Bhashini aims to create a National Public Digital Platform for language-based services, promoting AI and technology.

7. Industry and Academic Collaboration:

[{"selector":"#anim-c301ecc8-3eb9-4a60-8d07-ef5ba41b8296 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(39.73067429175778%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-8b6405d6-0d0d-4e71-8bb0-b1d1626fac78","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-241c8b85-1a72-40af-9529-36b74b67d20e","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-4483a4e0-09e7-4de4-8e07-e2731ef5243b","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2fa5f4a8-f556-4397-9a17-3a1c906bc8bb","keyframes":{"transform":["translate3d(0px, -924.16263%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e1b51377-0bb2-4e02-912a-09def90a1687","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-80d230be-a9e6-4da2-b6d6-c69dc0e00b91","keyframes":{"transform":["translate3d(116.29393%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Over 70 research institutes, including IITs and AI4Bharat, benefit from Bhashini's support for innovative language solutions.

8. Amitabh Nag on Dataset Impact:

[{"selector":"#anim-b93b2521-7b84-44e9-a4fd-66956c828a76 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-28.90624987200394%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-aa230c72-720a-47bd-ba72-57b9d3f94bbb","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-be95ad29-634a-4361-b122-dcd3967547a5","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-e64abfb3-7974-4f75-984e-b66d95d3da47","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f410eb0c-04f8-4a8f-b45f-c8361789fc68","keyframes":{"transform":["translate3d(0px, -940.03563%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-960df03a-b6ae-411b-8a2b-5f0075061823","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-632ba150-21be-4386-a755-863a2dd6fb30","keyframes":{"transform":["translate3d(115.33547%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Bhashini's CEO, Amitabh Nag, anticipates the dataset's role in shaping language models and use cases.

9. Unlocking Innovation Potential:

[{"selector":"#anim-d278c038-0126-4fb8-bcea-0241e7896e47 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.303209364211945%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-ea2bce9d-39ba-4bf6-b09a-2df74df58df8","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-ac71c32c-9df3-4a80-9a31-fd9ff7eb7332","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-aa578f14-3872-4d52-a895-9656c53018c4","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-fde2f425-5ddd-47c7-8d50-09564570f11a","keyframes":{"transform":["translate3d(0px, -940.03563%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c4fe276b-ec29-4d5f-838b-766ba3a0057f","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-154fcea5-8ce9-4237-82d4-91c97d0e49c8","keyframes":{"transform":["translate3d(117.89138%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] The dataset's open nature eliminates barriers, enabling startups and academia to innovate with native voice datasets.

10. Empowering Government Services:

[{"selector":"#anim-e23751f0-df21-4d68-a02a-1de4dd9795b9 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.254687386254172%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-7d0207bd-6128-404b-8408-9e0ca7f18368","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-2d4d7f43-fd86-4e7b-897b-e27f9a51ae27","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-47bba1a3-22cc-4e08-ab96-939cc9d1116e","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-13d72dd8-aa4e-404a-9284-328e93ee5bd8","keyframes":{"transform":["translate3d(0px, -924.16263%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6fa6e2e7-2d0d-4bc2-a68c-7a233a80d2b2","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-456f6ce7-6c2b-4b74-bc57-037277330fcc","keyframes":{"transform":["translate3d(115.97445%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] The government can extend services using the dataset, particularly in remote areas, enhancing citizen engagement.

10 Lines on Moon

[{"selector":"#anim-7b172257-d4a6-4f6b-9df0-9bbf6c889817 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-d0fdec42-578e-48fe-802b-248e78500906","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-05a59f28-4b7e-4c54-bee0-1f59fbf738c7","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-7933e199-c386-4911-a67f-9358a43d4cb3","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-fb56cc95-a231-498a-a2b6-cef103cbc544","keyframes":{"transform":["translate3d(0px, -1824.92342%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Read here...