Indexing Strategy and Selection

Covers index design principles and practical selection of indexes to accelerate queries while managing storage and write cost. Topics include index types such as B tree hash and bitmap indexes and full text and functional indexes; single column composite and covering indexes; clustered versus nonclustered index architectures and partial or filtered indexes. Candidates should reason about index selectivity and cardinality and how statistics and histograms influence optimizer choices. Also assess index maintenance overhead fragmentation and rebuild strategies and the trade off between faster reads and slower inserts updates and deletes. Practical skills include reading execution plans to identify missing or inefficient indexes proposing index consolidation or covering index designs testing and benchmarking index changes and understanding interactions between indexing partitioning and denormalization.

0 questions

Database Design and Architecture

Designing and architecting databases for production and cloud environments with attention to data modeling, schema design, and access pattern optimization. Topics include normalization and denormalization trade offs, schema versus query driven modeling, entity and relationship design for transactional and analytical workloads, indexing and query optimization techniques, partitioning and sharding design decisions, schema evolution and migration strategies, materialized views and caching strategies, selection of storage layers for different data shapes, and practical operational runbooks for provisioning, monitoring, alerting, backups, disaster recovery, and capacity planning. Candidates should justify schema and architecture choices with respect to latency, throughput, development and operational complexity, maintainability, and cost.

0 questions

SQL Scenarios

Advanced SQL query design and optimization scenarios, including complex joins, subqueries, window functions, common table expressions (CTEs), set operations, indexing strategies, explain plans, and performance considerations across relational databases.

0 questions

Managed Databases and Data Services

Covers choosing and operating managed database offerings and complementary cloud data services. Candidates should understand managed relational database services such as Amazon Relational Database Service for MySQL PostgreSQL MariaDB Microsoft SQL Server and Oracle, and NoSQL document and key value stores such as Amazon DynamoDB Azure Cosmos Database Google Cloud Firestore and Datastore. Expect to explain when to choose relational versus NoSQL based on data shape query complexity transactional guarantees including atomicity consistency isolation and durability read and write patterns latency and scalability requirements. Understand scaling techniques including vertical scaling read replicas for read scaling horizontal scaling via partitioning or sharding and multi region replication and failover strategies. Be familiar with backup and restore approaches including snapshots point in time recovery cross region replication and disaster recovery planning. Know consistency models and trade offs such as strong eventual and causal consistency, and understand provisioned capacity versus serverless autoscaling models and their cost and operational implications. Candidates should also be able to discuss performance tuning topics such as indexing query optimization caching connection pooling storage and input output optimization monitoring and alerting, as well as security and compliance considerations including encryption access control and network isolation. Finally be prepared to recommend a database solution given workload characteristics such as data size read to write ratio latency targets and operational constraints.

41 questions

Relational Database Fundamentals and Design

Core concepts of relational databases and schema design including tables, relationships such as one to one one to many and many to many, primary keys and foreign keys, data integrity constraints, and the properties of atomicity consistency isolation and durability and why they matter. Understand differences between relational systems using structured query language and nonrelational databases, indexing strategies, normalization and denormalization trade offs, simple query optimization techniques, and when to choose a normalized relational design versus a document or key value store. Candidates should be able to perform basic entity identification, produce simple schema diagrams, explain persistence and durability considerations, and reason about basic performance and scaling trade offs.

0 questions

Consistency Models and Transactions

Comprehensive knowledge of data consistency models and transactional guarantees in databases and distributed systems. This includes understanding transaction properties such as Atomicity, Consistency, Isolation, and Durability (ACID) and alternative design philosophies such as Basically Available, Soft state, Eventually consistent (BASE). Candidates should be able to choose appropriate isolation levels including read uncommitted, read committed, repeatable read, serializable, and snapshot isolation and explain performance versus correctness tradeoffs and common anomalies such as dirty reads, non repeatable reads, phantom reads, lost updates, and write skew. Understand consistency models including strong consistency, strict serializability, serializability, snapshot isolation, causal consistency, eventual consistency, monotonic reads, and read your writes, and when each model is acceptable based on latency, availability, and business correctness requirements. Discuss replication strategies and their impact on guarantees, including synchronous versus asynchronous replication, multi region replication, replication lag, and replica divergence. Evaluate distributed transaction and coordination approaches such as two phase commit and consensus based protocols and weigh their performance and failure modes. Propose conflict detection and resolution strategies such as last write wins, version vectors and vector clocks, conflict free replicated data types, application level reconciliation, idempotent operations, retries, and saga or compensation patterns for long running workflows. Consider practical engineering concerns including consistency service level objectives, monitoring and alerting for staleness and replication lag, testing strategies for consistency, implications for caching and sharding, and the tradeoffs between developer complexity and user facing correctness.

0 questions

Storage and Database Infrastructure

Storage concepts: SSDs vs. HDDs, RAID configurations, storage protocols. Database troubleshooting basics, replication concepts, backup and recovery strategies, understanding query performance and index behavior, and storage at scale.

0 questions

Data Consistency and Recovery

Covers the spectrum of data consistency models used in distributed systems and the operational practices for detecting and recovering from inconsistency. Topics include strong consistency guarantees provided by atomicity, consistency, isolation, and durability style transactions and synchronous replication, and weaker models such as eventual consistency and causal consistency along with their read guarantees like read your writes and monotonic reads. Explain the trade offs between consistency, availability, and latency and how those trade offs influence architecture decisions, user experience, and cost. Discuss replication strategies including synchronous replication, asynchronous replication, and read replicas, and how replication modes affect staleness and failure behavior. Include coordination and consensus mechanisms for achieving stronger guarantees, for example leader based replication and consensus protocols, and distributed transaction approaches such as two phase commit. Cover operational concerns: how consistency choices change testing, deployment, monitoring, and incident response. Describe detection and recovery techniques for inconsistency such as validation checks, reconciliation and anti entropy processes, tombstones and conflict resolution strategies, use of vector clocks or conflict free replicated data types to resolve concurrent updates, point in time recovery and backups, and procedures for partial repairs, rollbacks, and replays. At senior levels also address how consistency decisions shape runbooks, alerting, and post incident analysis.

36 questions

Data Infrastructure Technology Selection

Deep understanding of specific technologies relevant to complex system design. Master databases (PostgreSQL, Cassandra, DynamoDB, Elasticsearch), message queues (Kafka, RabbitMQ), caching systems (Redis), search engines, and frameworks. Understand their strengths, weaknesses, trade-offs, operational characteristics, scaling patterns, and common pitfalls. Be able to justify technology choices based on specific system requirements.

40 questions

String and Date Manipulation

Covers practical skills for manipulating textual and temporal data. Typical expectations include string operations such as concatenation, substring extraction, case transformation, pattern replacement, and trimming, as well as date and time operations such as truncation, extracting date parts, computing differences, adding intervals, formatting, and handling time zones and daylight saving edge cases. Candidates may be asked to write or explain queries and small code snippets, reason about correctness and performance, and discuss pitfalls such as locale formats, leap seconds, and ambiguous input.

0 questions

Database Troubleshooting and Diagnostics

Systematic approaches and technical techniques for diagnosing database issues and restoring healthy operation. Topics include identifying symptoms, gathering diagnostic data from error logs and system views, analyzing slow queries with explain plans and profiling, diagnosing connection and authentication failures, detecting and resolving deadlocks and blocking, capacity and storage issues, replication and consistency problems, backup and restore verification, and corruption investigation. Candidates should be familiar with database specific diagnostic tools, monitoring and alerting metrics, indexing and query optimization strategies, and effective communication of findings to application and infrastructure teams.

40 questions

Infrastructure and Database Systems

Fundamental infrastructure and database engineering concepts relevant to analytics platforms and general backend systems. Topics include relational and non relational database architecture indexing strategies query optimization replication and consistency trade offs sharding and partitioning approaches caching systems design message queues and event streaming systems and how these components integrate to meet performance reliability and cost objectives. Candidates should be able to reason about capacity planning high availability disaster recovery backup strategies and operational concerns such as monitoring alerting and graceful degradation under load.

48 questions

Handling Large Scale Data and Time Series Data

Design for efficient storage and querying of massive datasets. Understand time-series data patterns (metrics, logs), specialized solutions like InfluxDB or TimescaleDB, and archiving strategies for historical data.

42 questions

Relational Databases and SQL

Focuses on relational database fundamentals and practical SQL skills. Candidates should be able to write and reason about SELECT queries, JOINs, aggregations, grouping, filtering, common table expressions, and window functions. They should understand schema design trade offs including normalization and denormalization, indexing strategies and index types, query performance considerations and basic optimization techniques, how to read an execution plan, and transaction semantics including isolation levels and ACID guarantees. Interviewers may test writing efficient queries, designing normalized schemas for given requirements, suggesting appropriate indexes, and explaining how to diagnose and improve slow queries.

0 questions

Working with Sample Datasets and Schemas

Get comfortable quickly understanding an unfamiliar database schema before you ever write a query. Practice identifying primary and foreign keys, tracing relationships between tables (one-to-many, many-to-many, self-referencing), and distinguishing natural keys from surrogate keys. Learn a methodical exploration approach: skim table and column names, check information_schema or an ER diagram if one exists, follow foreign key chains outward from a core entity, and note nullable columns and naming conventions that hint at business rules. This skill transfers across domains, whether the schema is e-commerce (orders, customers, products), SaaS (accounts, users, subscriptions), or a revenue/CRM tech stack (leads, accounts, opportunities, interactions).

0 questions

Azure Storage and Database Options

Be able to compare Azure storage services and managed database offerings and explain when each is appropriate. Cover object storage for unstructured data, file shares for lift and shift legacy workloads, queue storage for messaging patterns, and table storage for simple NoSQL key value needs. For databases describe managed relational options such as Azure SQL Database and Azure Database for PostgreSQL or MySQL, and NoSQL options such as Cosmos DB, including differences in consistency, global distribution, latency, and operational trade offs. Discuss redundancy and durability options such as locally redundant, geo redundant, and read access geo redundant storage, and touch on performance tuning, backup and restore, lifecycle management, and security considerations that influence selection.

0 questions

Database Architecture and Optimization

Designing and tuning data storage systems to meet requirements for availability, latency, throughput, and cost. Topics include choosing between managed relational services and NoSQL key value or document stores, data modelling and schema design, partitioning and sharding strategies, replication and read replica patterns, indexing and query optimization, transaction and consistency trade offs, connection pooling and resource management, caching and cache invalidation strategies, backup and retention policies, capacity planning and monitoring, and approaches for migrating or scaling databases in production. Candidates should be able to discuss concrete techniques for improving performance, diagnosing slow queries, and balancing operational complexity against performance and cost.

0 questions

Distributed Database Architecture

Covers principles and patterns for designing databases that span nodes and regions. Subjects include replication strategies synchronous and asynchronous, partitioning and sharding approaches, leader follower and multi leader architectures, consensus mechanisms and their trade offs, consistency models including eventual consistency and strong consistency, cross region failover and disaster recovery, indexing and query routing in partitioned systems, transactional semantics and distributed transactions, and operational concerns such as backup, schema evolution, and performance tuning for distributed data stores.

0 questions

Database Design and Query Optimization

Principles of database schema design and performance optimization including relational and non relational trade offs, normalization and denormalization, indexing strategies and index types, clustered and non clustered indexes, query execution plans, common table expressions for readable complex queries, detecting missing or redundant indexes, sharding and partitioning strategies, and consistency and availability trade offs. Candidates should demonstrate knowledge of optimizing reads and writes, diagnosing slow queries, and selecting the appropriate database model for scale and consistency requirements.

0 questions

Query Optimization and Execution Plans

Focuses on diagnosing slow queries and reducing execution cost through analysis of query execution plans and systematic query rewrites. Candidates should be able to read and interpret explain output and execution plans including identifying expensive operators such as sequential table scans index scans sorts nested loop join hash join and merge join and explaining why those operators appear. Core skills include cost and cardinality estimation understanding join order and predicate placement predicate pushdown and selectivity reasoning comparing exists versus in versus join patterns and identifying common anti patterns such as N plus one queries. The topic covers profiling and benchmarking approaches using explain analyze and runtime statistics comparing estimated and actual row counts proposing and validating query rewrites and configuration or schema changes and reasoning about trade offs when using materialized views caching denormalization or partitioning to improve performance. Candidates should present step by step approaches to diagnose problems measure improvements and assess impact on other workloads.

0 questions

Database Selection and Trade Offs

How to evaluate and choose data storage systems and architectures based on workload characteristics and business constraints. Coverage includes differences between relational and nonrelational families such as document stores, key value stores, wide column stores, graph databases, time series databases, and search engines; mapping query patterns and latency requirements to storage options; trade offs between strong consistency and eventual consistency and their impact on availability and complexity; partition key design, replication strategies, and high availability considerations; operational concerns including backups, monitoring, vendor and cost trade offs, migration or hybrid strategies, and when to adopt polyglot persistence. Senior level discussion includes selecting specific managed services and reasoning about expected load patterns, failure modes, and operational burden.

40 questions

Database and Data Platform Selection

Evaluation and selection of database and data platform technologies to meet analytical and operational needs. Covers assessment of relational, non relational, columnar, and specialized systems such as time series and search engines; data warehouse platforms and cloud analytics platforms; query patterns and workload characteristics; consistency and transactional guarantees; partitioning and clustering strategies; storage formats and compression; performance and scalability trade offs; operational complexity and administration overhead; data ingestion and incremental loading patterns; pricing and cloud platform considerations; and how to choose the right solution based on data volume, concurrency, latency requirements, and total cost of ownership.

40 questions

Database Architecture and Partitioning

Design database architecture and partitioning strategies appropriate to workload and access patterns. Evaluate database types including relational and various NoSQL models, schema design and indexing strategies, and when to use a monolithic database versus sharding. Cover sharding approaches such as range based, hash based, consistent hashing, and directory based sharding, as well as replica topologies, read replicas, replication lag, and handling cross shard queries. Address operational concerns at scale: resharding, mitigating hot partitions, balancing data distribution, transactional and consistency guarantees, and the trade offs between availability, consistency, and partition tolerance. Include monitoring, migration strategies, and impact on application logic and joins.

44 questions

Database Scalability and High Availability

Architectural approaches and operational practices for scaling and maintaining database availability. Topics include vertical versus horizontal scaling trade offs; replication topologies, leader and follower roles, read replicas and replica lag; read write splitting and connection pooling; sharding and partitioning strategies including range based, hash based, and consistent hashing approaches; handling hot partitions and data skew; federation and multi database federation patterns; cache layers and cache invalidation; rebalancing and resharding strategies; distributed concurrency control and transactional guarantees across shards; multi region deployment strategies, cross region failover and disaster recovery; monitoring, capacity planning, automation for failover and backups, and cost optimization at scale. Candidates should be able to pick scaling approaches based on read and write patterns and explain operational complexity and trade offs introduced by distributed data.

0 questions

Data Partitioning and Sharding

Techniques and operational practices for horizontally partitioning data across multiple database instances or storage nodes to achieve scale, improve performance, and manage growth. Includes selection and design of partition and shard keys to evenly distribute load and avoid hotspots, with range based, hash based, and directory based approaches and consistent hashing mechanisms. Covers handling uneven distribution and data skew, hotspot detection and mitigation, and the impact of partitioning on query patterns such as joins and cross shard queries. Explains implications for transactions and consistency, including transactional boundaries that span partitions and approaches to distributed transactions and compensation. Describes resharding and online data migration strategies, rolling rebalances, and methods to minimize downtime and data movement. Emphasizes operational concerns including shard management, automation, monitoring and alerting, failure recovery, and performance tuning. Discusses trade offs between simplicity, latency, throughput, and operational complexity and highlights considerations for both transactional and analytical workloads, including routing, caching, and coordination patterns.

0 questions

Database Patching and Upgrades

Covers the end to end planning, testing, deployment, validation, and recovery activities required to apply vendor patches and perform database engine upgrades with minimal risk and downtime. Topics include inventory and prioritization of instances and security fixes, staging and testing in non production environments, taking and validating backups, schema and engine compatibility checks, analysis of client driver and application dependencies, and assessment of breaking changes and deprecation notices. Candidates should be able to design safe upgrade paths such as rolling upgrades, staged rollouts, and replica promotion strategies to minimize service interruption, as well as define rollback and restore procedures and runbooks. The scope also includes coordinating changes with application deployments and stakeholders, scheduling and communication, post patch monitoring and validation of data integrity and query performance, understanding vendor version support lifecycles, and the use of automation and orchestration tools and vendor specific practices for both relational and non relational databases. Finally, candidates should explain how they would recover from failed patch or upgrade attempts and how they would measure and mitigate operational risk throughout the lifecycle.

0 questions

Database Replication and High Availability

Comprehensive coverage of database replication architectures, topologies, design tradeoffs, and operational practices used to achieve high availability and data durability. Candidates should understand replication models such as primary backup, master slave, multi master, cascading replication, and read replica topologies, and explain synchronous versus asynchronous modes and the tradeoffs between consistency, latency, throughput, and durability. Important areas include causes of replication lag and mitigation techniques such as parallel apply, batching, compression, flow control, and topology choices that reduce lag; conflict detection and resolution in multi master setups including version vectors, vector clocks, causal ordering, last writer wins, and application level reconciliation; and split brain scenarios with prevention techniques such as quorum voting, fencing, and membership management. The topic also encompasses automatic failover and leader election using consensus protocols, implications for recovery point objective and recovery time objective depending on replication choices, backup and restore interactions and snapshot consistency, read scaling versus write scaling limits, redundancy and clustering strategies, quorum and availability group design, capacity planning, network and storage considerations, monitoring and alerting metrics for replication health and lag, testing and rehearsing failover, automation of failover and promotion, and concrete examples and tools such as MySQL replication, PostgreSQL streaming replication, Galera cluster, distributed consensus implementations like Paxos and Raft, and cloud managed availability services.

0 questions

Transaction Management and Concurrency Control

Covers transaction management and concurrency control in database and storage systems, focusing on the four foundational properties of transactions: atomicity, consistency, isolation, and durability. Candidates should understand the transaction lifecycle including begin, commit, and rollback semantics; how atomicity and durability are implemented through write ahead logging, checkpoints, and recovery; and how consistency is enforced via integrity constraints and application invariants. Describe isolation levels such as Read Uncommitted, Read Committed, Repeatable Read, and Serializable, and explain the concrete anomalies each level permits or prevents, including dirty reads, non repeatable reads, lost updates, and phantom reads, as well as the concept of serializability as a correctness criterion. Cover concurrency control mechanisms including locking protocols with modes and granularity at row, page, and table levels, lock escalation, two phase locking, deadlock detection and resolution strategies, optimistic versus pessimistic concurrency strategies, and multi version concurrency control and snapshot isolation. Discuss performance and scalability trade offs when selecting isolation levels or concurrency strategies, practical diagnostics and monitoring for lock contention and deadlocks, and distributed transaction considerations such as two phase commit coordination, global ordering and partial failures, eventual consistency models, and when it is acceptable to relax strict transactional guarantees for availability or latency in distributed systems.

0 questions

Database Performance Tuning and Scaling

Addresses database system level performance and scaling strategies and how they interact with query design. Candidates should describe approaches for identifying and resolving database level bottlenecks including slow query diagnosis using logs and profiling instrumenting metrics and establishing baselines and targets for latency and throughput. Topics include caching strategies materialized views partitioning and sharding replication and read replica architectures connection management and improving cache utilization as well as trade offs when denormalizing schema or adopting alternative data models. Candidates should be able to propose step by step remediation plans measure the impact of changes and reason about operational concerns such as index maintenance windows monitoring and capacity planning.

0 questions

Database Fundamentals and Storage Engines

Core principles and components of data storage and persistence systems. This includes storage engine architectures and how they affect query processing and performance; transactions and isolation including atomicity, consistency, isolation, and durability; concurrency control and isolation levels; indexing strategies and how indexes affect read and write amplification; physical versus logical storage and object, block, and file storage characteristics; caching layers and cache invalidation patterns; replication basics and how replication affects durability and read performance; backup and recovery techniques including snapshots and point in time recovery; trade offs captured by consistency, availability, and partition tolerance reasoning; compression, cost versus performance trade offs, data retention, archival, and compliance concerns. Candidates should be able to reason about durability, persistence guarantees, operational recovery, and storage choices that affect latency, throughput, and cost.

40 questions

Database Engineering & Data Systems Topics

Indexing Strategy and Selection

Database Design and Architecture

SQL Scenarios

Managed Databases and Data Services

Relational Database Fundamentals and Design

Consistency Models and Transactions

Storage and Database Infrastructure

Data Consistency and Recovery

Data Infrastructure Technology Selection

String and Date Manipulation

Database Troubleshooting and Diagnostics

Infrastructure and Database Systems

Handling Large Scale Data and Time Series Data

Relational Databases and SQL

Working with Sample Datasets and Schemas

Azure Storage and Database Options

Database Architecture and Optimization

Distributed Database Architecture

Database Design and Query Optimization

Query Optimization and Execution Plans

Database Selection and Trade Offs

Database and Data Platform Selection

Database Architecture and Partitioning

Database Scalability and High Availability

Data Partitioning and Sharding

Database Patching and Upgrades

Database Replication and High Availability

Transaction Management and Concurrency Control

Database Performance Tuning and Scaling

Database Fundamentals and Storage Engines